当前位置：主页 > 查看内容

实时大数据计算引擎Apache Flink计算研究(一)

发布时间：2021-06-29 00:00| 有位朋友查看

简介：1、Flink local模式安装 Linux 1.在官网下载Flink 并解压到?/opt/software/flink-text/ tar -zxvf flink-1.6.1-bin-hadoop27-scala_2.11.tgz 2.解压成功后 ?local模式不需要添加额外配置 ./bin/start-cluster.sh 3.验证是否正常启动输入jps 验证进程是否……

1、Flink local模式安装 Linux

1.在官网下载Flink 并解压到?/opt/software/flink-text/

tar -zxvf flink-1.6.1-bin-hadoop27-scala_2.11.tgz

2.解压成功后

?local模式不需要添加额外配置

./bin/start-cluster.sh

3.验证是否正常启动

输入jps 验证进程是否启动

输入网址节点IP加端口号8081

flink单节点安装已经完成。

2、Flink的流处理与批处理介绍

在大数据处理领域批处理任务与流处理任务一般被认为是两种不同的任务一个大数据框架一般会被设计为只能处理其中一种任务。

例如Storm只支持流处理任务而MapReduce、Spark只支持批处理任务。Spark Streaming是Apache Spark之上支持流处理任务的子系统看似是一个特例其实并不是——Spark Streaming采用了一种micro-batch的架构即把输入的数据流切分成细粒度的batch 并为每一个batch数据提交一个批处理的Spark任务所以Spark Streaming本质上还是基于Spark批处理系统对流式数据进行处理和Storm等完全流式的数据处理方式完全不同。Flink通过灵活的执行引擎能够同时支持批处理任务与流处理任务在执行引擎这一层流处理系统与批处理系统最大不同在于节点间的数据传输方式。对于一个流处理系统其节点间数据传输的标准模型是当一条数据被处理完成后序列化到缓存中然后立刻通过网络传输到下一个节点由下一个节点继续处理而对于一个批处理系统其节点间数据传输的标准模型是当一条数据被处理完成后序列化到缓存中并不会立刻通过网络传输到下一个节点当缓存写满就持久化到本地硬盘上当所有数据都被处理完成后才开始将处理后的数据通过网络传输到下一个节点这两种数据传输模式是两个极端对应的是流处理系统对低延迟的要求和批处理系统对高吞吐量的要求Flink的执行引擎采用了一种十分灵活的方式同时支持了这两种数据传输模型Flink以固定的缓存块为单位进行网络数据传输用户可以通过设置缓存块超时值指定缓存块的传输时机。如果缓存块的超时值为0 则Flink的数据传输方式类似上文所提到流处理系统的标准模型此时系统可以获得最低的处理延迟如果缓存块的超时值为无限大则Flink的数据传输方式类似上文所提到批处理系统的标准模型此时系统可以获得最高的吞吐量同时缓存块的超时值也可以设置为0到无限大之间的任意值。缓存块的超时阈值越小则Flink流处理执行引擎的数据处理延迟越低但吞吐量也会降低反之亦然。通过调整缓存块的超时阈值用户可根据需求灵活地权衡系统延迟和吞吐量3、Flink应用场景分析1.优化电商网站的实时搜索结果阿里巴巴的所有基础设施团队使用flink实时更新产品细节和库存信息(Blink)

针对数据分析团队提供实时流处理服务

通过flink数据分析平台提供实时数据分析服务及时发现问题

网络/传感器检测和错误检测

Bouygues电信公司是法国最大的电信供应商之一使用flink监控其有线和无线网络实现快速故障响应

商业智能分析ETL

Zalando使用flink转换数据以便于加载到数据仓库将复杂的转换操作转化为相对简单的并确保分析终端用户可以更快的访问数据(实时ETL2.Flink vs Storm vs SparkStreaming

Flink在吞吐量上要优于strom 在延时上要强于spark流处理

3.实时框架如何选择

小型项目低延迟建议用strom轻量级方标使用。

大型项目并且秒级别的实时处理可以满足需求的话建议使用sparkStreaming。

要求消息投递语义为 Exactly Once 的场景数据量较大要求高吞吐低延迟的场景需要进行状态管理或窗口统计的场景建议使用flink。

4、Flink入门案例-wordCount

需求分析

手工通过socket实时产生一些单词使用flink实时接收数据对指定时间窗口内(例如 2秒)的数据进行聚合统计并且把时间窗口内计算的结果打印出来

代码编写步骤如下

1 获得一个执行环境

2 加载/创建初始化数据

3 指定操作数据的transaction算子

4 指定把计算好的数据放在哪

5 调用execute()触发执行程序

注意 Flink程序是延迟计算的只有最后调用execute()方法的时候才会真正触发执行程序。延迟计算好处你可以开发复杂的程序但是Flink可以将复杂的程序转成一个Plan 将Plan作为一个整体单元执行

测试执行

在自己的虚拟机上执行?nc -l 9000 然后输入字母

就会在控制台现在单词数量结果如下

public class SocketWindowWordCountJava {
 public static void main(String[] args) throws Exception{
 //获取需要的端口号
 int port;
 try {
 ParameterTool parameterTool ParameterTool.fromArgs(args);
 port parameterTool.getInt( port );
 }catch (Exception e){
 System.err.println( No port set. use default port 9000--java );
 port 9000;
 //获取flink的运行环境
 StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment();
 String hostname 192.168.78.130 ;
 String delimiter \n ;
 //连接socket获取输入的数据
 DataStreamSource String text env.socketTextStream(hostname, port, delimiter);
 // a a c
 // a 1
 // a 1
 // c 1
 DataStream WordWithCount windowCounts text.flatMap(new FlatMapFunction String, WordWithCount () {
 public void flatMap(String value, Collector WordWithCount out) throws Exception {
 String[] splits value.split( \\s );
 for (String word : splits) {
 out.collect(new WordWithCount(word, 1L));
 }).keyBy( word )
 .timeWindow(Time.seconds(2), Time.seconds(1))//指定时间窗口大小为2秒 指定时间间隔为1秒
 .sum( count );//在这里使用sum或者reduce都可以
 /*.reduce(new ReduceFunction WordWithCount () {
 public WordWithCount reduce(WordWithCount a, WordWithCount b) throws Exception {
 return new WordWithCount(a.word,a.count b.count);
 })*/
 //把数据打印到控制台并且设置并行度
 windowCounts.print().setParallelism(1);
 //这一行代码一定要实现 否则程序不执行
 env.execute( Socket window count );
 public static class WordWithCount{
 public String word;
 public long count;
 public WordWithCount(){}
 public WordWithCount(String word,long count){
 this.word word;
 this.count count;
 Override
 public String toString() {
 return WordWithCount{ 
 word word \ 
 , count count

5、DataStream API之Data Sources

source是程序的数据源输入你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。

flink提供了大量的已经实现好的source方法你也可以自定义source

通过实现sourceFunction接口来自定义无并行度的source

或者你也可以通过实现ParallelSourceFunction?接口 or 继承RichParallelSourceFunction?来自定义有并行度的source

已经实现好的source

基于文件

readTextFile(path)读取文本文件文件遵循TextInputFormat 读取规则逐行读取并返回。不常用

基于socket

socketTextStream
从socker中读取数据元素可以通过一个分隔符切开。

基于集合

fromCollection(Collection)通过java 的collection集合创建一个数据流集合中的所有元素必须是相同类型的。常用自己测试

addSource 可以实现读取第三方数据源的数据系统内置提供了一批connectors 连接器会提供对应的source支持【kafka】Apache Kafka (source/sink)
Apache Cassandra (sink)
Elasticsearch (sink)
Hadoop FileSystem (sink)
RabbitMQ (source/sink)
Apache ActiveMQ (source/sink)
Redis (sink)

自定义source的实现

没有并行度的数据源

public class MyNoParalleSource implements SourceFunction Long {
 private long count 1L;
 private boolean isRunning true;
 * 主要的方法
 * 启动一个source
 * 大部分情况下 都需要在这个run方法中实现一个循环 这样就可以循环产生数据了
 * param ctx
 * throws Exception
 Override
 public void run(SourceContext Long ctx) throws Exception {
 while(isRunning){
 ctx.collect(count);
 count ;
 //每秒产生一条数据
 Thread.sleep(1000);
 * 取消一个cancel的时候会调用的方法
 Override
 public void cancel() {
 isRunning false;
}

测试程序

public static void main(String[] args) throws Exception {
 //获取Flink的运行环境
 StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment();
 //获取数据源
 DataStreamSource Long text env.addSource(new MyNoParalleSource()).setParallelism(1);//注意 针对此source 并行度只能设置为1
 DataStream Long num text.map(new MapFunction Long, Long () {
 Override
 public Long map(Long value) throws Exception {
 System.out.println( 接收到数据 value);
 return value;
 //每2秒钟处理一次数据
 DataStream Long sum num.timeWindowAll(Time.seconds(2)).sum(0);
 //打印结果
 sum.print().setParallelism(1);
 String jobName StreamingDemoWithMyNoPralalleSource.class.getSimpleName();
 env.execute(jobName);
}

测试结果

有并行度的数据

public class MyParalleSource implements ParallelSourceFunction Long {
 private long count 1L;
 private boolean isRunning true;
 * 主要的方法
 * 启动一个source
 * 大部分情况下 都需要在这个run方法中实现一个循环 这样就可以循环产生数据了
 * param ctx
 * throws Exception
 Override
 public void run(SourceContext Long ctx) throws Exception {
 while(isRunning){
 ctx.collect(count);
 count ;
 //每秒产生一条数据
 Thread.sleep(1000);
 * 取消一个cancel的时候会调用的方法
 Override
 public void cancel() {
 isRunning false;

测试代码

public class StreamingDemoWithMyPralalleSource {
 public static void main(String[] args) throws Exception {
 //获取Flink的运行环境
 StreamExecutionEnvironment env StreamExecutionEnvironment.getExecutionEnvironment();
 //获取数据源
 DataStreamSource Long text env.addSource(new MyParalleSource()).setParallelism(2);//主要是这里的不同 这里设置的并行度是2 首先数据源是一个并行的数据源 然后在设置你用几个平行去接这个数据源
 DataStream Long num text.map(new MapFunction Long, Long () {
 Override
 public Long map(Long value) throws Exception {
 System.out.println( 接收到数据 value);
 return value;
 //每2秒钟处理一次数据
 DataStream Long sum num.timeWindowAll(Time.seconds(2)).sum(0);
 //打印结果
 sum.print().setParallelism(1);
 String jobName StreamingDemoWithMyPralalleSource.class.getSimpleName();
 env.execute(jobName);
}

测试结果

高级有并行的实现

/**
 * 自定义实现一个支持并行度的source
 * RichParallelSourceFunction 会额外提供open和close方法
 * 针对source中如果需要获取其他链接资源 那么可以在open方法中获取资源链接 在close中关闭资源链接
 * Created by xuwei.tech on 2018/10/23.
public class MyRichParalleSource extends RichParallelSourceFunction Long {
 private long count 1L;
 private boolean isRunning true;
 * 主要的方法
 * 启动一个source
 * 大部分情况下 都需要在这个run方法中实现一个循环 这样就可以循环产生数据了
 * param ctx
 * throws Exception
 Override
 public void run(SourceContext Long ctx) throws Exception {
 while(isRunning){
 ctx.collect(count);
 count ;
 //每秒产生一条数据
 Thread.sleep(1000);
 * 取消一个cancel的时候会调用的方法
 Override
 public void cancel() {
 isRunning false;

本文转自网络，原文链接：https://developer.aliyun.com/article/784957
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：DataWorks熟能生巧系列直播第三期：DataWorks调度参数配置 下一篇：没有了

随机推荐

函数是一等公民，这到底在说什么？

在 Go 语言中文网微信群里有人问了这么一个问题：(要加群记得在公众号回复消息入...
“156”、“书”、“中通”等域名今日结

TOP云（west.cn）3月30日讯，昨天是TOP云第一街.xyz精品保留域名拍卖会的倒数...
云服务器重启实例 - API 文档

1. 接口描述接口请求域名： cvm.tencentcloudapi.com 。本接口 (RebootInstanc...
工业互联网加速产业转型升级，华为云助力

当前，制造业的转型升级是适应国际国内双循环的内在要求，也是推动碳达峰、碳中...
nodejs AMQP服务端订阅的实现

步骤 : ? 1)环境安装 node.js (下载安装包,下一步.....就行了) 这个是我的版本 I...
IBM缪可延：混合云平台战略是企业决胜未

作者缪可延 IBM 副总裁，大中华区云计算与认知软件事业部总经理企业正处在一个...
Java基础之编译异常和运行异常

一、getProperties()方法 1.System类提供一个getProperties()方法用来获取当前系...
到底什么是串级PID？

本文转载自微信公众号「小麦大叔」，作者菜刀和小麦。转载本文请联系小麦大叔公...
综述篇：数据中台成为企业增长的刚需 |

吴雪军(东锤) 一、2020数据已经成为生产要素数据中台为什么成为企业增长的刚需...
批量查询域名是否被注册

批量查询域名是否被注册？注册域名前需要查询域名，查询想要注册的域名是否...

实时大数据计算引擎Apache Flink计算研究(一)

推荐图文

一个身份证可以实名多少域名

python编译后的pyd爆破

因你不同，2021 阿里云开发者大会重磅开启 @ 所有开

域名购买多少钱一年

Python数据分析实战，简单快速制作餐饮行业商业化报

使用 Node.js 的 Async Hooks 模块追踪异步资源

随机推荐

函数是一等公民，这到底在说什么？

“156”、“书”、“中通”等域名今日结

云服务器重启实例 - API 文档

工业互联网加速产业转型升级，华为云助力

nodejs AMQP服务端订阅的实现

IBM缪可延：混合云平台战略是企业决胜未

Java基础之编译异常和运行异常

到底什么是串级PID？

综述篇：数据中台成为企业增长的刚需 |

批量查询域名是否被注册

关于我们