当前位置：主页 > 查看内容

Flink为什么比Spark快？大数据流处理的框架比较

发布时间：2021-06-12 00:00| 有位朋友查看

简介：大数据处理的新趋势，流处理和批处理是非常重要的两个概念，而基于流处理和批处理的大数据处理框架，Flink和Spark，也是常常被大家拿来做比较的对象。而在实时流数据处理上，Flink性能似乎更加强劲，那么Flink为什么比Spark快呢，今天我们就来聊聊这个话题。……

大数据处理的新趋势，流处理和批处理是非常重要的两个概念，而基于流处理和批处理的大数据处理框架，Flink和Spark，也是常常被大家拿来做比较的对象。而在实时流数据处理上，Flink性能似乎更加强劲，那么Flink为什么比Spark快呢，今天我们就来聊聊这个话题。

Spark和Flink都是针对于实时数据处理的框架，并且两者也都在实际的工作当中表现出色，但是如果要深究两者在大数据处理的区别，我们需要从Spark和Flink的引擎技术开始讲起。

Spark和Flink计算引擎，在处理大规模数据上，数据模型和处理模型有很大的差别。

Spark的数据模型是弹性分布式数据集RDD(Resilient Distributed Datasets)。RDD可以实现为分布式共享内存或者完全虚拟化(即有的中间结果RDD当下游处理完全在本地时可以直接优化省略掉)。这样可以省掉很多不必要的I/O，是早期Spark性能优势的主要原因。

Spark用RDD上的变换(算子)来描述数据处理。每个算子(如map，filter，join)生成一个新的RDD。所有的算子组成一个有向无环图(DAG)。这就是Spark进行数据处理的核心机制。

而Flink的基本数据模型，则是数据流，及事件(Event)的序列。数据流作为数据的基本模型，这个流可以是无边界的无限流，即一般意义上的流处理。也可以是有边界的有限流，这样就是批处理。

Flink用数据流上的变换(算子)来描述数据处理。每个算子生成一个新的数据流。在算子，DAG，和上下游算子链接(chaining)这些方面，和Spark的基本思路是一样的。

但是在在DAG的执行上，Spark和Flink有明显的不同。

在Flink的流执行模式中，一个事件在一个节点处理完后的输出就可以发到下一个节点立即处理。这样执行引擎并不会引入额外的延迟。而Spark的micro batch和一般的batch执行一样，处理完上游的stage得到输出之后才开始下游的stage。

这也就是Flink为什么比Spark快的原因之一。并且Flink在数据流计算执行时，还可以把多个事件一起进行传输和计算，进一步实现数据计算的低延迟。所以Flink之所以快，其实也可以理解为比Spark的延迟性更低。

点赞 0
本文转载自网络，原文链接：https://www.toutiao.com/a6794697689217892867/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：对全球大流行新冠肺炎数据的深度分析揭示出重要发现 下一篇：用户留存分析真的不难，只要能搞清楚这3个模型

随机推荐

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...
为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...

Flink为什么比Spark快？大数据流处理的框架比较

推荐图文

大数据时代，必须做好这3大布局：才能抢占新的造富

云服务器调整实例配置询价 - API 文档

智能数据构建与管理平台Dataphin的前世今生：缘起

C4D 学习笔记

云安全的现代方法

国内首款基于.NET Core平台的大数据可视化分析工具

随机推荐

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

没有数据的数据科学？请尽早聘用数据工程

TIOBE 3月榜单：新功能将加入，C语言仍高

技术扫盲：关于低代码编程的可持续性交付

溢价域名的续费价格如何

一日一技：巧用or关键字实现多重条件判断

Java编程内功-数据结构与算法「赫夫曼树

NVIDIA GPU Operator分析一：NVIDIA驱动

为何Spark在编程界越来越吃香？Spark将成

互联网创业第一步，从他花3500美元买了个

关于我们