当前位置：主页 > 查看内容

数据分析工具篇——Spark计算原理

发布时间：2021-04-21 00:00| 有位朋友查看

简介：Hadoop的MR结构和YARN结构是大数据时代的第一代产品，满足了大家在离线计算上的需求，但是针对实时运算却存在不足，为满足这一需求，后来的大佬研发了spark计算方法，大大的提高了运算效率。 Spark的计算原理 spark的结构为：节点介绍： Cluster Manager：……

Hadoop的MR结构和YARN结构是大数据时代的第一代产品，满足了大家在离线计算上的需求，但是针对实时运算却存在不足，为满足这一需求，后来的大佬研发了spark计算方法，大大的提高了运算效率。

Spark的计算原理

spark的结构为：

节点介绍：

Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器负责分配资源，有点像YARN中ResourceManager那个角色，大管家握有所有的干活的资源，属于乙方的总包。
WorkerNode：可以干活的节点，听大管家ClusterManager差遣，是真正有资源干活的主。从节点，负责控制计算节点，启动Executor或者Driver。
Executor：在WorkerNode上起的一个进程，相当于一个包工头，负责准备Task环境和执行。
Task：负责内存和磁盘的使用。Task是施工项目里的每一个具体的任务。
Driver：统管Task的产生与发送给Executor的，运行Application 的main()函数，是甲方的司令员。
SparkContext：与ClusterManager打交道的，负责给钱申请资源的，是甲方的接口人。

整个互动流程是这样的：

甲方来了个项目，创建了SparkContext，SparkContext去找ClusterManager申请资源同时给出报价，需要多少CPU和内存等资源。ClusterManager去找WorkerNode并启动Excutor，并介绍Excutor给Driver认识;
Driver根据施工图拆分一批批的Task，将Task送给Executor去执行;
Executor接收到Task后准备Task运行时依赖并执行，并将执行结果返回给Driver;
Driver会根据返回回来的Task状态不断的指挥下一步工作，直到所有Task执行结束;

运行流程及特点为：

Sparkcontext的作用：一是分发task，申请资源等功能外，更重要的一个功能是将RDD拆分成task，即绘制DAG图。

借用上图我们再来了解一下spark的运算过程：

构建Spark Application的运行环境，启动SparkContext;
SparkContext向资源管理器(可以是Standalone，Mesos，Yarn)申请运行Executor资源，并启动StandaloneExecutorbackend;
Executor向SparkContext申请Task;
SparkContext将应用程序分发给Executor;
SparkContext构建成DAG图，将DAG图分解成Stage、将Taskset发送给Task Scheduler，最后由Task Scheduler将Task发送给Executor运行;
Task在Executor上运行，运行完释放所有资源;

RDD计算案例

我们用一个案例来分析RDD的计算过程：

在客户端通过RDD构建一个RDD的图形，如图第一部分rdd1.join(rdd2).groupby(…).filter(…)。
sparkcontext中的DAGScheduler会将上步的RDD图形构建成DAG图形，如图第二部分;
TaskScheduler会将DAG图形拆分成多个Task;
Clustermanager通过Yarn调度器将Task分配到各个node的Executer中，结合相关资源进行运算。

DAGScheduler对于RDD图形的划分是有一定规律的：

stage的划分是触发action的时候从后往前划分的，所以本图要从RDD_G开始划分。
RDD_G依赖于RDD_B和RDD_F，随机决定先判断哪一个依赖，但是对于结果无影响。
RDD_B与RDD_G属于窄依赖，所以他们属于同一个stage，RDD_B与老爹RDD_A之间是宽依赖的关系，所以他们不能划分在一起，所以RDD_A自己是一个stage1;
RDD_F与RDD_G是属于宽依赖，他们不能划分在一起，所以最后一个stage的范围也就限定了，RDD_B和RDD_G组成了Stage3;
RDD_F与两个爹RDD_D、RDD_E之间是窄依赖关系，RDD_D与爹RDD_C之间也是窄依赖关系，所以他们都属于同一个stage2;
执行过程中stage1和stage2相互之间没有前后关系所以可以并行执行，相应的每个stage内部各个partition对应的task也并行执行;
stage3依赖stage1和stage2执行结果的partition，只有等前两个stage执行结束后才可以启动stage3;
我们前面有介绍过Spark的Task有两种：ShuffleMapTask和ResultTask，其中后者在DAG最后一个阶段推送给Executor，其余所有阶段推送的都是ShuffleMapTask。在这个案例中stage1和stage2中产生的都是ShuffleMapTask，在stage3中产生的ResultTask;
虽然stage的划分是从后往前计算划分的，但是依赖逻辑判断等结束后真正创建stage是从前往后的。也就是说如果从stage的ID作为标识的话，先需要执行的stage的ID要小于后需要执行的ID。就本案例来说，stage1和stage2的ID要小于stage3，至于stage1和stage2的ID谁大谁小是随机的，是由前面第2步决定的。

Executor是最终运行task的苦力，他将Task的执行结果反馈给Driver，会根据大小采用不同的策略：

如果大于MaxResultSize，默认1G，直接丢弃;
如果“较大”，大于配置的frameSize(默认10M)，以taksId为key存入BlockManager
else，全部吐给Driver。

【责任编辑：未丽燕 TEL：（010）68476606】
本文转载自网络，原文链接：https://mp.weixin.qq.com/s/TX3FqULZpbhKSriKilF19w
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：众安保险CTO康德胜：云上保险与众不同 | 阿里CIO学院名人堂 下一篇：没有了

随机推荐

使用AnalyticDB轻松实现以图搜图和人脸检

1. 背景以图搜图在生活中有着广泛的应用, 当我们在电视上看到有人穿着一件美丽...
经典搞笑的校园说说：别跟我提开学，伤感

1．小学上了十年，中学十二年，我被评为全校最熟悉的面孔，新老师来了都跟我打听...
幽默搞笑的话：军训左右转动是因为这样晒

1．下课铃声，才是中国最强音。 2．我把所有的记忆串联成一部电影，一部悲剧就生...
【活动已结束，获奖人员名单公布】3月Tec

3月Techo Youth高校公开课Demo实操演练【活动已结束】 3月Techo Youth高校公开...
对于Python编程者最有用和最常见的模块

你是否曾经被大量的python模块压垮过?你是否曾经在为一个特定的项目挑选一个时陷...
2021年企业云计算战略7种趋势

对于那些希望在2021年提升业务成果的首席信息官来说，最主要的目标是实现混合云...
函数计算助力世纪联华平滑支撑双11大促

客户介绍世纪联华是一家门店超过 170 余家，具备全国网点布局，在快速消费品连...
搞笑说说心情短语：樟脑丸是我吃过最难吃

1．别和我谈恋爱，虚伪，有本事咱俩结婚。 2．我在减肥，我既不节食也不运动，我...
搞笑说说加图片：下辈子我要做洋葱，谁欺

1．我的一生只有两件事不会，这也不会，那也不会。 2．下辈子我要做洋葱，谁欺负...
阿里云原生多模数据库Lindorm联合东软云

作者许力阿里云原生多模数据库Lindorm与东软云科技推出联合解决方案共建面向...

数据分析工具篇——Spark计算原理

推荐图文

如何用 C++ 读写文件

每周一企 | 「近屿智能」与钉钉联手赋能中小企业云

如何优雅地回答面试官关于MySQL索引的拷问

Prometheus部署

阿里云CDN产品架构师罗小飞：我是一名“特种兵”

现代前端工程为什么越来越离不开 Monorepo?

随机推荐

使用AnalyticDB轻松实现以图搜图和人脸检

经典搞笑的校园说说：别跟我提开学，伤感

幽默搞笑的话：军训左右转动是因为这样晒

【活动已结束，获奖人员名单公布】3月Tec

对于Python编程者最有用和最常见的模块

2021年企业云计算战略7种趋势

函数计算助力世纪联华平滑支撑双11大促

搞笑说说心情短语：樟脑丸是我吃过最难吃

搞笑说说加图片：下辈子我要做洋葱，谁欺

阿里云原生多模数据库Lindorm联合东软云

关于我们