当前位置:主页 > 查看内容

Spark 大数据处理最佳实践

发布时间:2021-07-16 00:00| 位朋友查看

简介:开源大数据社区 阿里云 EMR 系列直播 第十一期 主题 Spark 大数据处理最佳实践 讲师 简锋 阿里云 EMR 数据开发平台 负责人 内容框架 大数据概览如何摆脱技术小白Spark SQL 学习框架EMR Studio 上的大数据最佳实践 直播回放 扫描文章底部二维码加入钉群观看回……
开源大数据社区 阿里云 EMR 系列直播 第十一期


主题 Spark 大数据处理最佳实践


讲师 简锋 阿里云 EMR 数据开发平台 负责人


内容框架

大数据概览如何摆脱技术小白Spark SQL 学习框架EMR Studio 上的大数据最佳实践


直播回放 扫描文章底部二维码加入钉群观看回放 或进入链接https://developer.aliyun.com/live/247072



一、大数据概览大数据处理 ETL?(Data → Data)大数据分析 BI ?(Data → Dashboard)机器学习 AI???(Data → Model)

image.png


二、如何摆脱技术小白什么是技术小白 只懂表面 不懂本质

比如 只懂得参考别人的 Spark 代码 不懂得 Spark 的内在机制 不懂得如何调优 Spark Job

摆脱技术小白的药方懂得运行机制学会配置学会看 Log
懂得运行机制 Spark SQL Architecture

image.png


学会配置 如何配置 Spark App配置 Driver

? spark.driver.memory

? spark.driver.cores

配置 Executor

? spark.executor.memory

? spark.executor.cores

配置 Runtime

? spark.files

? spark.jars

配置 DAE…..........

参考网址 https://spark.apache.org/docs/latest/configuration.html


学会看 Log Spark Log

image.png

三、Spark SQL? 学习框架
Spark SQL 学习框架( 结合图形/几何 1. Select Rows

image.png

image.png

2. Select Columns

image.png

image.png

3. Transform Column

image.png

image.png

4. Group By / Aggregation

image.png

image.png

5. Join

image.png

image.png

Spark SQL 执行计划
1. Spark SQL - Where

image.png

2. Spark SQL - Group By

image.png

3. Spark SQL - Order by

image.png

四、EMR Studio 实践EMR Studio 特性 兼容开源组件支持连接多个集群适配多个计算引擎交互式开发 作业调度无缝衔接适用多种大数据应用场景计算存储分离1. 兼容开源组件EMR Studio 在开源软件 Apache Zeppelin Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

image.png

2. 支持连接多个集群一个 EMR Studio 可以连接多个 EMR 计算集群 您可以很方便地切换计算集群 提交作业到不同的计算集群上运行。

image.png

3. 适配多个计算引擎自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎 无需复杂配置 多个计算引擎间协同工作

image.png

4. 交互式开发 作业调度无缝衔接

Notebook Airflow : 无缝衔接开发环节和生产调度环节

利用交互式开发模式可以快速验证作业的正确性.在 Airflow 里调度 Notebook 作业 最大程度得保证开发环境和生产环境的一致性 防止由于开发阶段和生产阶段环境不一致而导致的问题。

image.png


5. 适用多种大数据应用场景大数据处理 ETL交互式数据分析机器学习实时计算
6. 计算存储分离所有数据都保存在 OSS 上 包括

? 用户 Notebook 代码

? 调度作业 Log

即使集群销毁 也可以重建集群轻松恢复数据

image.png

EMR Studio Demo 演示


参考文档 https://help.aliyun.com/document_detail/208107.html?spm a2c4g.11186623.6.845.6cfc24577t1RbI



?具体产品介绍和演示 可以扫描文章底部钉钉群二维码 进群观看直播回放哦

也可以点击以下链接直接观看回放

? ?https://developer.aliyun.com/live/247072



后续我们会在钉钉群定期推送精彩案例 邀请更多技术大牛直播分享。欢迎有兴趣的同学扫下方二维码加入钉钉群进行交流和技术分享。关注公众号 锁定每周精彩分享内容

image (5).png


本文转自网络,原文链接:https://developer.aliyun.com/article/785347
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:B 站崩了,受害程序员聊聊 下一篇:没有了

推荐图文


随机推荐