当前位置：主页 > 查看内容

Spark优化之小文件是否需要合并?

发布时间：2021-05-17 00:00| 有位朋友查看

简介：我们知道，大部分Spark计算都是在内存中完成的，所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内……

我们知道，大部分Spark计算都是在内存中完成的，所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用，例如将小文件进行合并的操作。

一、问题现象

我们有一个15万条总数据量133MB的表，使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min，另外一个500万条总数据量6.3G的表ods_tbl_conf_detail，查询耗时23秒。两张表均为列式存储的表。

大表查询快，而小表反而查询慢了，为什么会产生如此奇怪的现象呢?

二、问题探询

数据量6.3G的表查询耗时23秒，反而数据量133MB的小表查询耗时3min，这非常奇怪。我们收集了对应的建表语句，发现两者没有太大的差异，大部分为String，两表的列数也相差不大。

CREATE TABLE IF NOT EXISTS  `bi`.`dwd_tbl_conf_info`  ( 
  `corp_id` STRING COMMENT '', 
  `dept_uuid` STRING COMMENT '', 
  `user_id` STRING COMMENT '', 
  `user_name` STRING COMMENT '', 
  `uuid` STRING COMMENT '', 
  `dtime` DATE COMMENT '', 
  `slice_number` INT COMMENT '', 
  `attendee_count` INT COMMENT '', 
  `mr_id` STRING COMMENT '', 
  `mr_pkg_id` STRING COMMENT '', 
  `mr_parties` INT COMMENT '', 
  `is_mr` TINYINT COMMENT 'R', 
  `is_live_conf` TINYINT COMMENT '' 
)

CREATE TABLE IF NOT EXISTS `bi`.`ods_tbl_conf_detail` ( 
    `id` string, 
    `conf_uuid` string, 
    `conf_id` string, 
    `name` string, 
    `number` string, 
    `device_type` string, 
    `j_time` bigint, 
    `l_time` bigint, 
    `media_type` string, 
    `dept_name` string, 
    `UPDATETIME` bigint, 
    `CREATETIME` bigint, 
    `user_id` string, 
    `USERAGENT` string, 
    `corp_id` string, 
    `account` string 
  )

因为两张表均为很简单的SELECT查询操作，无任何复杂的聚合join操作，也无UDF相关的操作，所以基本确认查询慢的应该发生的读表的时候，我们将怀疑的点放到了读表操作上。通过查询两个查询语句的DAG和任务分布，我们发现了不一样的地方。

查询快的表，查询时总共有68个任务，任务分配比如均匀，平均7~9s左右，而查询慢的表，查询时总共1160个任务，平均也是9s左右。如下图所示：

至此，我们基本发现了猫腻所在。大表6.3G但文件个数小，只有68个，所以很快跑完了。而小表虽然只有133MB，但文件个数特别多，导致产生的任务特别多，而由于单个任务本身比较快，大部分时间花费在任务调度上，导致任务耗时较长。

那如何才能解决小表查询慢的问题呢?

三、业务调优

那现在摆在我们面前就存在现在问题：

为什么小表会产生这么小文件
已经产生的这么小文件如何合并

带着这两个问题，我们和业务的开发人员聊了一个发现小表是业务开发人员从原始数据表中，按照不同的时间切片查询并做数据清洗后插入到小表中的，而由于时间切片切的比较小，导致这样的插入次数特别多，从而产生了大量的小文件。

那么我们需要解决的问题就是2个，如何才能把这些历史的小文件进行合并以及如何才能保证后续的业务流程中不再产生小文件，我们指导业务开发人员做了以下优化：

使用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下历史的数据。由于DLI做了数据一致性保护，OVERWRITE期间不影响原有数据的读取和查询，OVERWRITE之后就会使用新的合并后的数据。合并后全表查询由原来的3min缩短到9s内完成。
原有表修改为分区表，插入时不同时间放入到不同分区，查询时只查询需要的时间段内的分区数据，进一步减小读取数据量。

本文转载自网络，原文链接：https://segmentfault.com/a/1190000023604337
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：大数据：数字化转型的核心驱动力 下一篇：数据量太大？散点图装不下怎么办？用Python解决数据密度过大难题

随机推荐

数据分析师必备的6项技能

【51CTO.com快译】数据分析是对数据进行判断、细化、更改和建模的过程，目的是...
怎样才能成为一名合格的微服务构架师？

阿里巴巴、腾讯、支付宝、网易、IBM、谷歌、京东、百度、滴滴等一线互联网公司...
DataWorks 2021-03 产品月刊

本月DataWorks产品月刊为您带来产品活动 1.参与阿里云DataWorks问卷调研 (Aliyu...
长沙营智：PolarDB助力长沙营智提速资讯

公司介绍长沙营智信息技术有限公司旗下易撰网，2017年10月份上线以来，基于数据...
稻香小镇新建数字农业基地

案例背景永安稻香小镇的体验式数字农业基地是余杭街道依托“阿里以西10分钟”的...
一日一技：你怎么总是搞不清反斜杠的问题

大家在开发Python的过程中，一定会遇到很多反斜杠的问题，很多人被反斜杠的数量...
构建前瞻性应用架构的优秀实践

【51CTO.com快译】不知道您是否听说过软件架构师最讨厌意大利面这个梗?它是指软...
百度开放离线人脸识别SDK，活体识别率超

人脸识别是目前商业应用最成熟、最广泛的人工智能技术之一，成为开发者、企业接...
2020年大数据给企业带来的5大好处

大数据市场如今正在呈爆炸式增长。根据调研机构Markets and Markets公司的调查，...
删除镜像_镜像服务 IMS_用户指南_管理私

操作场景您可以删除不需要的私有镜像。删除私有镜像后，将无法找回，请谨慎操...

Spark优化之小文件是否需要合并?

推荐图文

Flink on Zeppelin 系列之：Yarn Application 模式

TRTC Web端仿腾讯会议麦克风静音检测

在Python中搭建币价树形图

使用顶层await简化JS代码

网络视频服务器的优势

跨境医疗走向后疫情时代：门槛提高、专业化、平台化

随机推荐

数据分析师必备的6项技能

怎样才能成为一名合格的微服务构架师？

DataWorks 2021-03 产品月刊

长沙营智：PolarDB助力长沙营智提速资讯

稻香小镇新建数字农业基地

一日一技：你怎么总是搞不清反斜杠的问题

构建前瞻性应用架构的优秀实践

百度开放离线人脸识别SDK，活体识别率超

2020年大数据给企业带来的5大好处

删除镜像_镜像服务 IMS_用户指南_管理私

关于我们