当前位置：主页 > 查看内容

通过logview诊断慢作业任务

发布时间：2021-07-06 00:00| 有位朋友查看

简介：在这里把任务跑的慢的问题划分为以下几类资源不足导致的排队(一般是包年包月项目)数据倾斜数据膨胀用户自身逻辑导致的运行效率低下一、资源不足一般的SQL任务会占用CPU、Memory这两个维度的资源 logview怎么查看参考链接 1.1 查看作业耗时和执行的阶段 1……

在这里把任务跑的慢的问题划分为以下几类

资源不足导致的排队(一般是包年包月项目)数据倾斜数据膨胀用户自身逻辑导致的运行效率低下一、资源不足

一般的SQL任务会占用CPU、Memory这两个维度的资源 logview怎么查看参考链接

1.1 查看作业耗时和执行的阶段

1.2 提交任务的等待

如果提交任务以后一直显示“Job Queueing...”则有可能是由于其他人的任务占用了资源组的资源使得自己的任务在排队。

在SubStatusHistory中看Waiting for scheduling就是等待的时间

1.3 任务提交后的资源不足

这里还有另一种情况虽然任务可以提交成功但是由于所需的资源较大当前的资源组不能同时启动所有的实例导致出现了任务虽然有进度但是执行并不快的情况。这种可以通过logview中的latency chart功能观察到。latency chart可以在detail中点击相应的task看到

上图显示的是一个资源充足的任务运行状态可以看到蓝色部分的下端都是平齐的表示几乎在同一时间启动了所有的实例。

而这个图形的下端呈现阶梯向上的形态表示任务的实例是一点一点的调度起来的运行任务时资源并不充足。如果任务的重要性较高可以考虑增加资源或者调高任务的优先级。

1.4资源不足的原因

1.通过cu管家查看cu是否占满点到对应的任务点找到对应时间看作业提交的情况

按cpu占比进行排序

1 某个任务占用cu特别大找到大任务看logview是什么原因造成小文件过多、数据量比较大。 2 cu占比均匀说明是同时提交多个大任务把cu资源直接打满

2.由于小文件过多导致cu占慢

map阶段的并行度是根据输入文件的分片大小从而间接控制每个Map阶段下Worker的数量。默认是256m。如果是小文件会当作一个块读取如下图map阶段m1每个task的i/o bytes都只有1m或者几十kb,所以造成2500多个并行度瞬间把资源打满说明该表下文件过多需要合并小文件

合并小文件https://help.aliyun.com/knowledge_detail/150531.html?spm a2c4g.11186623.6.1198.60ea4560Hr5H8d#section-5nj-hoa-d7f

1.5任务并行度如何调节

MaxCompute的并行度会根据输入的数据和任务复杂度自动推测执行一般不需要调节理想情况并行度越大速度处理越快但是对于包年包月资源组可能会把资源组占满导致任务都在等待资源这种情况会导致任务变慢

map阶段并行度

odps.stage.mapper.split.size 修改每个Map Worker的输入数据量即输入文件的分片大小从而间接控制每个Map阶段下Worker的数量。单位MB 默认值为256 MB

reduce的并行度

odps.stage.reducer.num 修改每个Reduce阶段的Worker数量

odps.stage.num 修改MaxCompute指定任务下所有Worker的并发数优先级低于odps.stage.mapper.split.size、odps.stage.reducer.mem和odps.stage.joiner.num属性。

odps.stage.joiner.num 修改每个Join阶段的Worker数量。

二、数据倾斜数据倾斜

【特征】task 中大多数 instance 都已经结束了但是有某几个 instance 却迟迟不结束长尾。如下图中大多数 358个 instance 都结束了但是还有 18 个的状态是 Running 这些?instance?运行的慢可能是因为处理的数据多也可能是这些instance 处理特定数据慢。

解决方法 https://help.aliyun.com/document_detail/102614.html?spm a2c4g.11186623.6.1160.28c978569uyE9f

三、逻辑问题

这里指用户的SQL或者UDF逻辑低效或者没有使用最优的参数设定。表现出来的现象时一个Task的运行时间很长而且每个实例的运行时间也比较均匀。这里的情况更加多种多样有些是确实逻辑复杂有些则有较大的优化空间。

数据膨胀

【特征】task 的输出数据量比输入数据量大很多。

比如 1G 的数据经过处理变成了 1T 在一个 instance 下处理 1T 的数据运行效率肯定会大大降低。输入输出数据量体现在 Task 的 I/O Record 和?I/O Bytes 这两项

解决方法确认业务逻辑确实需要这样增大对应阶段并行度

UDF执行效率低

【特征】某个 task 执行效率低且该 task 中有用户自定义的扩展。甚至是 UDF 的执行超时报错 “Fuxi job failed - WorkerRestart errCode:252,errMsg:kInstanceMonitorTimeout, usually caused by bad udf performance”。

首先确定udf位置点看慢的fuxi task 可以看到operator graph 中是否包含udf 例如下图说明有java 的udf。