当前位置：主页 > 查看内容

DataWorks搬站方案：Azkaban作业迁移至DataWorks

发布时间：2021-04-24 00:00| 有位朋友查看

简介：DataWorks迁移助手提供任务搬站功能支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。支持迁移的Azkaban版本支持全部版本的Azkaban迁移。整体迁移流程迁……

DataWorks迁移助手提供任务搬站功能支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。

支持迁移的Azkaban版本

支持全部版本的Azkaban迁移。

整体迁移流程

迁移助手支持开源工作流调度引擎到DataWorks体系的大数据开发任务迁移的基本流程如下图所示。

针对不同的开源调度引擎 DataWorks迁移助手会出一个相关的任务导出方案。

整体迁移流程为通过迁移助手调度引擎作业导出能力将开源调度引擎中的作业导出再将作业导出包上传至迁移助手中通过任务类型映射将映射后的作业导入至DataWorks中。作业导入时可设置将任务转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。

Azkaban作业导出

Azkaban工具本身具备导出工作流的能力有自己的Web控制台如下图所示

Azkaban界面支持直接Download某个Flow。Flow的导出流程

操作步骤

1.进入Project页面

2.点击Flows 会列出Project下面所有的工作流(Flow)

3.点击Download即可下载Project的导出文件

Azkaban导出包格式原生Azkaban即可导出包Zip文件内部为Azakaban的某个Project的所有任务(Job)和关系信息。

Azkaban作业导入

拿到了开源调度引擎的导出任务包后用户可以拿这个zip包到迁移助手的迁移助手- 任务上云- 调度引擎作业导入页面上传导入包进行包分析。

导入包分析成功后点击确认进入导入任务设置页面页面中会展示分析出来的调度任务信息。

开源调度导入设置

用户可以点击高级设置设置Azkaban任务与DataWorks任务的转换关系。不同的开源调度引擎在高级设置里面的设置界面基本一致如下图

高级设置项介绍

sparkt-submit转换为导入过程会去分析用户的任务是不是sparkt-submit任务如果是的话会将spark-submit任务转换为对应的DataWorks任务类型比如说 ODPS_SPARK/EMR_SPARK/CDH_SPARK等命令行 SQL任务转换为开源引擎很多任务类型是命令行运行SQL 比如说hive -e, beeline -e, impala-shell等等迁移助手会根据用户选择的目标类型做对应的转换。比如可以转换成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等目标计算引擎类型这个主要是影响的是Sqoop同步的目的端的数据写入配置。我们会默认将sqoop命令转换为数据集成任务。计算引擎类型决定了数据集成任务的目的端数据源使用哪个计算引擎的project。Shell类型转换为 SHELL类型的节点在Dataworks根据不同计算引擎会有很多种比如EMR_SHELL CDH_SHELL DataWorks自己的Shell节点等等。未知任务转换为对目前迁移助手无法处理的任务我们默认用一个任务类型去对应用户可以选择SHELL或者虚节点VIRTUALSQL节点转换为 DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比如 EMR_HIVE EMR_IMPALA、EMR_PRESTO CDH_HIVE CDH_IMPALA CDH_PRESTO ODPS_SQL EMR_SPARK_SQL CDH_SPARK_SQL等用户可以选择转换为哪种任务类型。

注意这些导入映射的转换值是动态变化的和当前项目空间绑定的计算引擎有关转换关系如下。

导入至DataWorks MaxCompute

设置项

可选值

sparkt-submit转换为

ODPS_SPARK

命令行 SQL任务转换为

ODPS_SQL、ODPS_SPARK_SQL

目标计算引擎类型

ODPS

Shell类型转换为

DIDE_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

ODPS_SQL、ODPS_SPARK_SQL

导入至DataWorks EMR

设置项

可选值

sparkt-submit转换为

EMR_SPARK

命令行 SQL任务转换为

EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL

目标计算引擎类型

EMR

Shell类型转换为

DIDE_SHELL, EMR_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL

导入至DataWorks CDH

设置项

可选值

sparkt-submit转换为

CDH_SPARK

命令行 SQL任务转换为

CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

目标计算引擎类型

CDH

Shell类型转换为

DIDE_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

执行导入

设置完映射关系后点击开始导入即可。导入完成后请进入数据开发中查看导入结果。

数据迁移

大数据集群上的数据迁移可参考 DataWorks数据集成或MMA。

任务上云详细文档 https://help.aliyun.com/document_detail/181296.html

本文转自网络，原文链接：https://developer.aliyun.com/article/783735
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：DataWorks搬站方案：Airflow作业迁移至DataWorks 下一篇：[leetcode/lintcode 题解] 算法面试高频题详解：生命游戏

随机推荐

Elastic：机器学习的实践 - population j

文本作者：刘晓国，Elastic 公司社区布道师。新加坡国立大学硕士，西北工业大学...
函数计算助力闲鱼构建云端一体化变成模式

客户介绍闲鱼是依托阿里电商体系的前台型业务，有非常独特的业务特点和用户诉求...
Python是如何处理垃圾的？

前言语言的内存管理是语言设计的一个重要方面。它是决定语言性能的重要因素。无...
ffmpeg-go 近期进展

近期进展在 ffmpeg-go init 之后，项目也收到了一些关注，还有几个同学发邮件探...
阿里云高效基因序列检索助力新冠肺炎病毒

AnalyticDB for MySQL是云端托管的PB级高并发低延时数据仓库通过AnalyticDB for...
Redis 分布式锁遇到的序列化问题

场景描述最近使用 Redis 遇到了一个类似分布式锁的场景，跟 Redis 实现分布式锁...
云效走进百所高校让上千学生真正认识代

日前阿里云云效联合阿里云大学团队面向全国高校学子正式启动了83行代码重构大...
新一代京东云自研服务器4月上线：性价比

云计算服务正在以前所未有的速度在各行各业快速普及，成为IT应用的最主流实现形...
抽象数据类型确实有点抽象

本文转载自微信公众号「见贤思编程」，作者泰斗贤若如。转载本文请联系见贤思编...
挖矿显卡算力排行对照表

鉴于近期加密货币大涨，导致很多小(韭)白(菜)纷纷入场，然后很多人都在问显卡挖...

DataWorks搬站方案：Azkaban作业迁移至DataWorks

推荐图文

AnalyticDB向量检索+AI 实战: 声纹识别

假如你来发明编程语言

云计算行业研究之SaaS篇：云程发韧，风禾尽起

【玩转腾讯云】零基础给腾讯云轻量应用服务器安装VN

DataWorks 2021-03 产品月刊

边缘计算云原生开源方案选型比较

随机推荐

Elastic：机器学习的实践 - population j

函数计算助力闲鱼构建云端一体化变成模式

Python是如何处理垃圾的？

ffmpeg-go 近期进展

阿里云高效基因序列检索助力新冠肺炎病毒

Redis 分布式锁遇到的序列化问题

云效走进百所高校让上千学生真正认识代

新一代京东云自研服务器4月上线：性价比

抽象数据类型确实有点抽象

挖矿显卡算力排行对照表

关于我们