直播视频请点击 直播 观看。
本次分享将从五个方面讲解。
01 走进MaxCompute生态
02 开源ETL工具
03 客户端简介
04 PyODPS简介
05 实操展示
一、走进MaxCompute生态首先来看下 MaxCompute 产品能支持的外部工具 大概可以分为商业智能、开发管理、传输调度、编程接口。本次分享主要关注商业智能 BI 工具这一板块 可以看到 MaxCompute 官方集成有Tableau、FineReport、FineBI、Quick BI。其中Tableau、FineBI、FineReport是在特定的版本会内置 MaxCompute 驱动 如果需要通过JDBC连接 MaxCompute 还是需要手动加载 MaxCompute JDBC驱动 Quick BI作为阿里云的产品 是可以通过阿里云账号和AK信息直接连接的 同时在8.6及以上版本的Yonghong Desktop也是可以通过内置驱动连接 MaxCompute。在商业智能部分还有开源BI工具 Superset、Davinci也可以连接 MaxCompute。
在开发管理部分 是我们第二讲的内容 包括DBeaver、DataGrip、SQL Workbench/J。
同时我们的产品还集成了 Kafka和Flink开源引擎。支持的ETL开源工具有Kettle、Airflow、Azkaban 这一部分是本次分享来介绍。支持的编程接口有Python、JDBC、SQLAlchemy。
除了支持的外部工具 MaxCompute 自身也有开放生态 包括内建开源引擎 Spark 迁移工具MMA 开发生态PyODPS、Mars 工具生态Web-Console等。同时 MaxCompute 也与阿里云内部产品共同构建了丰富的解决方案生态和数据应用生态。
主要介绍一下开源ETL工具通过哪些方式连接 MaxCompute 。开源ETL工具包含 Airflow、Azkaban、Kettle。
首先看下Airflow Airflow是python编写的一款调度工具 内部有Python Operator和Bash Operator 等各种Operator。也支持自定义插件的开发 Airflow是通过command Operator控制MaxCompute客户端通过命令行的方式 提交SQL任务 对于Python SDK可以通过Python py文件这种方式提交 Java sdk可以通过java -jar方式提交。因为Airflow支持Python Operator 所以可以直接集成PyODPS 可以直接写Python代码。第二部分是Azkaban Azkaban主要是通过command提交我们的任务 可以通过MaxCompute提供的编程接口提交SQL任务。Kettle可以通过JDBC直接连接MaxCompute。
MaxCompute客户端支持运行在Linux/Mac/Window三个系统上。
安装?JDK 1.8以上。
?已经创建MaxCompute项目 拥有该项目权限的账号
配置?修改conf文件夹下的odps_config.ini文件
?填写ak、项目名、endpoint
使用?Linux/Mac上执行bin目录下的odpscmd,windows执行bin目录下的odpscmd.bat
?支持执行单个sql语句 执行sql文件 上传资源 上传下载数据(Tunnel)、授权等操作
四、MaxCompute Python SDK PyODPS 简介安装?PC客户端安装依赖于python环境 执行 pip install pyodps
?DataWorks内建PyODPS支持 通过新建PyOdps节点提交Python任务
PyODPS初始化from odps import ODPS
o ODPS( **your-access-id** , **your-secret-access-key** , project **your-project** , endpoint **your-end-point** )
?表接口 o.get_table o.create_table
?Sql接口 o.run_sql(异步执行 o.execute_sql 同步执行
?PyOdpsDataFrame DataFrame(o.get_table)、o.get_table ).to_df()
?上传下载数据 create_upload_session() create_download_session()
五、实操展示请点击 视频 查看实操部分
Azkaban实操展示请点击 视频 查看实操部分
Kettle实操展示请点击 视频 查看实操部分
更多关于大数据计算、云数仓技术交流 欢迎扫码加入 “MaxCompute开发者社区” 钉钉群
最近,DevOps的采用导致了企业计算的重大转变。除无服务器计算,动态配置和即付...
2020年对于云计算行业来说是突破性的一年,因为公共云供应商增加了收入,而疫情...
查看表结构,sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
一、PostgreSQL行业位置 一 行业位置 首先我们看一看RDS PostgreSQL在整个行业当...
很长时间没有更新原创文章了,但是还一直在思考和沉淀当中,后面公众号会更频繁...
定义 this是函数运行时自动生成的内部对象,即调用函数的那个对象。(不一定很准...
本文转载自网络,原文链接:https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
在TOP云(zuntop.com)科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
9月17日,2020云栖大会上,阿里云正式发布工业大脑3.0。 阿里云智能资深产品专家...
中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...