众所周知 Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术 而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。
《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级 对数据湖Lakehouse有整体上的认识和应用 掌握理论知识体系。
此外 阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作 推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察 该产品原生集成企业版 Delta Engine 引擎 无需额外配置 提供高性能计算能力。有兴趣的同学可以搜索 Databricks 数据洞察 或 阿里云 Databricks 进入官网 或者直接访问https://www.aliyun.com/product/bigdata/spark 了解详情。
标题 【详谈 Delta Lake 】系列技术专题 之 基础和性能 Fundamentals and Performance
译者 韩宗泽 棕泽 阿里云计算平台事业部技术专家 负责开源大数据生态企业团队的研发工作
目录
Chapter-01 ?Delta Lake 基础 为什么可靠性和性能很重要 Chapter-02 ?深入理解事务日志 Transaction Log Chapter-03 ?如何使用 Schema 约束 Schema Enforcement 和演变 Schema Evolution Chapter-04 ?Delta Lake DML 语法Chapter-05 ?在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 来快速处理PB级数据第二篇标题 【详谈 Delta Lake 】系列技术专题 之 特性 Features
译者 张鹏 卓昇 阿里云计算平台事业部技术专家
目录
Chapter-01 ?为什么使用 Delta Lake 的 MERGE 功能 Chapter-02 ?使用 Python API 在 Delta Lake 数据表上进行简单 可靠的更新和删除操作Chapter-03 ?大型数据湖的 Time Travel 功能Chapter-04 ?轻松克隆您的 Delta Lake 以方便测试 数据共享以及进行重复的机器学习Chapter-05 ?在 Apache Spark 上的 Delta Lake 中启用 Spark SQL 的 DDL 和 DML 语句第三篇标题 【详谈 Delta Lake 】系列技术专题 之 湖仓一体 Lakehouse
译者 韩宗泽 棕泽 阿里云计算平台事业部技术专家 负责开源大数据生态企业团队的研发工作
目录
Chapter-01 ?什么是湖仓一体 Chapter-02 ?深入探讨 Lakehouse 和 Delta Lake 的内部工作原理Chapter-03 ?探究 Delta Engine第四篇标题 【详谈 Delta Lake 】系列技术专题 之 Streaming 流式计算
译者 冯加亮 加亮 阿里云计算平台事业部大数据工程师
目录
Chapter-01 ?使用 Delta Lake 解决流式数据入湖的难题Chapter-02 ?使用 Delta Lake 简化股票行情数据的分析Chapter-03 ?Tilting Point 游戏公司是如何使用 Delta Lake 处理流数据Chapter-04 ?使用 Delta Lake 构建流媒体视频的解决方案第五篇标题 【详谈 Delta Lake 】系列技术专题 之 客户用例 Customer Use Case)
译者 韩宗泽 棕泽 阿里云计算平台事业部技术专家 负责开源大数据生态企业团队的研发工作
目录
Chapter-01 ?Healthdirect Australia : 使用 Databricks 提供个性化和安全的在线患者护理Chapter-02 ?Comcast 使用Delta Lake和MLflow转换查看器体验Chapter-03 ?Viacom18: 从 Hadoop 迁移到 Databricks 以提供更多吸引人的体验获取更详细的 Databricks 数据洞察相关信息 可至产品详情页查看
https://www.aliyun.com/product/bigdata/spark
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区 定期推送精彩案例 技术专家直播 只为营造纯粹的 Spark 氛围 欢迎关注公众号
扫描下方二维码入 Delta Lake 中国技术交流社区、Databricks 数据洞察产品交流钉钉群一起参与交流讨论
2020年对于云计算行业来说是突破性的一年,因为公共云供应商增加了收入,而疫情...
最近,DevOps的采用导致了企业计算的重大转变。除无服务器计算,动态配置和即付...
9月17日,2020云栖大会上,阿里云正式发布工业大脑3.0。 阿里云智能资深产品专家...
在TOP云(zuntop.com)科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
一、PostgreSQL行业位置 一 行业位置 首先我们看一看RDS PostgreSQL在整个行业当...
定义 this是函数运行时自动生成的内部对象,即调用函数的那个对象。(不一定很准...
很长时间没有更新原创文章了,但是还一直在思考和沉淀当中,后面公众号会更频繁...
中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
本文转载自网络,原文链接:https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
查看表结构,sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...