https://developer.aliyun.com/live/246728
背景介绍为了让更多开发者了解并使用 JindoFS+OSS,由阿里云JindoFS+OSS 团队打造的专业公开课【数据湖JindoFS+OSS 实操干货36讲】在每周二16:00 准时直播开讲!扫描文章底部二维码,进钉钉群不错过每次直播信息!
内容概述什么是 DistCp?DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用 Map/Reduce 实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为 map 任务的输入,每个任务会完成源列表中部分文件的拷贝。
DistCp 工具种类Jindo DistCp 介绍分布式文件拷贝工具,基于 MapReduce支持多种数据源(HDFS / OSS / S3 / COS 等)多种拷贝策略,功能对齐开源 Hadoop DistCp 及 S3 DistCp 等深度结合 OSS,基于 native 实现的 JindoFS SDK优化 JobCommitter,性能领先开源工具现有 HDFS海量文件同步到 OSS 存在的问题文件数量规模大,百/千万级,开源 DistCp 超时/OOM 等HDFS 拷贝到 OSS ,效率较慢,Rename 耗时现有开源工具无法保证数据拷贝一致性不支持传输时进行归档/冷存储等 OSS 特性Jindo DistCp 基于 HDFS 海量文件同步到 OSS 场景优化分批 Batch,避免文件数过多/文件size过大,造成超时/OOM定制化 CopyCommitter,实现 No-Rename 拷贝,并保证数据拷贝落地的一致性大/小文件传输策略优化基于 native 实现的 JindoFS SDK,优化读写 OSS 性能性能优化:CopyCommitter – NoRename 拷贝1、MapReduce JobCommitter2、Jindo CopyCommitter基于对象存储系统的 Multipart Upload,结合 OSS 文件系统层面的定制支持,可以实现在保证数据一致性前提下无需 Rename 操作的 Job Committer 实现。
我们做了一个 Jindo DistCp 和 Hadoop DistCp的性能对比,在这个测试中我们以 HDFS 到 OSS 离线数据迁移为主要场景,利用Hadoop 自带的测试数据集 TestDFSIO 分别生成1000个10M、1000个500M、1000个1G 大小的文件进行从 HDFS 拷贝数据到 OSS 上的测试过程。
浏览器打开Github链接,点击对应使用场景,进行具体实践。
直接观看视频回放,获取实例讲解~https://developer.aliyun.com/live/246728
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!
上海推进治理数字化转型再加速。今天,随着市政协十三届四次会议开幕,上海正式...
在使用 JavaScript 数组时,一个很常见的问题是如何清空数组并删除其所有元素。...
近年来,教育信息化随着互联网浪潮,以及云计算、大数据、物联网、人工智能、区...
微服务和分布式的联系与区别什么?分布式只是一种手段把不同的机器分散在不同的地...
该参考架构基于模型驱动的工程方法(Model-Driven Engineering,MDE)进行设计,...
来源 | 阿里巴巴云原生公众号 背景 KubeVela v1.0 启用了新的官网架构和文档维护...
专属主机的规格提供了对应物理服务器的配置信息,决定了您能在专属主机上使用的E...
时下,虽说移动互联网的飞速发展让人们逐步从PC端解放出来,一台手机就能带来足够...
什么是bgp 云服务器 ?这其实就是一种 云服务器 ,BGP是指的机房线路,整体的意...
今天要和大家推荐5本每个数据科学家都应该阅读的书籍: 1. 《The Data Science H...