https://developer.aliyun.com/live/246750
背景简述HDFS 数据迁移用户需要将数据存储在 IDC 机房的 HDFS 的集群内。HDFS 的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地 HDFS 性能。业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。HDFS 数据存储成本
考虑到实际使用 HDFS 会有3副本以及一定的预留空间,我们以 HDFS 3 副本、80% 使用率进行成本计算, 参考 https://www.aliyun.com/price/product#/ecs/detail
OSS 归档数据的存储成本只有 HDFS 数据存储成本的 20% , OSS冷归档的存储不到 HDFS 数据存储的 10% 。
Jindo DistCp 工具
全量支持 HDFS / OSS / S3 之间的的数据拷贝场景重点优化 HDFS / OSS 数据拷贝场景,支持 No-Rename 拷贝支持 DistCp 过程数据 CheckSum 校验?具体可参考 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md
通过 DistCp 工具选项 —— policy 指定数据存储类型
/选项说明标准(standard)数据迁移到OSS标准存储,可读低频(ia)数据迁移到OSS低频存储,可读归档(archive)数据迁移到OSS归档存储,不可直接读取冷归档(coldArchive)数据迁移到OSS冷归档存储,不可直接读取HDFS 数据迁移命令写入低频数据hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10
写入归档数据hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10
写入冷归档数据hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10
HDFS 命令查看数据类型HDFS LS2 扩展命令hdfs –fs –ls2 oss://xxxxx/xxxxx
可参考详细介绍链接演示操作准备测试脚本,包含 DistCp 到OSS 各种存储类型的文件,测试文件大小为10M执行测试脚本进行数据拷贝查看 OSS 数据的存储类型直接观看视频回放,获取实例讲解~https://developer.aliyun.com/live/246750
?Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!
案例背景 永安稻香小镇的体验式数字农业基地是余杭街道依托“阿里以西10分钟”的...
【51CTO.com快译】 数据分析是对数据进行判断、细化、更改和建模的过程,目的是...
大数据市场如今正在呈爆炸式增长。根据调研机构Markets and Markets公司的调查,...
阿里巴巴、腾讯、支付宝、网易、IBM、谷歌、京东、 百度、滴滴等一线互联网公司...
大家在开发Python的过程中,一定会遇到很多反斜杠的问题,很多人被反斜杠的数量...
操作场景 您可以删除不需要的私有镜像。 删除私有镜像后,将无法找回,请谨慎操...
【51CTO.com快译】不知道您是否听说过软件架构师最讨厌意大利面这个梗?它是指软...
本月DataWorks产品月刊为您带来 产品活动 1.参与阿里云DataWorks问卷调研 (Aliyu...
公司介绍 长沙营智信息技术有限公司旗下易撰网,2017年10月份上线以来,基于数据...
人脸识别 是目前商业应用最成熟、最广泛的人工智能技术之一,成为开发者、企业接...