前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云存储—自动驾驶与AIGC数据存储与管理之道

腾讯云存储—自动驾驶与AIGC数据存储与管理之道

作者头像
云存储
发布2023-06-15 17:18:01
6570
发布2023-06-15 17:18:01
举报

腾讯云存储首席技术专家 温涛 受邀在6月2日由焉知汽车主办的第三届焉知智能电动汽车年会“ADAS与智能驾驶论坛”中分享自动驾驶和AIGC场景下的存储解决方案,下面让我们一起回顾下温涛的精彩演讲:

自动驾驶和数据之间的关系是非常紧密的,自动驾驶的模型是通过海量数据、大规模算力和AI算法训练出来的。可以说自动驾驶是建立在海量数据的基础之上的。从另一个方面来看,汽车本身也成为了海量数据收集的设备,所以智能汽车前进的驱动力,不只是燃料,还有数据。数据是自动驾驶的核心要素,数据量的积累成为实现自动驾驶的必经之路。

汽车本身产生的数据主要来自各种传感器,包括激光雷达、摄像头、雷达、超声波等等... 每辆车每天会产生大约10–100TB数据,随着传感器的增加,数据量也会持续增长。这些数据是如何使用的呢?我们来看看自动驾驶模型训练的业务处理流程:

首先通过车载传感器进行数据采集,然后上传到数据中心进行筛选和转换,剔除掉低价值的数据,再经过标注处理后,进入到模型训练环节。生成的训练模型,会根据路测和仿真测试的结果进行调测,最终会通过OTA服务,把训练好的模型以及地图等信息,下载到每辆智能汽车中。

那么什么是GooseFS呢?

GooseFS是一种利用计算侧资源实现数据缓存加速的存储服务,适用于大数据分析、AI、HPC、基因测序、渲染等多种场景,配合对象存储COS,为客户提供低成本高性能的存储能力。

GooseFS有以下几个特点:

1、多协议支持:可以对接HDFS、FUSE和S3等多种协议

2、支持云原生部署:可以通过容器化部署,也可以和Hadoop进行集成

3、可以使用内存和SSD等不同性能的介质作为缓存介质,实现多级缓存,根据不同的缓存介质,GooseFS可以提供2~10倍的性能提升。

下面进一步解释GooseFS的多级缓存加速能力。

面向不同的业务场景,会有不同的数据量和不同的性能要求。以AIGC场景为例,对于NLP和GPT场景,训练所需的数据量通常在10~100TB,所需的存储空间不大,但是IO模型属于每次字节级的读操作,对时延要求很高。使用GPU节点自带内存的剩余空间作为缓存的存储介质比较合适,不需要额外配置SSD。而对于ViT和Diffusion这类图片模型训练场景,数据量通常在100T~1PB,就不适合放在内存里,选用本地的SSD介质可以达到更优的性价比。对于需要长期存放的原始数据,就可以放在对象存储COS里做持久化,从而降低成本。通过多级缓存加速机制,就能够精细化的满足各种不同场景的性能要求。

因为训练场景需要读取海量文件,就需要缓存系统支持对海量文件规模的管理能力。我们来看看GooseFS在水平和垂直两个方向分别是如何实现的:

  • 水平方向上,也就是在跨节点方向上,GooseFS 采用分布式元数据架构,通过分布式KV管理元数据,元数据规模可以按需横向线性扩展。
  • 垂直方向上,也就是在节点内部,GooseFS利用Numa绑核绑内存来部署KV进程,从而使单节点可以部署多个分布式KV进程。

通过上述两个方向上的技术,GooseFS可以支持管理百亿文件规模的元数据,满足单集群管理海量训练数据集的需求。

在训练场景中,如何在海量文件的存储和处理中仍然能够保持高性能,是一个技术难题。要求存储系统能够提供高性能的元数据访问能力。GooseFS支持Master的多机并发读,元数据服务由一个Leader Master和若干Follower Master构成,Follower Master承载跟Leader一样的读流量,元数据QPS性能随着Master节点的数量呈线性增加,从而可以提供百万级QPS的元数据访问能力。

GooseFS也支持私有化部署,来构建混合云缓存方案。基于数据湖搭建混合云大模型训练平台,做到一份Dataset,多地训练。通过这个方案,在数据湖上保存一份数据,可以通过缓存的机制把数据带到任何计算相关的地点去。

接下来介绍腾讯云存储解决方案是如何支持AIGC场景的?

从去年年底到今年年初,由新版本的ChatGPT发布开始,全球掀起了一股AIGC的话题狂潮。AIGC触发了内容生成的革命,也引爆了众多行业颠覆式的创新。人工智能突然就从高科技研究课题,演进为渗透到我们每个人生活中的商业产品。

AIGC是使用人工智能技术生成内容的工具,它包含了文本、音频、图像、视频的生成,以及这几者之间的跨模态生成。我认为AIGC的商业化落地节奏,大致可以分为三个阶段:

1、通用场景的应用落地

2、垂直行业的应用落地

3、创新型综合场景的应用落地

  • 通用场景是基于单纯的文本、图片、音视频的AI生产内容技术,提供给设计、媒体、娱乐、客服咨询等没有太强行业属性的企业和个人,解决相对基础的AI市场需求。代表性的应用包括了ChatGPT和Midjourney。这个场景依赖的技术相对比较成熟,已经具有很多实际的商业化落地。
  • 垂直行业是进一步把AIGC的能力和具体行业特点相结合,提供给强行业属性的企业,来提升技术和服务水平,提高行业生产效率。比如自动驾驶和医疗生物基因。这类应用目前还处于商业化前的基于预训练基础之上的Fine Tuning阶段,技术方面的问题基本上能够得到解决,商业模式也比较明确,商业化落地节奏属于正在进行时。
  • 创新型综合场景所对应的行业,是比较新兴的具有前瞻性和实验性的场景,以机器人和元宇宙为代表。在这类场景,AIGC只是核心技术的一部分,还依赖硬件和商业模式等方案的创新。这类场景还处于技术储备和商业落地探索阶段。

目前腾讯云AIGC存储解决方案,聚焦在通用场景和垂直行业这两类AIGC应用的支持。尤其是在图片、音视频和自动驾驶这些场景有了很多尝试、验证和落地。通过对业务流程和场景诉求的总结提炼,AIGC的核心要素,可以归结为内容生成、内容审核和内容智理三个要素。

  • 内容生成包括大模型训练和推理平台构建,使用了COS数据湖方案实现了数据的统一接入,以及数据自由流动,无需数据迁移,并利用GooseFS的缓存加速能力,大幅度提升了数据处理和训练性能,也大大降低了AIGC系统的成本。
  • 内容审核使用数据万象CI能力,基于深度学习的文本、图片、音视频检测技术,结合腾讯深耕内容领域积累的海量训练数据,可以精准高效识别出生成数据中的敏感信息,提供包括色情、涉政、暴恐、广告等多种合规问题的审核能力。对AIGC的输入和输出环节进行把控,帮助客户规避运营风险。
  • 内容智理复用了腾讯企业网盘的一些能力,可以对AI生成物提供权限划分、在线编辑、协同办公等企业化文件管理能力,助力终端用户和企业客户更好的对AI生成物进行管理,提升工作效率。

最后介绍两个腾讯云存储解决方案在自动驾驶场景的客户案例。一个是国内电动车顶级的车企,对存储数据量有每年百PB增长量的需求,希望能够用一种存储系统来满足大容量高性能的数据管理要求。在使用我们的解决方案后,不仅低成本的满足了海量文件的存储需求,还帮助自动驾驶训练性能提升了30%。另一个案例是自动驾驶初创明星企业,由于处于初创阶段,希望存储系统架构尽量简单高效,并能够根据业务变化进行弹性扩展。在采用我们的解决方案后,整体训练效率提升了25%以上,存储建设成本降低30%以上。

腾讯云存储自动驾驶和AIGC解决方案,很好的做到了高性能和低成本两个目标方向的兼顾,为基于海量数据的AI训练提供了坚实的存储与管理的数据底座。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-06-09,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com