首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数字虚拟人的未来=ChatGPT加持下的“多模态”?

【Tspace虚拟人】

以免错过重要行业信息

多模态是虚拟人的未来

日前,世优科技创始人兼CEO纪智辉曾表示,虚拟数字人驱动的最终形态,是实现AI驱动,即用“AI”替换掉“中之人”所扮演的角色。

但他同时也承认,AI虚拟数字人在制作成本和技术门槛上仍然大大高于真人动捕员,同时局限于AI目前所表现出的智商水平,目前并不能被广泛使用。

但ChatGPT所展现出来的高灵活度让人们对AI有了新的认知,它比普通的人工智能机器人更加像“人”,相较以往的大模型,它对知识的挖掘要更充分。

头豹研究院高级分析师朱晓雯在接受记者采访时表示,ChatGPT与市面上普遍用于虚拟人的AI模型相比,具有更大、更通用、更灵活的特点,可以处理更加复杂和抽象的自然语言文本,并且不需要大量标记的训练数据。

具体来讲,ChatGPT是一个通用语言模型,它可以用于许多不同的自然语言处理任务,例如语言翻译、问答、文本生成等。相比之下,普通的虚拟人AI模型通常专注于特定的任务,例如聊天、客服、语音识别等。

同时,ChatGPT还是一种基于无监督学习的模型,这意味着它不需要标记的训练数据即可学习自然语言规律,而市面上大量虚拟人AI模型都需要大量的标记数据才能进行训练。

此外,ChatGPT是目前最大的通用语言模型之一,参数超千亿,比许多传统的虚拟人AI模型要大得多。这使得ChatGPT能够处理更加复杂和抽象的自然语言文本,并生成更加自然流畅的回复。

面对如此惊艳的聊天机器人,业界不禁产生一个设想:将类ChatGPT的大模型依附于虚拟人之上,或更能使虚拟人接近于理想中的形态。

但虚拟人需要做到的显然不仅仅是和人对话那样简单,它还需要表情和动作,针对不同领域的虚拟人还需有不同的专业能力,理解文本、完成对话仅仅只是第一步。

多模态的训练是关键

近日,中科深智创始人兼CEO成维忠在接受记者采访时表示,要解决虚拟人的问题,关键还是在于多模态训练。

多模态指的是不同形态的数据形式。ChatGPT目前只支持文本、代码等模态,相对多模态大模型而言,ChatGPT当前技术能力还是主要集中在自然语言处理领域。

成维忠举例称,写一句话就能画出很炫酷图片的Dall.E2,就是OpenAI在多模态方面的探索,其运作过程大致分两个部分,前半段用的是GPT3,仍然是文本生成过程,后半段用的是Diffusion,真正把文本变成图像,即把两个完全不同的算法被有机拼接到一起来完成了多模态。

“在其他垂直领域,也会存在类似情况,需要针对这个领域的特点构建像Diffusion的专业领域大模型。”以中科深智所专注的3D动作和表情生成为例,成维忠表示,前半段可以使用ChatGPT来赋能,提升文本生成能力,但重点还在后半段,即其生成动作和表情的大模型靠不靠谱。

“ChatGPT的出现对行业来说是好事,”成维忠向记者表示,“它只解决了部分问题,但没有做完全部的工作,对我们的发展有促进作用。”

成维忠认为,GPT4出世之后,垂直领域的多模态一定会越来越热。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230304A012DU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com