数字虚拟人的未来＝ChatGPT加持下的“多模态”？

文章来源：企鹅号 - Tspace虚拟人

【Tspace虚拟人】

以免错过重要行业信息

多模态是虚拟人的未来

日前，世优科技创始人兼CEO纪智辉曾表示，虚拟数字人驱动的最终形态，是实现AI驱动，即用“AI”替换掉“中之人”所扮演的角色。

但他同时也承认，AI虚拟数字人在制作成本和技术门槛上仍然大大高于真人动捕员，同时局限于AI目前所表现出的智商水平，目前并不能被广泛使用。

但ChatGPT所展现出来的高灵活度让人们对AI有了新的认知，它比普通的人工智能机器人更加像“人”，相较以往的大模型，它对知识的挖掘要更充分。

头豹研究院高级分析师朱晓雯在接受记者采访时表示，ChatGPT与市面上普遍用于虚拟人的AI模型相比，具有更大、更通用、更灵活的特点，可以处理更加复杂和抽象的自然语言文本，并且不需要大量标记的训练数据。

具体来讲，ChatGPT是一个通用语言模型，它可以用于许多不同的自然语言处理任务，例如语言翻译、问答、文本生成等。相比之下，普通的虚拟人AI模型通常专注于特定的任务，例如聊天、客服、语音识别等。

同时，ChatGPT还是一种基于无监督学习的模型，这意味着它不需要标记的训练数据即可学习自然语言规律，而市面上大量虚拟人AI模型都需要大量的标记数据才能进行训练。

此外，ChatGPT是目前最大的通用语言模型之一，参数超千亿，比许多传统的虚拟人AI模型要大得多。这使得ChatGPT能够处理更加复杂和抽象的自然语言文本，并生成更加自然流畅的回复。

面对如此惊艳的聊天机器人，业界不禁产生一个设想：将类ChatGPT的大模型依附于虚拟人之上，或更能使虚拟人接近于理想中的形态。

但虚拟人需要做到的显然不仅仅是和人对话那样简单，它还需要表情和动作，针对不同领域的虚拟人还需有不同的专业能力，理解文本、完成对话仅仅只是第一步。

多模态的训练是关键

近日，中科深智创始人兼CEO成维忠在接受记者采访时表示，要解决虚拟人的问题，关键还是在于多模态训练。

多模态指的是不同形态的数据形式。ChatGPT目前只支持文本、代码等模态，相对多模态大模型而言，ChatGPT当前技术能力还是主要集中在自然语言处理领域。

成维忠举例称，写一句话就能画出很炫酷图片的Dall.E2，就是OpenAI在多模态方面的探索，其运作过程大致分两个部分，前半段用的是GPT3，仍然是文本生成过程，后半段用的是Diffusion，真正把文本变成图像，即把两个完全不同的算法被有机拼接到一起来完成了多模态。

“在其他垂直领域，也会存在类似情况，需要针对这个领域的特点构建像Diffusion的专业领域大模型。”以中科深智所专注的3D动作和表情生成为例，成维忠表示，前半段可以使用ChatGPT来赋能，提升文本生成能力，但重点还在后半段，即其生成动作和表情的大模型靠不靠谱。

“ChatGPT的出现对行业来说是好事，”成维忠向记者表示，“它只解决了部分问题，但没有做完全部的工作，对我们的发展有促进作用。”

成维忠认为，GPT4出世之后，垂直领域的多模态一定会越来越热。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货