【犀牛鸟·视野】SIGGRAPH ASIA 2018: Siren AI - 高保真可交互虚拟人

腾讯高校合作

发布于 2018-12-21 23:52:56

1.6K0

发布于 2018-12-21 23:52:56

文章被收录于专栏：腾讯高校合作腾讯高校合作

★导语★

英国演员Alexa Lee通过动捕设备实时驱动数字人Siren，这标志着实时高保真数字人技术迈向了一个新的高度。技术的进步为Siren赋予了逼真的3D形象，我们能否进而为她赋予精致的“灵魂”呢？腾讯互娱NEXT技术中心和AI Lab的研究团队携手进行了一次尝试，让Siren在没有真人驱动的情况下，自主和人类交互。虽然，该技术尚处于试验阶段，我们已经可以看到“高保真可交互虚拟人”这一领域的美好前景。值得一提的是，本次Siren AI参加SIGGRAPH Asia2018，是其首次亮相国际舞台，第一次海外展示Live Demo，向大家分享阶段性成果。

Siren+AI意味着什么？

传统动捕技术通过视觉或惯性传感器捕捉演员的表情/动作（如图1），再映射到角色模型上，生成角色动画，然后经过动画师清理精修，形成最终产品质量的动画。Siren更是采用了高精度的实时动捕技术，实现了虚拟角色的Live表演。然而，传统动捕技术虽然对影视、游戏、虚拟偶像等行业有着重要意义，但是精度较高的动捕设备普遍笨重，需要复杂的校准和特制的空间，需要演员来驱动。

图1? 传统动捕设备：CubicMotion、Vicon、Optitrack

近两年，语音助手、聊天机器人逐渐走进我们的生活，这些设备的输出通常是语音或文字，如果能为它们配上虚拟形象，用户将会获得更加生动的交互体验。如图2，AI设备/服务输出语音/文字，语音/文字驱动面部Rig，然后进入渲染引擎，驱动虚拟人。Siren+AI就是要为虚拟人装上AI的大脑，让虚拟人能听会道。

图2? 语音/文字驱动虚拟人

为Siren植入“大脑”

基于虚拟人的语音交互是一个复杂的过程（如图3），涉及多个AI研究和工程领域：语音激活检测（VAD），语音识别（ASR），自然语言处理（NLP），语音合成（TTS），语音驱动面部动画（ADFA）。所幸，除了ADFA，腾讯AI Lab已经有相应的解决方案。所以工作难点主要集中在ADFA。由于人类对于自身的行为瑕疵非常敏感，虚拟人Siren已经做到照片级还原，用动捕设备实时驱动数字人已不是易事，更不用说声音或文字驱动，NEXT和AI Lab语音识别中心的研究团队开始尝试解决这个问题。

图3? Siren AI 数据流

研究团队尝试用基于深度学习，端到端的方法来解这个问题：模型的输入是语音或文字，输出是执行面部变形控制的Rig参数。熟悉DL的同学都知道，数据对于端到端训练十分关键，考虑到Siren具有精巧的Rig系统，将低维的Rig Controls参数映射到数千维的脸部Rig Elements参数。这个基于规则的映射，将语音驱动模型输出抽象到较低的维度，降低了模型规模和训练难度。如图4所示，研究团队在面部动捕的同时采集音视频数据和Rig Controls序列数据，然后离线处理成一一对应的训练数据。

图4? 训练数据采集

有了数据之后，我们第一步尝试的是语音驱动，但是很快发现，由于训练数据集里的语音来自演员，模型的泛化性非常弱，对于语音合成声的测试结果很糟糕，尽管通过数据加噪等方法提升了模型的泛化性，但是TTS（Text to Speech）语音的测试效果始终不理想。随即，改为通过与文字对应的音素序列（Phonetic Sequence）来驱动面部Rig。经过训练，测试结果达到了接近演员语音驱动的效果，同时收获了Speaker无关的特性。

图5 可交互虚拟人系统集成方案

如图5所示，Siren AI的前端整合了VAD功能和UE4，主要负责对话者的音频采集和虚拟人渲染；后端两台Server，一台部署了AILab的多套服务，另一台作为中转服务器，负责前后台数据的转发以及部分控制逻辑。在图5中可以看到，除了语音交互，系统还支持文本输入，直接送到TTS模块生成语音和驱动面部的Rig Control参数，应用在需要用文本直接驱动虚拟人的场合。

Siren AI at SIGGRAPH ASIA 2018