前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【犀牛鸟·视野】SIGGRAPH ASIA 2018: Siren AI - 高保真可交互虚拟人

【犀牛鸟·视野】SIGGRAPH ASIA 2018: Siren AI - 高保真可交互虚拟人

作者头像
腾讯高校合作
发布2018-12-21 23:52:56
1.6K0
发布2018-12-21 23:52:56
举报
文章被收录于专栏:腾讯高校合作腾讯高校合作

★导语★

英国演员Alexa Lee通过动捕设备实时驱动数字人Siren,这标志着实时高保真数字人技术迈向了一个新的高度。技术的进步为Siren赋予了逼真的3D形象,我们能否进而为她赋予精致的“灵魂”呢?腾讯互娱NEXT技术中心和AI Lab的研究团队携手进行了一次尝试,让Siren在没有真人驱动的情况下,自主和人类交互。虽然,该技术尚处于试验阶段,我们已经可以看到“高保真可交互虚拟人”这一领域的美好前景。值得一提的是,本次Siren AI参加SIGGRAPH Asia2018,是其首次亮相国际舞台,第一次海外展示Live Demo,向大家分享阶段性成果。

Siren+AI意味着什么?

传统动捕技术通过视觉或惯性传感器捕捉演员的表情/动作(如图1),再映射到角色模型上,生成角色动画,然后经过动画师清理精修,形成最终产品质量的动画。Siren更是采用了高精度的实时动捕技术,实现了虚拟角色的Live表演。然而,传统动捕技术虽然对影视、游戏、虚拟偶像等行业有着重要意义,但是精度较高的动捕设备普遍笨重,需要复杂的校准和特制的空间,需要演员来驱动。

图1? 传统动捕设备:CubicMotion、Vicon、Optitrack

近两年,语音助手、聊天机器人逐渐走进我们的生活,这些设备的输出通常是语音或文字,如果能为它们配上虚拟形象,用户将会获得更加生动的交互体验。如图2,AI设备/服务输出语音/文字,语音/文字驱动面部Rig,然后进入渲染引擎,驱动虚拟人。Siren+AI就是要为虚拟人装上AI的大脑,让虚拟人能听会道。

图2? 语音/文字 驱动虚拟人

为Siren植入“大脑”

基于虚拟人的语音交互是一个复杂的过程(如图3),涉及多个AI研究和工程领域:语音激活检测(VAD),语音识别(ASR),自然语言处理(NLP),语音合成(TTS),语音驱动面部动画(ADFA)。所幸,除了ADFA,腾讯AI Lab已经有相应的解决方案。所以工作难点主要集中在ADFA。由于人类对于自身的行为瑕疵非常敏感,虚拟人Siren已经做到照片级还原,用动捕设备实时驱动数字人已不是易事,更不用说声音或文字驱动,NEXT和AI Lab语音识别中心的研究团队开始尝试解决这个问题。

图3? Siren AI 数据流

研究团队尝试用基于深度学习,端到端的方法来解这个问题:模型的输入是语音或文字,输出是执行面部变形控制的Rig参数。熟悉DL的同学都知道,数据对于端到端训练十分关键,考虑到Siren具有精巧的Rig系统,将低维的Rig Controls参数映射到数千维的脸部Rig Elements参数。这个基于规则的映射,将语音驱动模型输出抽象到较低的维度,降低了模型规模和训练难度。如图4所示,研究团队在面部动捕的同时采集音视频数据和Rig Controls序列数据,然后离线处理成一一对应的训练数据。

图4? 训练数据采集

有了数据之后,我们第一步尝试的是语音驱动,但是很快发现,由于训练数据集里的语音来自演员,模型的泛化性非常弱,对于语音合成声的测试结果很糟糕,尽管通过数据加噪等方法提升了模型的泛化性,但是TTS(Text to Speech)语音的测试效果始终不理想。随即,改为通过与文字对应的音素序列(Phonetic Sequence)来驱动面部Rig。经过训练,测试结果达到了接近演员语音驱动的效果,同时收获了Speaker无关的特性。

图5 可交互虚拟人系统集成方案

如图5所示,Siren AI的前端整合了VAD功能和UE4,主要负责对话者的音频采集和虚拟人渲染;后端两台Server,一台部署了AILab的多套服务,另一台作为中转服务器,负责前后台数据的转发以及部分控制逻辑。在图5中可以看到,除了语音交互,系统还支持文本输入,直接送到TTS模块生成语音和驱动面部的Rig Control参数,应用在需要用文本直接驱动虚拟人的场合。

Siren AI at SIGGRAPH ASIA 2018

2018年12月Siren AI在东京举办的SIGGRAPH ASIA 会议上首次进行Live Demo的海外展示。Siren AI吸引了大量与会者参与体验,不少数字人领域的研究者专门来展台切磋数字人和AI交叉研究中的关键问题。

图6 大会现场盛况

众多研究者参加了Exhibitor Talk环节,并在主题演讲后留下继续进行深入探讨。

图7?Exhibitor Talk环节现场

END

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-21,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 腾讯高校合作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com