1张图片，1段音频，生成逼真人脸动画的视频！NTU创新AI视频生成方法：DIRFA

文章来源：企鹅号 - AI变革指南

背景

你是否曾经想过，如果你能够通过一段音频和一张图片，就能够生成一个与之匹配的说话的人脸视频？

这样的技术可以用于在数字人、视觉配音、虚拟现实等领域。然而，要实现这样的技术，却并不容易。

因为人脸动画不仅包括准确的唇部运动，还包括丰富的面部表情细节和自然的头部姿态，这些都是由音频中的语音，情感，语调等因素影响的。

近年来，一种典型的方法是静态说话面部生成，它仅编辑嘴唇运动，而不考虑其他面部动画（即头部姿势和面部表情）。

另一种方法侧重于动态说话面部生成，其中包括用于建模全脸动画的头部运动，但生成的面部仍然没有表情。

但是这两种方法生成的效果都不尽人意，不能真实的模拟出人的表情和动作。

DIRFA创新方法，生成逼真面部动画

为了解决这些问题，一些来自新加坡南洋理工大学的研究者提出了一种新的方法，名为DIRFA。

DIRFA可以根据音频生成多样化而逼真的人脸动画。DIRFA的核心思想是，利用一个基于变换器的概率映射网络，将音频信号自回归地转换为一个人脸动画序列，这个序列可以表征在音频条件下的人脸动画分布。

为了增加人脸动画的多样性，映射网络使用了一个随机向量作为输入，这个向量可以控制生成的人脸动画的风格。

为了保证人脸动画的真实性，映射网络使用了一个时序偏置掩码，这个掩码可以让网络模拟人脸动画的时序依赖性，从而产生时序平滑的人脸动画序列。

有了生成的人脸动画序列和一个源图像，就可以用一个通用的生成网络，合成逼真的说话的人脸视频。

DIRFA的优势

DIRFA的优势在于，它不需要预先训练一个特定人物的模型，也不需要与音频匹配的视频作为输入，它可以从任意的音频和图像生成说话的人脸视频，而且可以根据不同的随机向量，生成不同风格的人脸动画，从而增加多样性。

DIRFA的效果也非常令人满意，它可以生成具有准确的唇部运动，丰富的面部表情细节和自然的头部姿态的人脸动画，而且可以适应不同的身份，姿态和音频。DIRFA的速度也非常快，它可以实时地生成说话的人脸视频，而且占用的内存和计算资源也很少。

论文地址：

https://arxiv.org/pdf/2304.08945.pdf

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货