超越Gen-2 ？Meta推出文本生成视频工具：Emu Video

文章来源：企鹅号 - AI变革指南

今天给大家介绍视频生成的新工具，它的名字叫做Emu Video

它是由Meta的AI团队开发的一款基于扩散模型的文本到视频生成工具。

它可以根据你的文本输入，生成4秒钟的高清视频，分辨率为512×512像素，帧率为每秒16帧。

你可以输入纯文本，也可以输入文本和图片，或者只输入图片，Emu Video都能根据你的输入，生成相应的视频。

效果如何？我们看一下

Meta的研究团队在一个包含3400万个视频文本对的数据集上训练了Emu Video，并使用了两个不同的文本提示集来测试它的性能。

这些文本提示涵盖了各种各样的类别，可以测试模型生成自然和梦幻视频以及组合不同视觉概念的能力。

可以看到，Emu Video生成的视频非常流畅和自然，没有明显的拼接痕迹，就像是一段真实拍摄的视频一样。

Emu Video的原理是什么呢？

Emu Video是基于扩散模型的，扩散模型是一种生成式AI模型，它可以从噪声中重建出清晰的图像或视频。

Emu Video的生成过程包括两个步骤：

第一步是根据文本输入生成一张图像

第二步是根据图像和另一个文本输入生成视频

这样，就可以利用已有的文本到图像模型来初始化视频生成模型，然后在大规模的视频文本数据集上进行微调，提高视频的质量和一致性。

具体的可以看官网的论文。

项目地址：

https://emu-video.metademolab.com/

论文地址：

https://emu-video.metademolab.com/assets/emu_video.pdf

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货