基于单张图像，即可生成3D KenBurns特效

文章来源：企鹅号 - 青亭网

近期，波特兰州立大学学生Simon Niklaus（前Adobe Research实习生）发布了一项将单张2D照片模拟带有3D KenBurns效果的相关论文，而其实现方式就是通过KenBurns结合一套机器学习方法。

什么是KenBurns ？

可能很多人对“KenBurns”这一词并不了解，简单来讲它是一个图片动态展示的方式，是视频编辑中最常见的照片特效之一，其通过缩放和平移图片进行显示，实现不同的视觉效果，甚至照片切换等效果。

Tips：KenBurns一词来自于一位美国知名的电影制片人、纪录片家：Kenneth Lauren Burns，因其在电视台工作期间广泛采用这种将照片缩放、平移的展现方式，并用于照片之间过渡动画。后来，苹果前CEO兼联合创始人史蒂夫·乔布斯曾向Kenneth提出合作请求，将其名字进行商业化展示，但被Kenneth拒绝。而之后通过某些非营利组织的设定，其最终获得在iMovie、Final Cut Pro等苹果产品中使用“KenBurns”一词的许可。

说白了，它和很多手机中具备“照片一键生成视频”的方法类似。如果用的是iPhone，可以直接在照片-为你推荐-回忆中选择开启。

大家可以通过上面的GIF了解一下KenBurns具体应用的效果。

而3D KenBurns则是在摄像中常用的方法，包括在部分纪录片、广告、商品展示等众多类型的视频中都极为常见。和采用照片合成的2D KenBurns效应不同的是，3D KenBurns则加入了深度信息，让场景随着照片移动时产生对应变化。如果基于手动制作则需将照片分段，然后插入虚拟3D空间中，然后进行繁琐的修复操作。

单张图像3D KenBurns方法来袭

而Simon Niklaus这套方法结合了深度学习技术，其特点就是：自动化（包括全自动和自定义两种模式），并且重点是只需单张图片即可生成。

虽说现在可以通过手工制作实现这一效果，但其需要来自不同位置的多张图像。Simon Niklaus提出的方法则可基于单张图像，并且可指定摄像机路径，从而对结果进行更多控制。

据了解，这套方法中使用了一个用于图像深度预测的语义感知神经网络。目的就是为了解决单张图像无深度信息的问题，有了估算出的深度数据，然后将图像映射到点云，再将这些渲染数据融合成到视频中的不同帧。

其中，为了保证合成结果在时间和几何方面的一致性，其还结合上下文感知颜色、深度修复，来填充原本单张图像模拟多角度或部分极端情况下残缺的部分，从而模拟扩展出场景信息，以此来达到合成更为“真实”的场景。

根据论文介绍，该方案适用于多种类型的图片，包括人物肖像、风景、室内、户外等。

简单而言，Simon Niklaus这套基于单张图像的3D KenBurns方法实现起来有两个难点：

一是基于新的相机视角生成新图像，并需要准确模拟出原视图像场景几何，关键在于单张图像深度信息模拟；

二是要根据预测的场景几何，在时间线上生成缺失或遮挡图像部分。

接下来，我们来看看Simon Niklaus方案是如何解决这两大难题的。

语义感知和深度估算

近些年随着人工智能领域的突破进展，并诞生不少基于单目深度信息估算的方法，但是这些方法基本上并不适用于Simon Niklaus提出的3D KenBurns效果生成。

Simon Niklaus专门设计了一个语义感知深度估算模型，其特点通过地分辨图像估算出粗糙的深度信息，然后使用VGG-19模型提取语音信息；接下来基于Mask R-CNN分段调整深度图，确保对象内深度值保持一致；最后进行深度细化，对粗糙深度进行采样以确保有精确的深度边界。

为了最终呈现出一个连续的、高质量的深度图像，则需要在物体边缘进行深度的优化，然后其通过Z滤波解决了这个问题。

再给深度估算模型增加语义特征，大幅提升深度估算的场景几何后，继而发现语义失真并未完全解决，其赞词通过Mask R-CNN分割掩码，将任务、汽车、动物等不同语义上进行蒙版化，然后将最小深度值分配到不同蒙版来调整深度值。

最后，进行深度细化的过程，在分辨率图像的引导下，结合神经网络学习如何在深度信息上采样。

上下文感知合成修复图像

Simon Niklaus分析了图像深度估算方案中三个关键的问题，只有解决它们之后才能应用到3D KenBurns中来。即：1，几何失真；2，语义失真；3，深度边界不准确。

为此，Simon Niklaus团队专门设计了一个可视化的操作图像合成程序。最终的图像合成方案在点云渲染、上下文提取、颜色和深度修复方面花费大量时间，并且解决了在保持场景几何一致的同时，通过深度和颜色映射到点云中解决遮挡问题。

最终效果

经过大量数据训练和实验，其找到了YouTube上大量3D KenBurns的视频，然后将自己的方案与视频创作者制作的作品进行对比，结合Simon Niklaus方案更受欢迎。

当然，作为算法自然会有不可避免的缺点，尤其是在前期数据数据量较少时。例如，在部分场景下我们会看到场景的略微变形，在有明显人影或其它影子的场景下效果有些冲突等。这也印证了他们的测试结果，在一个小规模的测试中，在室内场景下，Simon Niklaus的方案比视频创作者的3D KenBurns效果更受欢迎。

另外，当前对于Simon Niklaus提出的3D KenBurns方案不适用的场景还包括反光场景、弱场景（如：旗杆等）表现欠佳。

总而言之，Simon Niklaus提出的这套方案对于单张图像的3D KenBurns生成而言有极大推进效果。深度估算模型也为今后的完善打下基础，基于语音的深度调整和边界细化也是本论文中极为关键的环节。

在新新Vlog时代，人人都能成为视频创作者，而简易、有趣的特效生成方式将变得越来越受欢迎，而3D KenBurns将成为其中关键技术，随着未来技术的完善，未来也将大大方便视频创作者们。

PS：本论文由波特兰州立大学Simon Niklaus、共同作者包括：Adobe Research的Long Mai、Jimei Yang、波特兰州立大学的Feng Liu。

参考：

https://arxiv.org/abs/1909.05483

https://en.wikipedia.org/wiki/Ken_Burns_effect

发表于: 2019-09-172019-09-17 21:44:39
原文链接：https://kuaibao.qq.com/s/20190917A0PMQ400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于单张图像，即可生成3D KenBurns特效

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐