玩转3D全息图像！AI即刻生成

AI科技大本营

发布于 2021-03-25 20:16:38

1.3K0

发布于 2021-03-25 20:16:38

AR/VR技术的起源，可以追溯到上世纪五、六十年代。哲学家、电影制作人和发明家Morton Heilig利用在电影上的拍摄经验设计出了一款名叫Sensorama Stimulator的机器。

VR技术是以沉浸性、交互性和构想性为基本特征的计算机高级人机界面。AR技术，是在VR技术基础上发展起来的一种利用计算机系统产生三维信息来增强用户对现实世界感知的新技术，是一种将虚拟影像实时叠加到现实影像中的虚实融合技术。尽管AR/VR技术已经发展了很多年，但是一些常用的AR/VR设备仍然无法替代电视、计算机等2D设备。其中很重要的一个原因就是用户使用AR/VR设备进行观看，视觉容易疲劳，用户会感受身体不适。

全息图技术可能是一种更好的3D可视化解决方案。全息图是以激光为光源，用全景照相机将被摄体记录在高分辨率的全息胶片上构成的图。作为一种三维图像，全息图与传统的照片有很大的区别。传统的照片呈现的是真实的物理图像，而全息图则包含了被记录物体的尺寸、形状、亮度和对比度等信息，呈现具有连续深度感的三维场景的能力对虚拟和增强现实、人机交互、教育和培训产生了深远的影响。计算机生成的全息(CGH)通过对衍射和干涉的数值模拟实现了高空间角度的3D投影。

长期以来，研究人员一直在研究制作全息图的技术，但是，现有的基于物理的方法无法生成具有按像素聚焦控制和精确遮挡的全息图。计算繁琐的菲涅耳衍射仿真在图像质量和运行时间两者之间有很大的矛盾，利用传统技术生成全息图需要一台超级计算机进行物理模拟，非常耗费资源，并且产生的三维效果不如真实感。

近日，麻省理工学院的研究人员已经开发出一种几乎可以立即生成全息图的新方法，该项研究发表在《Nature》期刊上。该项研究基于深度学习方法，运行速度较传统方法极为高效，可以在笔记本电脑上运行。该团队称之为“张量全息术”，并认为该方法可能会推动全息技术向VR和3D打印等领域的延伸。

麻省理工学院的研究人员演示了基于深度学习的CGH管道，该管道能够实时从单个RGB深度图像合成逼真的彩色3D全息图。该算法中运用的卷积神经网络(CNN)的存储效率极高(低于620 KB)，并且在单个消费级图形处理单元上以60赫兹的频率运行，分辨率为1,920×1,080像素。此外，如果利用低功耗设备上人工智能加速芯片，该卷积神经网络还可在移动设备(1.1赫兹的iPhone 11 Pro)和边缘设备(2.0赫兹的Google Edge TPU)上交互运行，从而保证了下一代虚拟和实时虚拟设备的实时性能。研究人员通过引入具有4,000对RGB深度图像和相应的3D全息图的大规模CGH数据集(MIT-CGH-4K)进行训练。

图：全息图生成过程(图源：Towards real-time photorealistic three-dimensional holography with deep neural networks, Nature (2021). DOI: 10.1038/s41586-020-03152-0,dx.doi.org/10.1038/s41586-020-03152-0.)

全息照相技术最早是在上个世纪60年代中期开发，这些信息储存在一个很微小但却很复杂的干涉模式中，这个干涉模式是由激光产生的，其中一半光束用于照亮物体，另一半光束用作光波相位的参考，该参考会产生全息图的独特深度感，但是生成的图像是静态的，动态全息显示存在一定的技术瓶颈，主要表现为全息图片的还原速度，并且难以复制和共享。

研究人员利用计算机模拟光学设置生成全息图像，但是实现这一过程需要非常大的计算量。因为三维场景中的每个点都有不同的深度，因此无法对所有这些点都应用相同的操作，极大地增加了计算复杂性。因此，人们不得不使用一台超级计算机运行模拟，整个过程需要花费几秒钟或几分钟。与此同时，现有算法无法以逼真的精度对遮挡进行建模。麻省理工学院的研究人员使用深度学习来加速计算机生成的全息图，从而实现实时全息图的生成。研究人员设计了一种卷积神经网络，使用可训练的张量链大致模拟人类如何处理视觉信息。

训练神经网络通常需要庞大的高质量数据集，而3D全息图以前没有这种数据集。研究人员引入了大规模菲涅耳全息图数据集MIT-CGH-4K，该数据集由4,000对RGB深度（RGB-D）图像和相应的3D全息图组成。

研究人员创建的数据集具有三个重要功能，以使CNN能够学习逼真的3D全息图。首先，用于渲染RGB-D图像的3D场景具有很高的复杂度，并且在颜色，几何形状，阴影，纹理和遮挡方面存在很大的差异，以帮助CNN推广到计算机渲染和实际捕获的RGB-D测试中输入，通过自定义随机场景生成器实现的。其次，所得RGB-D图像的像素深度分布应该是均匀的。这对于防止学习的CNN偏向任何经常出现的深度并在出现像素深度分布不均匀时产生不良结果至关重要。第三，从RGB-D图像计算出的全息图可以将每个像素精确地聚焦到深度图像定义的位置，并正确处理遮挡。

图:2D和3D全息投影实验演示(图源：Towards real-time photorealistic three-dimensional holography with deep neural networks, Nature (2021). DOI: 10.1038/s41586-020-03152-0,dx.doi.org/10.1038/s41586-020-03152-0.)

该研究中的CNN模型是完全卷积的残差网络，接收四通道RGB-D图像，并将彩色全息图预测为六通道图像（RGB幅度和RGB相位），可用于以时分复用的方式驱动三个光学组合的SLM或一个SLM，以实现全彩色全息照相。通过从每个图像对中学习，张量网络调整了其自身计算的参数，从而逐步增强了其创建全息图的能力。完全优化的网络运行速度比基于物理的计算快几个数量级。

该网络体系结构仅由残差块和从输入到倒数第二个残差块的Skip connection组成。该体系结构类似于DeepFocus51网络。DeepFocus51是一种全卷积神经网络，设计用于合成用于变焦，多焦点和光场头戴式显示器的图像内容。但是，该研究中的体系结构消除了其保留容量的交织层和去交织层。交织层通过将不重叠的空间块重新排列到深度通道中来减小输入张量的空间尺寸，而去交织层则还原操作。较高的交织速率会降低网络容量，并以较低的图像质量换取更快的运行时间。

在实践中，研究人员比较了三种不同的网络小型化方法：(1)减少卷积层数；(2)使用高交错率；(3)减少每个卷积层的滤波器数量。在相等的运行时间下，方法(1)(使用较少的卷积层)可为实验任务提供最高的图像质量；方法(3)导致最低的图像质量，因为CNN模型包含的滤镜数量最少，方法(3)的滤镜数量为240，而方法(1)和(2)的滤镜数量分别为360或1,440，而方法(2)的效果不如方法(1)，主要是因为相邻像素分散在各个通道中，因此很难对其相互作用进行推理。鉴于此观察，研究人员消融了交织层和去交织层，以提高性能和简化模型。

图：算法性能评估(图源：Towards real-time photorealistic three-dimensional holography with deep neural networks, Nature (2021). DOI: 10.1038/s41586-020-03152-0,dx.doi.org/10.1038/s41586-020-03152-0.)

该项研究证明了使用CNN从单个RGB-D图像进行实时、逼真的3D CGH合成的可能性，传统方法中该任务的运算量超出了现有计算设备的功能。研究人员运用量身定制的随机场景生成器和OA-PBM技术创建的多分辨率、大规模全息图数据集将使各种与图像相关的常规应用技术转移到全息技术上，包括超分辨率，压缩，全息图的语义编辑和由中心引导的全息图渲染等。受益于实时，高分辨率的CGH，该项研究为商业和学术研究领域提供了一个测试平台，例如，用于虚拟现实和增强现实的消费者全息显示器，基于全息的单次批量3D打印和全息显微镜的实时模拟。

实时3D全息技术的应用将会惠及从VR到3D打印的众多系统，研究人员表示，该种新系统可以帮助VR观看者沉浸在更真实的风景中，同时消除长期使用VR带来的眼睛疲劳和其他副作用。该项技术可以很容易地部署在调制光波相位的显示器上。同时，三维全息术还可以促进3D打印技术的发展，该技术比传统的逐层3D打印更快、更精确，因为该项技术允许同时投影整个3D图形。

研究人员Wojciech Matusik认为：“这项技术是一个巨大的飞跃，它可以完全改变人们对全息技术的态度，我们觉得神经网络就是为此而生的。”

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-03-15，如有侵权请联系?cloudcommunity@tencent.com 删除

图像处理