作者:Ruizhi Cheng;Kaiyan Liu 来源:HotNets ’23 标题:Enriching Telepresence with Semantic-driven Holographic Communication 链接: https://dl.acm.org/doi/10.1145/3626111.3628184 内容整理:鲁君一 实现最小化带宽消耗和端到端延迟的最佳平衡,同时保持令人满意的视觉质量水平成为实时交互式全息通信的最终目标,这是 6G 设想的沉浸式远程呈现的基本构建块。考虑到需要传输大量 3D 数据、苛刻的延迟要求以及涉及的高计算工作负载,这一雄心勃勃的目标给计算能力有限的移动设备带来了重大挑战。这篇论文里建议提供从远程呈现参与者中提取的语义信息,而不是一点一点地分发沉浸式内容,以大幅减少远程协作等面向任务的应用程序的互联网带宽使用量。通过将相关语义分为三种不同类型(即关键点、二维图像和文本)来提供分类法,并深入研究克服这些挑战的解决方案。本文利用基于关键点的语义(部分)实现概念验证的初步结果验证了研究方法的可行性。
全息通信受益于3D内容的传递。全息图可以使用体积内容生成,以捕捉3D对象/场景,通常通过点云或网格表示。此外,如神经辐射场(NeRF)等隐式神经表示的最新进展作为表示体积内容的一种可行替代方案越来越受欢迎。然而,NeRF主要是为静态场景设计的,需要先验知识进行训练,这使得它直接应用于实时互动全息通信变得具有挑战性。体积内容的一个独特方面是它能够让观看者不仅可以改变观看方向,还可以在3D空间中自由移动,这称为六自由度(6DoF)运动。
尽管近年来已有越来越多的努力旨在优化体积内容的交付并提升其QoE,但现有工作在以下方面存在不足。首先,先前的成就主要集中在流式传输预录制内容的视频点播(VOD)上。与VOD不同,实时流媒体促进了更多激动人心的全息通信用例,如远程手术和远程协作。其次,即使是中等质量的体积内容,最新方法仍要求相当大的带宽需求,例如ViVo中的约100Mbps。第三,以前的工作主要针对在2D屏幕上显示体积内容的智能手机,与混合现实(MR)头显相比,导致的用户体验几乎不令人满意。
为了实现真正沉浸式和引人入胜的远在场体验,全息通信应该促进交互式和实时流媒体的高质量体积内容,供MR头显使用。然而,实现这一宏伟目标具有挑战性,原因如下:
在这篇立场论文中,作者们主张为了实现全球远程参与的全息通信,必须显著降低传输体积内容的带宽需求,同时保持高视觉质量和最小化端到端延迟。为了达成这个目标,他们提出了SemHolo——一个首创的基于语义的全息通信框架。语义通信是一种新兴的范式,它只传输从大量数据中提取的关键、相关和有用的信息,而不是按位传输。
语义通信纳入沉浸式远程呈现的动机源于其任务驱动的本质。为了完成一个任务,通常不需要完全复制远程对方的3D体积内容。相反,关键在于实时传递核心互动或重大事件。这些关键元素可能包括在线会议中发言人的显著手势和面部表情,或者远程手术中的关键操作。
图 1:传统方法和三种基于语义的全息通信的端到端流程。为简单起见,我们仅展示从A到B的通信过程,从B到A的过程镜像了这个结构。(PtCl:点云)
基于关键点的语义的主要优势是其数据大小小,因为关键点被表示为2D/3D坐标,且相对较少数量的关键点(例如大约100个)就可以代表人体模型。尽管最新技术倾向于在重建之前将关键点编码到参数化的身体模型(如SMPL-X)中,传输的数据量仍然很小(例如,每帧约1.91 KB,如§4所示)。然而,如此小的数据量对于时间效率高且在视觉上令人满意的内容重建提出了显著的挑战。
为了克服这些挑战,作者计划开发一个非参数化、考虑时间因素的框架,然后在此框架内探讨提取关键点数量、计算开销和视觉质量之间的权衡。
基于图像的语义(Image-based Semantics)通过利用神经辐射场(NeRF)技术,提供了两个独特的优势。首先,它只需要RGB图像作为输入,这使得它适合于通常深度传感器工作不佳的户外用例。其次,通过使用高分辨率图像进行训练和推断,NeRF能够重建高保真、逼真的3D场景。然而,在实时互动全息通信的背景下,它带来了与动态场景重建和速率适应相关的重大挑战。
因此,正在研究可扩展的神经网络,例如可伸缩网络和渐进网络。它们被设计为训练一个可以分为多个具有不同宽度和层数的可执行子网络的单一模型。为了实现速率适应,每个子网络都可以被训练以适应特定的输入分辨率。例如,较窄的子网络处理低分辨率输入,而较宽的子网络(包括较窄的子网络)管理高分辨率输入。通过逐步调整较窄和较宽子网络之间的网络参数,我们能够动态地适应模型大小与输入分辨率之间的关系。
基于文本的语义(Text-based Semantics)主要优势在于它的数据表示非常紧凑。它面临的主要挑战在于实时语义提取与内容重建,以及提高重建内容的视觉质量。
一个相关的挑战来自于人类模型的分割可能导致的全局信息(如整体身体姿态)的潜在丢失,这可能导致重建不准确。因此,我们将进行两步编码。首先,我们使用专用的文本通道编码全局特征。随后,我们设计精细的局部特征通道,并参考全局通道以确保在重建过程中它们的正确性和与全局特征的连贯关系。
研究团队建立了一个概念验证系统,部分实现了基于关键点的语义用于全息通信。使用了X-Avatar模型,这是一个用于从关键点生成人体网格的最新模型。它包括两个网络,第一个网络将与SMPL-X参数对齐的3D关键点作为输入,并输出几何信息。第二个网络使用创建的几何信息和原始RGB-D数据来学习纹理。但在实验中,由于已有真实纹理,所以研究团队重新训练了X-Avatar模型,不包括纹理部分。X-Avatar可以调整输出分辨率,分别在128、256、512和1024的分辨率下生成网格,以探究视觉质量和计算开销之间的权衡。
图 2:(a)表示从RGB-D数据生成的带纹理的网格;(b)-(d)表示使用关键点生成的不带纹理的网格,分辨率分别为128、256和1024,在512分辨率下重建的网格视觉质量与1024分辨率相似。
图 3:从RGB-D数据生成的带纹理网格(左)和分辨率为1024的学习结果(右)。
图 4:在NVIDIA A100 GPU上不同网格分辨率的重建帧率。
如图2,3,4所示,初步结果展示了在基于语义的全息通信中,数据大小、计算开销和视觉质量之间的固有权衡。对于基于关键点的语义,尽管数据量小,但高压缩比带来了实时重建和保持重建内容高视觉质量的显著挑战。因此,在设计完整的SemHolo时应仔细考虑这些权衡。
这篇文章中提出了语义驱动的实时交互式全息通信的整体研究议程,这是新兴的沉浸式远程呈现的基石。为了减轻由于体积内容的 3D 性质而产生的巨大带宽消耗,本文提出了一种开创性的方法,可以传输语义信息来代替传统的逐位通信。为了最大限度地减少带宽消耗和端到端延迟,同时保持令人满意的视觉质量水平,作者深入研究了每个语义类别,以阐明开放研究挑战并提出潜在的解决方案。对基于关键点的语义进行概念验证实现的初步结果表明,虽然它可以显着减少带宽消耗,但它在实现高 FPS 和令人满意的视觉质量方面提出了相当大的挑战。