HotNets 23 ｜通过语义驱动的全息通信丰富远程呈现

用户1324186

发布于 2024-04-18 19:11:49

1300

发布于 2024-04-18 19:11:49

作者：Ruizhi Cheng；Kaiyan Liu 来源：HotNets ’23 标题：Enriching Telepresence with Semantic-driven Holographic Communication 链接: https://dl.acm.org/doi/10.1145/3626111.3628184 内容整理：鲁君一实现最小化带宽消耗和端到端延迟的最佳平衡，同时保持令人满意的视觉质量水平成为实时交互式全息通信的最终目标，这是 6G 设想的沉浸式远程呈现的基本构建块。考虑到需要传输大量 3D 数据、苛刻的延迟要求以及涉及的高计算工作负载，这一雄心勃勃的目标给计算能力有限的移动设备带来了重大挑战。这篇论文里建议提供从远程呈现参与者中提取的语义信息，而不是一点一点地分发沉浸式内容，以大幅减少远程协作等面向任务的应用程序的互联网带宽使用量。通过将相关语义分为三种不同类型（即关键点、二维图像和文本）来提供分类法，并深入研究克服这些挑战的解决方案。本文利用基于关键点的语义（部分）实现概念验证的初步结果验证了研究方法的可行性。

简介

全息通信受益于3D内容的传递。全息图可以使用体积内容生成，以捕捉3D对象/场景，通常通过点云或网格表示。此外，如神经辐射场（NeRF）等隐式神经表示的最新进展作为表示体积内容的一种可行替代方案越来越受欢迎。然而，NeRF主要是为静态场景设计的，需要先验知识进行训练，这使得它直接应用于实时互动全息通信变得具有挑战性。体积内容的一个独特方面是它能够让观看者不仅可以改变观看方向，还可以在3D空间中自由移动，这称为六自由度（6DoF）运动。

尽管近年来已有越来越多的努力旨在优化体积内容的交付并提升其QoE，但现有工作在以下方面存在不足。首先，先前的成就主要集中在流式传输预录制内容的视频点播（VOD）上。与VOD不同，实时流媒体促进了更多激动人心的全息通信用例，如远程手术和远程协作。其次，即使是中等质量的体积内容，最新方法仍要求相当大的带宽需求，例如ViVo中的约100Mbps。第三，以前的工作主要针对在2D屏幕上显示体积内容的智能手机，与混合现实（MR）头显相比，导致的用户体验几乎不令人满意。

为了实现真正沉浸式和引人入胜的远在场体验，全息通信应该促进交互式和实时流媒体的高质量体积内容，供MR头显使用。然而，实现这一宏伟目标具有挑战性，原因如下：

鉴于其3D本质，流式传输高质量的体积内容导致需要传递大量数据（例如，即使经过压缩，也需要>1Gbps的吞吐量）。
由于散热问题，提供直观方式消费和与体积内容交互的头戴显示器通常具有有限的计算能力，与智能手机相比。
互动式实时流媒体通过要求极低的端到端延迟（通常少于100ms），以确保理想的QoE，加剧了问题的复杂性。

在这篇立场论文中，作者们主张为了实现全球远程参与的全息通信，必须显著降低传输体积内容的带宽需求，同时保持高视觉质量和最小化端到端延迟。为了达成这个目标，他们提出了SemHolo——一个首创的基于语义的全息通信框架。语义通信是一种新兴的范式，它只传输从大量数据中提取的关键、相关和有用的信息，而不是按位传输。

语义通信纳入沉浸式远程呈现的动机源于其任务驱动的本质。为了完成一个任务，通常不需要完全复制远程对方的3D体积内容。相反，关键在于实时传递核心互动或重大事件。这些关键元素可能包括在线会议中发言人的显著手势和面部表情，或者远程手术中的关键操作。

图 1：传统方法和三种基于语义的全息通信的端到端流程。为简单起见，我们仅展示从A到B的通信过程，从B到A的过程镜像了这个结构。（PtCl：点云）

Sem Holo 中每种语义的研究挑战及其潜在解决方案

基于关键点的语义

基于关键点的语义的主要优势是其数据大小小，因为关键点被表示为2D/3D坐标，且相对较少数量的关键点（例如大约100个）就可以代表人体模型。尽管最新技术倾向于在重建之前将关键点编码到参数化的身体模型（如SMPL-X）中，传输的数据量仍然很小（例如，每帧约1.91 KB，如§4所示）。然而，如此小的数据量对于时间效率高且在视觉上令人满意的内容重建提出了显著的挑战。

实时重建：稀疏的关键点不能恢复详细的网格，需要进一步处理，如额外的训练，以产生细粒度的网格。但这可能会超出延迟要求。一种潜在解决方案是利用人类视觉系统的独特特性，即只有接近中心凹区域的内容需要高分辨率。因此，我们可以选择直接传输压缩的3D网格用于中心凹区域以保持高视觉质量，同时仅为外围区域提供关键点以重建网格。
高质量纹理对齐：由于关键点不能编码纹理信息，从关键点恢复的网格仅包含几何结构，导致非衣着的身体结构。一个可行的解决方案可能是直接传输压缩的2D纹理，鉴于其高压缩比和相对较小的数据大小，接收方可以将其与重建的几何体对齐。
数据大小、计算开销和视觉质量之间的权衡：为了提高重建网格的视觉质量，一个直观的策略是通过使用复杂模型提取更多的关键点。虽然这可能不会显著增加带宽要求，但它不可避免地增加了计算开销。而且，最新技术可能不完全利用这些额外关键点提供的附加信息。因为它们选择在重建之前将关键点编码进参数化人体模型以实现流畅的流媒体。鉴于这些模型使用固定参数，通过提取额外关键点实现的视觉质量提升可能是有限的。增加更多参数到这些模型可能会破坏它们固有的3D旋转表示，导致不连续性。

为了克服这些挑战，作者计划开发一个非参数化、考虑时间因素的框架，然后在此框架内探讨提取关键点数量、计算开销和视觉质量之间的权衡。

基于图像的语义

基于图像的语义（Image-based Semantics）通过利用神经辐射场（NeRF）技术，提供了两个独特的优势。首先，它只需要RGB图像作为输入，这使得它适合于通常深度传感器工作不佳的户外用例。其次，通过使用高分辨率图像进行训练和推断，NeRF能够重建高保真、逼真的3D场景。然而，在实时互动全息通信的背景下，它带来了与动态场景重建和速率适应相关的重大挑战。

动态场景重建：原始NeRF主要设计用于静态场景，不适合流媒体。尽管最新进展将时间维度引入NeRF以使其可流式传输，但它们依赖于预训练的MLP模型。因此，它们主要适用于流式传输预录制内容的点播服务，并不兼容内容未知的实时互动全息通信。为了将NeRF纳入实时互动全息通信，我们面临着实时连续训练NeRF模型以进行3D场景重建的复杂挑战。我们提出的解决方案基于这样一个观察：用户资料随时间的变化可能是有限的。例如，在会议中，用户外观的主要变化可能只是面部表情。因此，一旦训练了特定于用户的NeRF模型，就无需从头开始重新训练模型。
降低延迟与速率适应：由于基于图像的语义通信涉及通过互联网传输2D图像，因此它与传统的2D视频流媒体具有相似性。由于传输多个高分辨率2D视频可能仍然需要大量带宽，因此有必要设计一个速率适应方案，例如，根据预测的接收方可用带宽调整图像分辨率。理想的设计是根据输入的不同分辨率调整模型大小。这种方法可以利用模型的一部分来处理较小的输入分辨率，从而加速微调和推断过程，进而降低端到端的延迟。但是，NeRF模型中的权重参数是复杂相互连接的，省略其中即使是很小的一部分也可能导致重建失败。因此，原始的NeRF架构不适合分割，也不能轻易适应不同输入分辨率的变化。一个简单的解决方案可能涉及训练不同大小的模型，通过增加它们的深度和宽度来适应不同的输入分辨率。然而，这无可避免地会导致显著增加内存占用和存储开销。

因此，正在研究可扩展的神经网络，例如可伸缩网络和渐进网络。它们被设计为训练一个可以分为多个具有不同宽度和层数的可执行子网络的单一模型。为了实现速率适应，每个子网络都可以被训练以适应特定的输入分辨率。例如，较窄的子网络处理低分辨率输入，而较宽的子网络（包括较窄的子网络）管理高分辨率输入。通过逐步调整较窄和较宽子网络之间的网络参数，我们能够动态地适应模型大小与输入分辨率之间的关系。

基于文本的语义

基于文本的语义（Text-based Semantics）主要优势在于它的数据表示非常紧凑。它面临的主要挑战在于实时语义提取与内容重建，以及提高重建内容的视觉质量。

实时提取与重建：全息通信的实时要求对基于文本的语义构建块提出了重大挑战，这些构建块在很大程度上依赖于复杂的深度学习模型来提取语义和重建内容。为了解决这个问题，我们提出利用人类运动的连续性，其中帧与帧之间的差异可能很小。具体来说，对于第一帧，我们将整个点云的信息编码为基于文本的语义。对于后续帧，我们只编码与前一帧的差异，从而减少提取和重建的计算开销。然而，现有的提取和重建模型都是基于逐帧操作的，未能利用帧与帧之间的相似性。因此，将时间特征纳入其中并非易事。
高质量重建：现有成果表明只能重建简单物体，如卡通化身和餐具，它们可能不足以重建逼真的人类模型。我们提出将人体模型划分为单元，并利用多个文本通道描述每个单元。鉴于文本大小通常很小，这样做只会增加有限的通信开销。在接收端，可以通过利用内容简化技术，在不同的质量级别上重建每个通道。这样不仅可以减少重建开销，还可以保持令人满意的体验质量（QoE）。

一个相关的挑战来自于人类模型的分割可能导致的全局信息（如整体身体姿态）的潜在丢失，这可能导致重建不准确。因此，我们将进行两步编码。首先，我们使用专用的文本通道编码全局特征。随后，我们设计精细的局部特征通道，并参考全局通道以确保在重建过程中它们的正确性和与全局特征的连贯关系。

实验设计与验证

研究团队建立了一个概念验证系统，部分实现了基于关键点的语义用于全息通信。使用了X-Avatar模型，这是一个用于从关键点生成人体网格的最新模型。它包括两个网络，第一个网络将与SMPL-X参数对齐的3D关键点作为输入，并输出几何信息。第二个网络使用创建的几何信息和原始RGB-D数据来学习纹理。但在实验中，由于已有真实纹理，所以研究团队重新训练了X-Avatar模型，不包括纹理部分。X-Avatar可以调整输出分辨率，分别在128、256、512和1024的分辨率下生成网格，以探究视觉质量和计算开销之间的权衡。

图 2：(a)表示从RGB-D数据生成的带纹理的网格；(b)-(d)表示使用关键点生成的不带纹理的网格，分辨率分别为128、256和1024，在512分辨率下重建的网格视觉质量与1024分辨率相似。

图 3：从RGB-D数据生成的带纹理网格（左）和分辨率为1024的学习结果（右）。

图 4：在NVIDIA A100 GPU上不同网格分辨率的重建帧率。

如图2，3，4所示，初步结果展示了在基于语义的全息通信中，数据大小、计算开销和视觉质量之间的固有权衡。对于基于关键点的语义，尽管数据量小，但高压缩比带来了实时重建和保持重建内容高视觉质量的显著挑战。因此，在设计完整的SemHolo时应仔细考虑这些权衡。

总结

这篇文章中提出了语义驱动的实时交互式全息通信的整体研究议程，这是新兴的沉浸式远程呈现的基石。为了减轻由于体积内容的 3D 性质而产生的巨大带宽消耗，本文提出了一种开创性的方法，可以传输语义信息来代替传统的逐位通信。为了最大限度地减少带宽消耗和端到端延迟，同时保持令人满意的视觉质量水平，作者深入研究了每个语义类别，以阐明开放研究挑战并提出潜在的解决方案。对基于关键点的语义进行概念验证实现的初步结果表明，虽然它可以显着减少带宽消耗，但它在实现高 FPS 和令人满意的视觉质量方面提出了相当大的挑战。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-04-15，如有侵权请联系?cloudcommunity@tencent.com 删除

网络