CVPR 2024 | LiDM：首个可以根据多模态条件生成逼真的激光雷达场景方法，加速107倍

CV君

发布于 2024-04-25 17:32:37

970

发布于 2024-04-25 17:32:37

文章被收录于专栏：我爱计算机视觉我爱计算机视觉

本篇文章分享 CVPR 2024 论文LiDAR Diffusion：Towards Realistic Scene Generation with LiDAR Diffusion Models，利用激光雷达扩散模型生成逼真场景。

详细信息如下：

论文链接：https://arxiv.org/abs/2404.00815
代码链接：https://github.com/hancyran/LiDAR-Diffusion
项目主页：https://lidar-diffusion.github.io/

背景

近年来，我们观察到可控生成模型的激增，这些模型能够生成具有视觉吸引力且高度逼真的图像。其中，扩散模型（Diffusion Models）因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成，潜在扩散模型（Latent Diffusion Models）。其后续应用（例如，Stable Diffusion、Midjourney、ControlNet）进一步增强了其条件图像合成的潜力。

从图像扩散模型到LiDAR扩散模型

这一成功让我们思考：我们是否可以将可控扩散模型（Controllable Diffusion Models）应用于自动驾驶和机器人技术的LiDAR场景生成？

例如，给定一组Bounding Boxes，这些模型能否合成相应的激光雷达场景，从而转化为高质量且昂贵的标记数据？

或者，是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景？

或者，我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真？

为了回答这些问题，我们的目标是设计包含多种条件的扩散模型，以生成逼真的LiDAR的场景。

LiDAR扩散模型

为了实现条件 LiDAR 真实场景生成，我们提出了一种基于曲线的生成器，称为LiDAR 扩散模型（LiDAR Diffusion Models），以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入，例如边界框、相机图像和语义图。

LiDAR 扩散模型利用range images作为 LiDAR 场景的表示，这在各种下游任务中都很常见，例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换，以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息，我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。

为了进一步提高对现实世界中LiDAR 数据真实性的模拟，我们关注三个关键组成部分：图案真实性、几何真实性和物体真实性。

首先，我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。

其次，为了达到几何的真实感，我们引入了基于点的坐标监督，以使我们的自动编码器能够理解场景级几何。

最后，我们通过结合Patch-based下采样策略来扩大感受野，以捕获在视觉上较大物体的完整上下文。

通过以上提出的模块，扩散模型能够有效地合成高质量的 LiDAR 场景，同时还表现出卓越的性能，与LiDARGen相比，加速了107倍，并支持任意类型的基于image和基于token的条件为输入。