腾讯云 TVP 成员
暂无搜索历史
图像恢复 (IR) 任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展,但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先...
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主...
VideoCrafter的网络架构如图所示,它包括T2V和I2V两个子任务,相应的需要注入Text prompt和image prompt。Motion spe...
现有方法通常将该问题表述为三维人脸重建问题,该问题从人脸图像中估计人脸身份和表情等人脸属性。然而,由于缺乏身份和表情的ground-truth标签,大多数基于3...
外观和感觉是人类解释图像时的两个影响因素,而对这两个元素的理解一直是计算机视觉中长期存在的问题。图像的外观通常与直接影响内容的可量化属性相关,例如曝光度和噪声水...
我创建了 Pion,这是一个适用于 RTC 的 Go 软件集合,其中最受欢迎的是 WebRTC 实现,它被用作许多开源项目的组件。此外,我还写了《WebRTC ...
视频超分辨率(VSR)模型的高计算成本阻碍了它们在资源有限的设备上的部署,例如智能手机和无人机。现有的 VSR 模型包含大量冗余滤波器,影响了推理效率。为了修剪...
最近,高斯溅射作为一种表示场景为 3D 高斯点的方法,显示出在渲染质量、分辨率和速度方面的显著性能。然而,现有的高斯溅射公式只适用于静态场景,将对象运动整合到高...
随着5G网络和边缘计算技术的普及,实时自由视角视频合成方法在自由视角视频直播、3D电视、快速自由视角视频渲染以及许多其他场景中的应用越来越广泛。一般来说,实时自...
图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入,我们生成特定人物的运动序列,并为双唇辅音('m...
用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音...
自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理,从而产...
通话几乎完全由音频和视频数据包组成,这些数据包在通话参与者之间交换。许多连接到互联网的设备都在网络地址转换(NAT)单元后面,这可能会阻止它们直接与其他设备通信...
在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验,需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面,三维高斯散点(GS)是对神经辐射场的最新替代...
实时视频流传输中,从上传客户端到媒体服务器的上行带宽通常是不足的。因此,上传客户端可能需要以更低的比特率对高质量的视频帧进行编码,从而降低用户的QoE。为解决这...
传统上,研究人员通过启动多个共享瓶颈链路的流,让这些流尽可能多地发送数据,然后评估流量速率公平性,即这些流是否获得了相等的吞吐量。然而,这种传统的评估设置并不现...
全息通信受益于3D内容的传递。全息图可以使用体积内容生成,以捕捉3D对象/场景,通常通过点云或网格表示。此外,如神经辐射场(NeRF)等隐式神经表示的最新进展作...
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
我(SHYAM SADHWANI)是meta的一名软件工程师,我和亿万用户一样使用视频通话app与家人朋友保持联系,音视频质量在这一场景中非常重要。我有一段时间...
上海交通大学 · 研究员 (已认证)
暂未填写学校和专业
暂未填写个人网址