用户1324186

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV1

腾讯云 TVP 成员

发表了文章 15小时前2024-05-11 17:38:43

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

图像恢复（IR）任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展，但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先...

用户1324186 15小时前2024-05-11 17:38:43

网络、性能、dynamic、模型、数据

发表了文章 15小时前2024-05-11 17:38:36

LLMZip:使用大语言模型实现无损文本压缩

学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注，并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主...

用户1324186 15小时前2024-05-11 17:38:36

编码、模型、数据、性能、压缩

发表了文章 15小时前2024-05-11 17:32:25

DynamiCrafter: 利用扩散先验的开放域图片动画化

VideoCrafter的网络架构如图所示，它包括T2V和I2V两个子任务，相应的需要注入Text prompt和image prompt。Motion spe...

用户1324186 15小时前2024-05-11 17:32:25

数据、网络、动画、模型、视频

发表了文章 15小时前2024-05-11 17:32:18

CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向

现有方法通常将该问题表述为三维人脸重建问题，该问题从人脸图像中估计人脸身份和表情等人脸属性。然而，由于缺乏身份和表情的ground-truth标签，大多数基于3...

用户1324186 15小时前2024-05-11 17:32:18

渲染、函数、模型、网络、重定向

发表了文章 15小时前2024-05-11 17:32:12

AAAI 2023 | 探索使用 CLIP 来评估图像的外观和感觉

外观和感觉是人类解释图像时的两个影响因素，而对这两个元素的理解一直是计算机视觉中长期存在的问题。图像的外观通常与直接影响内容的可量化属性相关，例如曝光度和噪声水...

用户1324186 15小时前2024-05-11 17:32:13

量化、论文、设计、数据、性能

发表了文章 15小时前2024-05-11 17:32:06

RTC @scale 2024 | 从单一到大规模开源

我创建了 Pion，这是一个适用于 RTC 的 Go 软件集合，其中最受欢迎的是 WebRTC 实现，它被用作许多开源项目的组件。此外，我还写了《WebRTC ...

用户1324186 15小时前2024-05-11 17:32:06

工作、开发者、开源、rtc、scale

发表了文章 15小时前2024-05-11 17:30:48

CVPR 2023 | 高效视频超分辨率的结构化稀疏学习

视频超分辨率(VSR)模型的高计算成本阻碍了它们在资源有限的设备上的部署，例如智能手机和无人机。现有的 VSR 模型包含大量冗余滤波器，影响了推理效率。为了修剪...

用户1324186 15小时前2024-05-11 17:30:49

视频、网络、连接、模型、设计

发表了文章 15天前2024-04-26 14:51:51

CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射

最近，高斯溅射作为一种表示场景为 3D 高斯点的方法，显示出在渲染质量、分辨率和速度方面的显著性能。然而，现有的高斯溅射公式只适用于静态场景，将对象运动整合到高...

用户1324186 15天前2024-04-26 14:51:52

数据、优化、渲染、函数、模型

发表了文章 15天前2024-04-26 14:50:37

IEEE Transactions on Multimedia | 实时自由视角视频生成系统

随着5G网络和边缘计算技术的普及，实时自由视角视频合成方法在自由视角视频直播、3D电视、快速自由视角视频渲染以及许多其他场景中的应用越来越广泛。一般来说，实时自...

用户1324186 15天前2024-04-26 14:50:38

网络、系统、自由视角、transactions、视频

发表了文章 15天前2024-04-26 14:50:08

ICCV 2023 | Imitator：个性化语音驱动的 3D 人脸动画

图 1：Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入，我们生成特定人物的运动序列，并为双唇辅音（'m...

用户1324186 15天前2024-04-26 14:50:09

数据、音频、语音、动画、视频

发表了文章 15天前2024-04-26 14:49:36

CVPR2024 | ProbTalk：变化且协调的整体语音运动生成

用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音...

用户1324186 15天前2024-04-26 14:49:37

设计、语音、编码、量化、模型

发表了文章 15天前2024-04-26 14:49:03

CVPR 2024 | ConTex-Human：纹理一致的单视图人体自由视图渲染

自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理，从而产...

用户1324186 15天前2024-04-26 14:49:03

数据、优化、渲染、框架、模型

发表了文章 15天前2024-04-26 14:48:25

RTC @scale 2024 | 如何提升国际通话质量

通话几乎完全由音频和视频数据包组成，这些数据包在通话参与者之间交换。许多连接到互联网的设备都在网络地址转换（NAT）单元后面，这可能会阻止它们直接与其他设备通信...

用户1324186 15天前2024-04-26 14:48:25

rtc、scale、路由、视频、网络

发表了文章 22天前2024-04-19 11:25:05

GES: 通用指数高斯用于高效渲染

在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验，需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面，三维高斯散点（GS）是对神经辐射场的最新替代...

用户1324186 22天前2024-04-19 11:25:05

优化、渲染、函数、内存、效率

发表了文章 23天前2024-04-18 19:15:55

MM2023 | Reparo：低速网络中通过智能帧恢复的QoE感知实时视频流传输

实时视频流传输中，从上传客户端到媒体服务器的上行带宽通常是不足的。因此，上传客户端可能需要以更低的比特率对高质量的视频帧进行编码，从而降低用户的QoE。为解决这...

用户1324186 23天前2024-04-18 19:15:55

编码、客户端、模型、视频、网络

发表了文章 23天前2024-04-18 19:14:05

HotNets 23 ｜将slowdown作为拥塞控制公平性指标

传统上，研究人员通过启动多个共享瓶颈链路的流，让这些流尽可能多地发送数据，然后评估流量速率公平性，即这些流是否获得了相等的吞吐量。然而，这种传统的评估设置并不现...

用户1324186 23天前2024-04-18 19:14:06

互联网、框架、流量、数据、网络

发表了文章 23天前2024-04-18 19:11:49

HotNets 23 ｜通过语义驱动的全息通信丰富远程呈现

全息通信受益于3D内容的传递。全息图可以使用体积内容生成，以捕捉3D对象/场景，通常通过点云或网格表示。此外，如神经辐射场（NeRF）等隐式神经表示的最新进展作...

用户1324186 23天前2024-04-18 19:11:49

网络、模型、设计、数据、通信

发表了文章 29天前2024-04-12 13:44:40

CVPR 2024 | VastGaussian：用于大型场景重建的3D高斯

基于NeRF的方法在处理大型场景时，渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈，难以扩展到大型场景。

用户1324186 29天前2024-04-12 13:44:40

优化、渲染、论文、内存、数据

发表了文章 29天前2024-04-12 13:44:10

RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制

演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前，先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法（GCC）。

用户1324186 29天前2024-04-12 13:44:10

模型、网络、机器学习、rtc、scale

发表了文章 29天前2024-04-12 13:43:38

RTC @scale 2024 | 提升实时通信的视频质量

我（SHYAM SADHWANI）是meta的一名软件工程师，我和亿万用户一样使用视频通话app与家人朋友保持联系，音视频质量在这一场景中非常重要。我有一段时间...

用户1324186 29天前2024-04-12 13:43:38

scale、视频、实时通信、网络、rtc

12 3 4 5 6 7 8...46 下一页

个人简介

上海交通大学 | 研究员
上海交通大学 · 研究员 (已认证)
博士生导师，IEEE高级会员，上海交通大学图像通信与网络工程研究所副所长。研究方向是视频编码、图像处理及计算视觉。主持国家级科研项目10余项，发表学术论文150余篇，获授权发明专利35项，软件著作权5项。获国家科技进步二等奖、上海市科技进步一等奖、上海市技术发明一等奖、日本大川基金研究奖、IEEE ICME-Twitch竞赛奖等。
人工智能深度学习机器学习 ide http
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2018-02-05

个人成就

已成为 TVP
- 腾讯云 TVP 成员
获得 2.3K 次赞同
文章被阅读 1M 次

关注了：6关注者：321

用户1324186

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

LLMZip:使用大语言模型实现无损文本压缩

DynamiCrafter: 利用扩散先验的开放域图片动画化

CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向

AAAI 2023 | 探索使用 CLIP 来评估图像的外观和感觉

RTC @scale 2024 | 从单一到大规模开源

CVPR 2023 | 高效视频超分辨率的结构化稀疏学习

CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射

IEEE Transactions on Multimedia | 实时自由视角视频生成系统

ICCV 2023 | Imitator：个性化语音驱动的 3D 人脸动画

CVPR2024 | ProbTalk：变化且协调的整体语音运动生成

CVPR 2024 | ConTex-Human：纹理一致的单视图人体自由视图渲染

RTC @scale 2024 | 如何提升国际通话质量

GES: 通用指数高斯用于高效渲染

MM2023 | Reparo：低速网络中通过智能帧恢复的QoE感知实时视频流传输

HotNets 23 ｜将slowdown作为拥塞控制公平性指标

HotNets 23 ｜通过语义驱动的全息通信丰富远程呈现

CVPR 2024 | VastGaussian：用于大型场景重建的3D高斯

RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制

RTC @scale 2024 | 提升实时通信的视频质量

个人简介

个人成就

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

用户1324186

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

LLMZip:使用大语言模型实现无损文本压缩

DynamiCrafter: 利用扩散先验的开放域图片动画化

CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向

AAAI 2023 | 探索使用 CLIP 来评估图像的外观和感觉

RTC @scale 2024 | 从单一到大规模开源

CVPR 2023 | 高效视频超分辨率的结构化稀疏学习

CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射

IEEE Transactions on Multimedia | 实时自由视角视频生成系统

ICCV 2023 | Imitator：个性化语音驱动的 3D 人脸动画

CVPR2024 | ProbTalk：变化且协调的整体语音运动生成

CVPR 2024 | ConTex-Human：纹理一致的单视图人体自由视图渲染

RTC @scale 2024 | 如何提升国际通话质量

GES: 通用指数高斯用于高效渲染

MM2023 | Reparo：低速网络中通过智能帧恢复的QoE感知实时视频流传输

HotNets 23 ｜ 将slowdown作为拥塞控制公平性指标

HotNets 23 ｜ 通过语义驱动的全息通信丰富远程呈现

CVPR 2024 | VastGaussian：用于大型场景重建的3D高斯

RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制

RTC @scale 2024 | 提升实时通信的视频质量

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

HotNets 23 ｜将slowdown作为拥塞控制公平性指标

HotNets 23 ｜通过语义驱动的全息通信丰富远程呈现