前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递2.26

每日学术速递2.26

作者头像
AiCharm
发布2024-02-26 14:16:38
1380
发布2024-02-26 14:16:38
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Neural Network Diffusion

标题:神经网络扩散

作者:Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell

文章链接:https://arxiv.org/abs/2402.13144

项目代码:https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion

摘要:

扩散模型在图像和视频生成方面取得了显着的成功。在这项工作中,我们证明扩散模型还可以 \textit{生成高性能的神经网络参数}。我们的方法很简单,利用自动编码器和标准潜在扩散模型。自动编码器提取经过训练的网络参数子集的潜在表示。然后训练扩散模型以从随机噪声中合成这些潜在参数表示。然后,它生成新的表示,并通过自动编码器的解码器传递,其输出可用作网络参数的新子集。在各种架构和数据集中,我们的扩散过程始终以最小的额外成本生成与经过训练的网络相比具有可比较或改进性能的模型。值得注意的是,我们凭经验发现生成的模型与经过训练的网络的表现不同。我们的结果鼓励对扩散模型的多功能使用进行更多探索。

2.CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples

标题:CounterCurate:通过反事实示例增强物理和语义视觉语言组合推理

作者:Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee

文章链接:https://arxiv.org/abs/2402.13254

项目代码:https://countercurate.github.io/

摘要:

我们提出了 CounterCurate,一个全面提高对比和生成多模态模型的视觉语言组合推理能力的框架。特别是,我们发现了两个尚未充分探索的关键问题:忽视物理推理(计数和位置理解)以及使用高性能文本和图像生成模型进行语义反事实微调的潜力。我们的工作开创了一种解决这些差距的方法。我们首先关注 CLIP 和 LLaVA 等多模态模型在基于物理的组合推理中的近机性能。然后,我们使用基础图像生成模型 GLIGEN 应用简单的数据增强来生成微调数据,从而显着提高性能:在我们新策划的 Flickr30k-Positions 基准测试中,CLIP 和 LLaVA 分别 +33% 和 +37%。此外,我们利用高性能文本生成和图像生成模型(特别是 GPT-4V 和 DALLE-3)的功能来策划具有挑战性的语义反事实,从而进一步增强在 SugarCrepe 等基准上的组合推理能力,其中 CounterCurate 优于 GPT-4V 。

3.Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review

标题:用于视觉场景理解的语义感知神经辐射场:综合综述

作者:Thang-Anh-Quan Nguyen, Amine Bourki, Mátyás Macudzinski, Anthony Brunel, Mohammed Bennamoun

文章链接:https://arxiv.org/abs/2402.11141

摘要:

这篇综述深入研究了语义感知神经辐射场 (NeRF) 在视觉场景理解中的作用,涵盖了 250 多篇学术论文的分析。它探讨了 NeRF 如何熟练地推断场景中静态和动态对象的 3D 表示。此功能对于生成高质量的新视点、完成缺失的场景细节(修复)、进行全面的场景分割(全景分割)、预测 3D 边界框、编辑 3D 场景以及提取以对象为中心的 3D 模型至关重要。这项研究的一个重要方面是将语义标签作为视点不变函数的应用,它有效地将空间坐标映射到一系列语义标签,从而促进场景内不同对象的识别。总的来说,这项调查强调了语义感知神经辐射场在视觉场景解释中的进展和多样化应用。

本文参与?腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-26,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体同步曝光计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com