首页
学习
活动
专区
工具
TVP
发布

集智书童

专栏作者
306
文章
329145
阅读量
37
订阅数
轻量级SegFormer3D | 重塑三维图像分割的内存高效Transformer架构,助力医学成像 !
的模型,使深度学习在三维医学图像分割领域民主化,与当前最先进(SOTA)模型相比。作者在三个广泛使用的Synapse、BRaTs和ACDC数据集上对SegFormer3D进行了基准测试,取得了具有竞争力的结果。 代码:https://github.com/OSUPCVLab/SegFormer3D.git。
集智书童公众号
2024-05-17
1880
基于 CO-DETR 的光照感知 Transformer架构 | 即使在极低光照条件下也能准确检测目标 !
在这场比赛中,作者采用了一种模型融合方法来实现接近真实图像的目标检测结果。 作者的方法基于CO-DETR模型,该模型在两组数据上进行训练:一组包含在暗条件下的图像,另一组包含用低光照条件增强的图像。 作者对测试数据使用了各种增强技术来生成多组预测结果。最后,作者应用了由IoU阈值引导的聚类聚合方法来选择最优结果。
集智书童公众号
2024-05-17
910
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
鉴于高发病率和死亡率,脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术,自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程,有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务,尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时,将输入图像划分为网格。
集智书童公众号
2024-05-17
2170
Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器!
感谢自注意力机制强大的全局信息提取能力,Transformers在各种自然语言处理(NLP)任务中取得了巨大成功。这一成功催生了视觉Transformers(ViTs)[4, 5]的快速发展,它们在计算机视觉领域受到了越来越多的关注,并且与基于卷积的对应物相比显示出优越的性能。
集智书童公众号
2024-05-17
840
超越 ReLU 和 Sigmoid | 新型激活函数锥形和抛物锥形的研究,训练速度再上一层!
自从发现类似ReLU的激活函数[1]以来,一个悬而未决的问题是:是否存在一个更好的一类激活函数,这类激活函数与sigmoid型和ReLU型激活函数都有显著不同[2]。本文通过提出一类新的激活函数,肯定地回答了上述基本问题。尽管深度人工神经网络(ANNs)的复杂性很高,但ANN中的每个单独的神经元本质上都是通过用一个超平面将其输入分离来进行线性决策的。特别是,能够从一个单一神经元得到正输出的一组输入构成了一个半空间。
集智书童公众号
2024-05-11
940
YOLO & GhostNet | 实现了准确定位和分类,同时实现在复杂环境中的模型准确性和性能!
在各种工业和建筑环境中,正确使用安全帽对工人的健康至关重要。准确高效地检测安全帽在确保职业安全和遵守安全协议方面起着关键作用。传统的手动检查和监视方法往往耗时、容易出错,并且不适用于大规模操作。针对这些挑战,计算机视觉和深度学习技术作为自动化检测安全帽的有力工具应运而生。
集智书童公众号
2024-05-10
2440
?上交大提出 ZO-DARTS | 提高图像分类效率,性能SOTA的同时,搜索时间减少3倍!
随着深度学习模型的进步,它们在医学图像处理中的应用在当代诊断不可知过程中变得至关重要。事实上,这项技术使专家能够比以前更早、更准确地检测疾病。尽管这场革命跨越了多种数据类型和任务,但操作模型的设计仍然成本高昂。
集智书童公众号
2024-05-10
1370
MMA-UNet | 一种多模态非对称融合网络,提高红外与可见图像融合性能 !
红外与可见光图像融合(IVIF)技术将不同模态传感器捕获的有用信息整合在一起,以对目标场景进行全面的解释(Sang等人,2014年;Wang等人,2015年;Wang等人,2016年;Wang等人,2017年;Wang等人,2018年;Wang等人,2019年)。可见光图像(VI)有效地捕捉目标场景的全局细节和颜色信息,而红外图像(IR)擅长突出温度信息。通过有效地融合这两种模态的信息,可以实现对各种光照条件和复杂环境的全面感知。此外,IVIF可以有效地辅助下游任务,如目标检测、语义分割以及深度估计等。
集智书童公众号
2024-05-10
2390
突破深度学习难题 | 基于 Transformer ,解决脉冲神经网络(SNN)的性能限制 !
基于事件的相机是受生物启发的传感器,它们异步捕捉视觉信息,实时报告亮度变化[1, 2]。与传统相机相比,基于事件的传感器的主要优势包括触发事件之间的低延迟[3],低功耗[4]和高动态范围[5]。这些优势直接来自于硬件设计,基于事件的相机已经被应用于各种领域,如三维扫描[6],机器人视觉[7]和汽车工业[8]。然而,在实践中,基于事件的传感器捕捉到的是独特的脉冲数据,这些数据编码了场景中光强变化的信息。数据中的噪声极高,且缺乏对这些数据的通用处理算法,以提供与传统数字相机数据上的传统视觉算法相当的能力。
集智书童公众号
2024-05-10
2130
UniFormer v2改进升级 | CUENet优化SA注意力,用高效加性注意力机制,加速Transformer落地!
根据世界银行的数据,过去五年全局犯罪率有所上升。监控摄像头通常被部署以帮助威慑暴力,提供实时监控并收集犯罪或暴力活动的证据。得益于技术的进步,监控系统越来越经济实惠,部署也变得更加容易。随着部署的监控摄像头数量的增加,对于人工操作员来说,手动监控摄像馈送变得既昂贵又具有挑战性。因此,对于简化暴力检测(VD)的过程,实现自动化监控摄像头的方法具有极大的需求,这种方式要更加准确和高效。
集智书童公众号
2024-05-10
2000
UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势,助力点云三维目标检测突破!
基于LiDAR的感知系统对于自动驾驶汽车[20]或移动机器人[41]的安全导航至关重要。一个关键挑战是在车辆环境中对物体进行可靠检测和分类[54]。最先进的(SOTA)三维目标检测方法在很大程度上依赖于用于训练的数据集的质量和多样性,同时也取决于这些数据集在推理过程中如何真实地反映现实世界条件。获取和标注此类数据仍然是一项重大的技术和实践挑战,既耗时又劳动密集。这在三维目标检测模型的大规模开发和部署中构成了一个主要障碍。
集智书童公众号
2024-05-10
1850
BS-Diff | 扩散模型在骨抑制任务上的首次登场!
近年来,与肺部疾病相关的发病率和死亡率居高不下。胸部 X 光片(CXR)是一种广为接受的低剂量肺部筛查技术。然而,即使是技术娴熟的临床医生也可能会忽略肺部并不突出的病变,这主要是由于 CXR 中 75% 的肺部区域与骨骼重叠,从而阻碍了疾病的发现和诊断。为了提高临床诊断的准确性,人们引入了一种称为骨抑制的方法。目前最受推崇的方法是双能量减影(DES)成像技术。然而,这种技术需要昂贵的设备,并使患者暴露于较高的辐射剂量。因此,研究人员正在努力寻找危害较小、成本效益较高的骨抑制技术。
集智书童公众号
2024-05-10
990
优化雾天目标检测与识别,能见度极低的条件下显著提高信号清晰度!
在理想情况下,光学成像系统在物体与图像之间实现点对点映射,捕捉原始信息。然而,在大气中传输时,光学传输过程受到干扰,导致远距离成像质量下降。在传输过程中,包括大气吸收导致的低光对比度以及带来原始光场噪声的大气散射等必然过程被认为是不可逆的,并且由于复杂性而增加熵。在能见度极低的条件下,特别是当成像距离超过气象光学范围时,图像重建变得具有挑战性。然而,对于民用、军事和商业用途,通过大气散射介质延长成像距离以收集所需的光信息至关重要。
集智书童公众号
2024-05-10
1250
新加坡科研机构 DIMAP | 独立模块感知剪枝方法压缩分层 Transformer ,在图像分类基准上 性能SOTA !
视觉 Transformer (Dosovitskiy等人(2020); Touvron等人(2020); Yuan等人(2021))在计算机视觉领域,包括图像分类、检测和分割方面取得了最新的(SOTA)性能。然而,自注意力机制的利用和卷积的移除导致视觉 Transformer (Dosovitskiy等人(2020); Liu等人(2021))的计算负担沉重且参数数量巨大。因此,有必要修剪模型以减少计算成本和所需的存储空间。
集智书童公众号
2024-05-10
1180
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
在开放和动态的环境中,目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略,跨模态目标检测方法已达到高精度,例如CFT(杨等人,2017年)、GAFF(杨等人,2017年)和CFR
集智书童公众号
2024-05-10
2820
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
深度学习技术的出现,特别是像U-Net [20]这样的卷积神经网络(CNNs),通过提高图像分割和分析等任务的准确性和效率,显著推动了该领域的发展。这在现代医疗中发挥着关键作用,帮助临床医生进行准确诊断、治疗规划以及疾病监测。
集智书童公众号
2024-04-30
3800
如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!
在预训练之后是一个微调阶段,利用少量高分辨率样本进一步提高检测性能。借助这些有效的设计,DetCLIPv3展示了卓越的开词汇检测性能,例如,作者的Swin-T Backbone 模型在LVIS minival基准上取得了显著的47.0零样本固定AP,分别优于GLIPv2、GroundingDINO和DetCLIPv2 18.0/19.6/6.6 AP。DetCLIPv3在VG数据集上的密集字幕任务也取得了先进的19.7 AP,展示了其强大的生成能力。
集智书童公众号
2024-04-30
2740
多才多艺模型出现 | 捕捉每一个细节,多任务 + 多模态 + 自监督等Trick都不在话下!
面部表情识别(FER)是日常人类社交互动以及人机互动中成功进行的基本任务[1]。根植于人类感知的情境敏感和自上而下的方式,作者如何感知一个表情会随着(情感)情境和先验知识的变化而变化[7, 18, 53],以及其他各种因素[58]。相同的面部表情根据情境和上下文的不同可能会被感知为不同的含义[5, 16, 47]。Maier等人[39]最近的一项综述强调,为了开发与人类感知相一致的FER系统,作者应该考虑社会知识以及情境线索。从人类的角度来看,情境本质上是多模态的,不仅仅是视觉上可感知的,如同之前在计算机视觉中常处理的那样[31, 33, 59]。
集智书童公众号
2024-04-30
850
标题:逆光、眩光问题视觉模型怎么解决?一个感知卷积让检测/识别/跟踪/深度估计等任务,统统适用!
一个准确且鲁棒的环境感知系统对于智能交通的发展至关重要,尤其是在自动驾驶车辆的情况下。满足J3016国际标准中规定的第5级自主性的要求,意味着需要具备在所谓的操作设计域之外进行操作的能力。不是在精心管理(通常是城市)的环境中,拥有大量专用基础设施。自动驾驶车辆(AVs)应该能够在不可控环境中运行,包括具有挑战性的天气、眩光、霾和雾造成的照明变化、标识不良的道路以及不可预测的道路使用者。
集智书童公众号
2024-04-26
1750
杜克大学提出 OSR-ViT | 性能水平远超现有的监督学习方法,仅使用少量训练数据就能超越监督 Baseline !
传统的目标检测模型是在闭合集条件下设计、训练和评估的,在这个条件下,假定所有感兴趣的可能类别在训练数据集中都被详尽地标记了。如果这样的模型在开放集环境中部署,其中存在来自训练类别分布之外的未知物体,模型可能会将物体错误分类为已知类别,或者完全检测不到物体——这会导致严重的安全、公平性和可靠性问题。这促使了对开放集目标检测[23]的需求,其中除了已知的“分布内”(ID)物体之外,还明确处理未知的“分布外”(OOD)物体。
集智书童公众号
2024-04-25
1620
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com