首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

商汤及联合实验室入选论文重点解读

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处本文约3400字,建议阅读10分钟。本文为大家解读了几篇商汤及联合实验室的入选论文。9月8日-14日,备受瞩目的2018欧洲计算机视觉大会(ECCV2018)在德国慕尼黑召开,ECCV两年举办一次,与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议,每年录用论文约300篇。

随着人脸数据集规模的逐渐扩大,研究者们设计出了各种更快更强的人脸识别网络。但是对于现有人脸数据集中的标签噪声问题,学界的理解依然有限。

人脸识别中,随着深度学习模型参数量的增大,所需要训练数据的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,数据标注所带来的增益会远远低于标注本身耗费的劳动量。此时,需要使用一种合理的方式来利用无标注数据。

由于极小CNN模型有限的模型表达能力,训练针对复杂视觉任务(如物体检测)的极小CNN通常充满挑战。本文致力于提出一种简单而通用的框架—量化模仿,来训练面向物体检测任务的极小CNN模型。在本文框架中,作者提出联合模仿与量化的方法来减小物体检测CNN模型的参数量实现加速。

随着计算机视觉的发展,场景图生成得到越来越多业内研究人员的关注。场景图生成不仅需要检测出来图像中的物体,还需要识别物体之间的关系。与一般的物体检测任务相比,场景图因为引入了物体之间的两两关系,极大的扩充了输出结果的语义空间,因而可以蕴含更多图像的语义信息。

近年来,孪生网络结构因为性能和速度的平衡性在跟踪领域受到了极大的关注。但是大多数的孪生网络跟踪器使用的特征都只能区分前景和非语义背景。而跟踪过程中,也有语义的背景带来的干扰,其通常是限制跟踪性能的重要因素。在本文中,作者首先分析了训练过程中样本对跟踪过程的影响,发现正负样本不均衡是导致跟踪性能瓶颈的主要原因。

虽然人脸识别和行人再识别已经在学术界取得了非常多的研究成果,但是在复杂庞大的视频数据库中(如监控视频或电影数据库),很多时候并不能看到人物清晰的正脸,这时人脸识别就无法发挥作用。而行人再识别关注的通常是一小段时间内一个比较小的区域的行人匹配,也就是说在行人再识别的问题中,人物的服饰装扮以及周围的环境都不会有太大的变化。该假设大大限制了行人再识别技术在实际场景中的应用。

单目深度估计在基于视觉传感器的自动驾驶和辅助驾驶任务中有着重要的作用。虽然边缘、纹理等绝对特征可以被卷积神经网络(CNNs)有效地提取出来,但基于卷积神经网络的方法大多忽略了图像中相邻像素之间存在的约束关系,即相对特征。为了克服这个缺陷,本文提出了一种结合相对特征和绝对特征的端到端网络,对不同图像位置的关系进行了显式的建模。

尽管深度学习在大量计算机视觉问题上取得了成功,如何将深度学习应用于非规则数据上依然是一个极富挑战性的问题。在这篇文章中,作者提出一种新型的卷积结构SpiderCNN,来有效提取点云中的几何特征。具体来说,SpiderCNN利用参数化卷积技术,将传统的卷积操作从规则网格拓展到非规则网格。我们利用阶跃函数之积来表征点云的局部几何特征,然后利用泰勒多项式来保证该结构的表达能力。

基于生成对抗网络的图像超分辨率模型SRGAN能够生成更多的纹理细节。然而,它恢复出来的纹理往往不够自然,也常伴随着一些噪声。为了进一步增强图像超分辨率的视觉效果,本文深入研究并改进了SRGAN的三个关键部分——网络结构、对抗损失函数和感知损失函数,提出了一个增强的ESRGAN模型。

本文重新审视了图像描述模型中隐变量的表示方式。循环神经网络如LSTM作为解码器在图像语言描述中有大量的应用,现有的图像描述模型通常固定得将解码器的隐变量表示成一维向量。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180921A0A57M00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com