AI Challenger：深入图像理解大型数据集

文章来源：企鹅号 - 泡泡机器人SLAM

泡泡图灵智库，带你精读机器人顶级会议文章

标题：AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding

作者：Jiahong Wuy, He Zhengy, Bo Zhaoy, Yixin Liy,

Baoming Yany, Rui Liangy，Wenjia Wang, Shipei Zhou, Guosen Lin, Yanwei Fu, Yizhou Wang, Yonggang Wangz

来源：AI Challenger

播音员：

编译：侯延华

审核：谢泽茹

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

计算机视觉取得了重大进展，这有赖于大规模数据集，然而在分类以外更复杂的应用(人体关键点检测、zero-shot识别、中文图像说明)中仍然缺少足够的数据集。本文提出大规模数据集AIC，其中包含3个子数据集：

HKD:人体关键点检测,包含300,000张图片(主要人物关键点)

LAD：大规模属性数据集, 包含

81,658 张图片，240 类 and 359 属性

ICC：中文图像说明数据集，300,000 张图片

这些数据集沟通了底层图像和高层概念间的语义鸿沟，可以作为检验和提高算法的基准。

子数据集HDK,ICC有超过95%的重叠,便于协同处理两个不同的任务。

主要贡献

本文提出的数据集提供了

1、评估各种计算机视觉算法的基准。

2、预训练各种模型的资源。

3 、就我们所知是目前第一个中文图像说明数据集。

算法流程

1人体关键点检测

人体关键点检测在姿态估计、行为识别、非正常行为检测中有很重要作用，然而人物数量、位置、尺度，人物间交互、遮挡等因素使得这个任务非常具有挑战性。人体关键点检测大致包括top-down,bottom-up两类方法，CNN有着广泛的应用，通常需要大规模有标记数据集避免过拟合，现有数据集主要有MSCOCO,MPII

图1 人体关键点数据集对照表

1.1、样本标记说明：

1右肩,2-右肘, 3-右手腕,4左肩,5-左肘, 6-左手腕,

7-右胯, 8-右膝, 9-右脚踝,10-左胯, 11-左膝, 12-左脚踝,

13-头顶, 14 颈

每个关键点有3个标签：标记并可见,标记不可见, 未标记.

图2 不同类型关键点的分布

1.2. 使用二阶中心矩评估人工标记引入的噪声，是每类关键点到其中心的欧式距离的方差的最大似然估计。

图3 人工标记的偏差和姿态多样性(a)浅色圆的半径代表该类型关键点人工标记的偏差，反应了预测的难度(b)随机抽取100人对齐后绘制的四肢。

1.3、关键点检测评价指标：

1.4. baseline model & experiment

本文使用了预训练模型：

Detector:

模型：Single Shot MultiBox Detector

数据集：Pascal VOC

输出：human boundingboxes

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

模型：Mask R-CNN/DeepLab

数据集：MSCOCO

输出：human masks

1.5.实验结果

2.基于属性的零样本识别 (ZSR)

2.1现有数据集存在样本量少、缺乏语义属性、与imageNet相似度过高、分布有偏等问题。

表3 属性数据集对照表(*表示估计)

图4 数据集示例

既标记了视觉属性也标记了语义属性

2.2Baseline Methods

首先将图像和标签嵌入到图像特征空间(使用了 ImageNet 数据集ResNet 预训练模型 )

测试了3种基本方法

SOC：用可见数据学习从图像特征空间到语义嵌入空间的线性映射函数。

ESZSL：学习映射来衡量图像特征和语义嵌入的相容性。

MDP：学习语义嵌入的局部结构

2.3实验结果

MDP优于ESZSL优于SOC

表4 3种方法的零样本识别对照表

3.中文图像说明

早期处理这一任务的方法分两种基于模板的和基于检索的。

近期的方法采用了

encoder-decoder：通过cnn 将图像编码为特征向量，然后送入rnn 产生文字说明。

强化学习框架：policy network和value network协同产生文字说明。

可用的数据集Pascal VOC 2008，Flickr8k，Flickr30k，MSCOCO， SBU都是英文数据集，分别包含大约8,000, 31,000 ，300,000 幅图像及5 句英文说明。就我们所知ICC是规模最大的中文说明数据集。

表5数据集对照表

本文使用了show and tell模型，属encoder-decoder框架：意在最大化正确描述的概率。

采用中文"Jieba"分词器，实验结果见表6

表6

图8数据集示例

前5句人类标记，

第6句 baseline model 在MSCOCO数据集上产生，

第7句 baseline model 在ICC数据集上产生，

发表于: 2019-10-292019-10-29 06:30:53
原文链接：https://kuaibao.qq.com/s/20191029A01KZ700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

AI Challenger：深入图像理解大型数据集

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐