人工智能领域中，究竟哪些时延数据集是有用的？

文章来源：企鹅号 - 电商泛观察

对于人工智能的背后数据来说可以说是至关重要的一个环节，如果少了这些数据，可以说机器学习和深度学习模型几乎什么都干不了了，通过创建数据集能够让人工智能模型在进行平时训练的过程当中变得更加容易。

让人兴奋的是，在海量的实验数据集当中有很多非常有价值的数据集组成了后来人工智能的“学术基准线”，从而被很多的研究人员开始引用，尤其是在很多算法的比对方面，像MNIST、CIFAR 10以及Imagenet等应用都是遵循了这一基准线。

那么对于人工智能领域当中，究竟有哪些时延数据集是非常有用的呢？接下来我们就一起来看看。

MNIST

这是一个针对小型灰度手写数字的数据集，其开发时间再20世纪90年代，最初其主要用于测试当时最为复杂的一些模型，如今MNIST数据集可以帮助更多的视觉深度学习去进行教学应用，很多版本的数据集已经舍弃了原始的特殊二进制的格式，转而采用标准的PNG格式，这样做的好处就是可以方便在现在很多大型代码库当中用户可以进行正常的工作流操作。

值得一提的是，如果用户只是单纯想使用与原始同样的单输入通道的话，只需要在通道轴当中选取单个应用就可以了。

CIFAR10

CIFAR10数据集拥有十多个类别，其中多达60000张32*32像素的彩色图像，这当中包含了50000张训练图像和10000张测试图像，里面平均每种图像的数量超过6000张之所，它们被广泛应用于测试新算法的性能。

CIFAR10版本的数据集舍弃了原有的特殊二进制格式，也是采用了标准的PNG格式，从而方便了目前大多数代码库中作为正常的工作流进行使用。

CIFAR100

和前文所提到的CIFAR10类似，CIFAR100只是拥有了超过100种类别，其中每一个类别当中包含了600张图像，在这600张图像当中不仅包含了500张训练图像，还包含了100张测试图像。

通过对100个类别进行20多个细节类别的划分，使得其中每一个数据集当中的每一张图像都自带一个精细化的标签和一个粗略的标签，而这些表现则分别隶属于所属的超类当中。

Caltech 101

这个数据集当中包含了101种物品的图像，其中平均每个类别拥有超过800张图像，其中很大一部分类别的图像数量固为50张左右。每张图像的大小约为300*200像素。本数据集也可以用于目标检测定位。

Oxford-IIIT Pet

Oxford-IIIT Pet数据集当中包括了37种宠物类别的图像数据集，其中每个类别大概拥有超过200张图像，这些图像在动物的比例、姿势和光照等诸多方面均有着丰富的变化，这个数据集也可以用于目标检测的定位应用。

自然语言的处理

IMDb Large Movie Review Dataset

用于情感二元分类的数据集，其中包含25000条用于训练的电影评论和25000条用于测试的电影评论，这些电影评论的特点是两极分化特别明显。另外数据集里也包含未标记的数据可供使用。

发表于: 2018-11-172018-11-17 21:34:35
原文链接：https://kuaibao.qq.com/s/20181117A1L9WF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能领域中，究竟哪些时延数据集是有用的？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐