机器学习项目有很大的发展潜力,最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。你不仅能通过它来学习数据科学,还能为简历加分!毕竟招聘者一般通过你拥有的技能来判断你的潜力。
每位程序人员都应该学习如何巧妙地处理大量数据,其中包括大型数据集。此外,确保所有数据集都呈现开放状态允许自由访问。
1.虹膜数据集
如果你是数据科学的“婴儿”,这是你最好的起点。数据只有150行4列,应该是模式识别文献中最通用、最简单、资源最丰富的数据集。想要学习分类技术?用它准没错。
2.贷款预测数据集
它也是一个挺简单的数据集,可以帮你预测贷款能否获批。保险在所有行业中是分析和数据科学方法最大的用途之一。这个数据集让你可以从保险公司的数据集中执行操作,你就可以知道那里蕴藏着哪些挑战,使用了什么策略,有哪些影响变量等等。
3. Bigmart销售数据集
大范围使用分析来完善业务流程的行业还包含了零售。这是个回归问题,此数据包含销售商店的交易记录,它可以预测商店的销售额,用机器学习可以精巧地管理诸如产品布局,库存管理,自定义报价等任务。
4.黑色星期五数据集
它是一个经典的数据集,可以从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力。此数据集包含在零售商店捕获的销售交易,可以预测购买金额。
5.人类活动识别数据集
很多机器学习课程将这个数据运用于教学目的,它可以预测人类的活动类别,这是一个多分类问题。它是从30个人物的记录中收集的,通过嵌入式智能惯性传感器启用的智能手机捕获。
6.行程历史数据集
想预测用户类别吗?该数据集从2010年就开始按季度提供了,它来自美国的共享单车服务。这个数据集需要你锻炼专业数据处理技能。
7.电影镜头数据集
许多页面都会随着用户转变而变换内容,你建立推荐系统了吗?它可以向用户推荐新电影。此数据集是数据科学行业中备受欢迎的数据集。它在4,000部电影中获得6,000名用户的100万收视率并且还有各类尺寸。
8.确定你的位数数据集
它让你可以分析和识别图像中的元素。就像相机使用图像识别来检测你的脸一样。你也可以构建和测试该技术,它能识别图像中的数字,其中包含7,000张28 X 28大小的图像。
9.城市声音分类
你是一个喜欢声音的人吗?是否会认真倾听周围的各种声音呢?这个练习主要向你介绍常规分类情况下的音频处理,帮你从音频中分类声音的类型。它内含10个类别的8,732个城市声音的声音摘录。
10.芝加哥犯罪数据集
它具有600万个观测值,可以预测犯罪类型。当企业在整个数据集上具有计算能力时,他们不喜欢再用样本。本数据集提供了在本地计算机上处理大型数据集所需的实际经验。虽然问题很容易,但关键是数据管理。
总结
上方列出的10个数据集中,首先你可以找到一个与你的技能组相匹配的数据集。如果你只是个初学者,就不要跨太大步,从简单开始,专注于逐步取得进展。
几十年来,数据中心一直被认为是网络的连接点。对于企业、电信运营商、有线电视...
昨天,微信安卓端内测版更新,迎来了v7.0.23版本,新版本对朋友圈折叠功能进行了...
近日,被5G事件沸沸扬扬。在众多用户抱怨运营商为了推广5G套餐,悄然将低价的4G...
近日, 清华大学交叉信息研究院段路明研究组在量子信息领域取得重要进展,首次在...
自2019年6月工信部正式发放5G商用牌照以来,运营商积极发展5G业务,5G用户数开始...
你有多久不去银行取零用钱了? 你有没有算过,一天会扫多少次二维码? 你出门的...
5G不仅是技术变革,更是新生态体系的构建,认识5G安全问题,既要从新技术、新特...
人工智能与数据科学,机器学习趋势和数据分析 人工智能正日益成为每个企业战略的...
苹果的目标是让iPhone成为任何人都必须携带的唯一东西,该设备能够安全地取代护...
今天有一组关于 iPhone 2G 尚未发布的原型机照片出现在了网上,表明苹果当时考虑...