本文转载自公众号“读芯术”(ID:AI_Discovery)。
机器学习是数据科学领域最重要的子领域之一。1959年,IBM研究人员ArthurSamuel首次使用了机器学习这一术语。从此以后,机器学习领域引发了很多人的极大兴趣。
当你开始数据科学之旅时,遇到的第一个子领域可能就是机器学习。机器学习是用于描述计算机算法集合的名称,这些算法在运行过程中通过收集信息不断进行学习和改进。
机器学习算法都是基于某些数据的。最初,该算法通过一些“训练数据”来建立解决特定问题的直觉。一旦算法通过了学习阶段,就可以通过已获得知识解决基于不同数据集的相似问题。
一般而言,机器学习算法分为4类:
以上每种算法都有特定目标。例如,监督学习旨在扩展训练数据的范围,并据此预测未来或新数据。另一方面,无监督算法用于组织和筛选数据以使其有意义。
每个类别都有各种旨在执行特定任务的特定算法。本文将介绍每个数据科学家都必须了解的5种基本算法,内容涵盖机器学习的基础知识。
1. 回归
回归算法是监督算法,用于查找不同变量之间的可能关系,以了解自变量对因变量的影响程度。可以将回归分析视为一个方程,例如,假设有方程y = 2x + z,y是因变量,则x,z是自变量。回归分析就是找出x和z在多大程度上影响y的值。
相同的逻辑适用于更高级和更复杂的问题。对于各种问题,回归算法的类型也有很多。最常用的前五名可能是:
2. 分类
机器学习中的分类是基于预分类的训练数据集将项归类的过程。分类被认为是监督学习算法的一种。这些算法利用训练数据的分类结果,计算出新的项落入已定义类别之一的概率。分类算法的一个著名示例是将传入的电子邮件分为垃圾邮件或非垃圾邮件。
分类算法有多种类型,最常用的有:
图源:Google
3. 集成
集成算法通过将两个或多个其他机器学习算法的预测结合来得到更准确的结果。可以通过投票或平均结果来组合结果。投票通常在分类过程中使用,而平均则在回归过程中使用。
集成算法有3种基本类型:Bagging、Boosting、以及Stacking。
4. 聚类
聚类算法是一组用于对数据点进行分组的无监督算法 同一聚类中的点比不同聚类中的点彼此之间更相似。聚类算法有4种类型:
5. 关联
关联算法是无监督算法,用于发现某些项在特定数据集中一起出现的概率,主要用于购物篮分析。最常用的关联算法是Apriori。Apriori算法是交易数据库中常用的挖掘算法。Apriori用于挖掘频繁项集,并从那些项集生成一些关联规则。
例如,如果一个人购买牛奶和面包,那么他也可能会买一些鸡蛋。这可以从各个顾客的先前购买记录得出。然后算法算出这些项被一起购买的频繁程度,根据针对该置信度的特定阈值来形成关联规则。
图源:Google
机器学习是数据科学中最著名、研究最深入的子领域之一。人们也一直在开发新的机器学习算法,以达到更高的准确性和更快的执行速度。无论采用哪种算法,通常都可以将其归为以下四类之一:有监督、无监督、半监督和增强算法。每个算法的用途都不一样。
这些算法经过了深入研究和广泛使用,你只需要了解如何使用它,而不是如何实现它。大多数著名的Python机器学习模块(例如ScikitLearn)都包含大多数(如果不是全部)这些算法的预定义版本。
了解其原理后,赶紧掌握用法并开始用起来吧。
2021年,产品、企业想要更好的存活下去,做好「增长」仍是每个人都需要持续学习...
2021 年 6 月 24 日,阿里云机器学习平台PAI参加中国信通院 “2021大数据产业峰...
转自dbaplus社群公众号 作者:王康,唯品会数据平台高级开发工程师 GitHub 地址 ...
背景 airflow是Airbnb开源的一个用python编写的调度工具 基于有向无环图(DAG) ai...
大家好,我是狂师。 去年在公众号,给大家分享过一篇关于最新版 PyCharm的激活教...
每日集成开发者社区精品内容,你错过的干货补给站 每日精选博文推荐 阿里集团业...
信息咨询类问题 云服务器没有普通公网 IP 如何实现公网访问? EIP 与普通公网 IP...
概率是生命的向导。列纳德蒙洛迪诺, 《醉汉的脚步:随机性如何支配我们的生活》 ...
域名 联系不到商家怎么实名制?域名的实名认证是在 域名注册 服务商处进行,提供...
.ltd域名 需要实名吗?是的,. ltd域名 是要实名的。因为.ltd 域名 此前已经通过...