它们彼此之间非常不同,所有数据科学家都必须了解原因和方式!
这篇文章提出了一个非常重要的区别,我们应该将其理解为数据科学领域的活跃部分。 上面的维恩图最初是由SAS Institute发布的,但是它们的图显示统计和机器学习之间没有重叠,据我所知,这是一个疏忽。 我已尽我所能和理解,重新创建了该图。 该维恩图非常恰当地提出了数据科学所有分支的区别和重叠。
我想相信数据科学现在是总称,其他所有术语都可以描述为数据科学的分支,每个分支都是不同的,但与其他分支却是如此相似!
机器学习与统计建模:这是一个古老的问题,每个数据科学家/机器学习工程师或任何在这些领域开始工作的人都会遇到。 在研究这些领域时,有时机器学习感觉与统计建模息息相关,这使我们想知道如何区分两者,或者哪种标签最适合哪种模型。 当然,如今机器学习已成为流行语,但这并不意味着我们开始将统计模型标记为机器学习模型,因为与流行的看法相反,它们是不同的! 让我们详细了解差异。
这篇文章的流程将是:
在不依赖于基于规则的编程的情况下,对将数据转换为智能动作的计算机算法开发感兴趣的研究领域称为机器学习。
通常将统计模型指定为一个或多个随机变量与其他非随机变量之间的数学关系。 因此,统计模型是"理论的形式表示"。
现在,无聊的冗长的定义已不复存在,让我们更深入地了解这两个域之间的区别。
在1950年代左右,机器学习开始出现之前,统计建模就已经出现了。1950年代,第一个机器学习程序—塞缪尔(Samuel)的检查程序引入了。
世界各地的所有大学现在都在启动其机器学习和AI计划,但并没有关闭其统计部门。
机器学习与计算机科学系和独立的AI系协同教学,它们处理构建预测算法,这些算法能够通过学习从数据中"学习"而无需任何预先指定的规则,从而能够自行"智能化"。 上面ML的定义。
鉴于
统计建模与数学系共同教授,其重点是建立模型,该模型可以首先找到不同变量之间的关系,然后可以预测可以描述为其他自变量的函数的事件。
这是两个域之间重要的区别点。
在统计建模中,我们要注意许多不确定性估计(例如置信区间,假设检验),并且必须考虑到所有假设都必须满足,才能信任特定算法的结果。 因此,它们具有较低的不确定性容限。
例如:如果我们建立了线性回归模型,则在使用该模型的结果之前,必须检查是否满足以下假设:
相反,如果我们建立了逻辑模型,则必须考虑以下假设:
鉴于
在机器学习算法中,几乎没有或不需要假设。 ML算法对统计线性,残差的正态分布等没有严格要求,因此比统计模型灵活得多。因此,它们具有较高的不确定性容限。
统计模型无法在非常大的数据集上进行操作,它们需要属性较少且观测值数量可观的可管理数据集。 在统计模型中,属性的数量绝不会超过10–12,因为它们极易过拟合(在训练数据集上表现出色,但在看不见的数据上表现差强人意,因为它确实非常接近训练数据集,这是不希望出现的情况)
此外,大多数统计模型都遵循参数化方法(例如:线性回归,逻辑回归)
鉴于
机器学习算法是学习者算法,要学习它们需要大量数据。 因此,他们需要具有大量属性和观察结果的数据。 越大越好! ML算法在某种程度上需要大数据。
此外,大多数机器学习模型都遵循非参数方法(K最近邻,决策树,随机森林,梯度提升方法,SVM等)。
这主要取决于以下说明的因素。 我们将讲解理论上的要点,并举例说明。
在以下情况下,统计模型应该是您的首选:
机器学习可能是更好的选择
例如:如果您与一家信用卡公司合作,并且他们想建立一个跟踪客户流失的模型,那么他们很可能更喜欢一个统计模型,该模型将具有10–12个预测变量,他们可以根据自己的业务领域知识进行解释和否决 ,在这种情况下,他们将不会喜欢黑盒算法,因为对可解释性的需求比预测的准确性更高。
另一方面,如果您正在为想要构建强大的推荐引擎的Netflix和Amazon之类的客户工作,那么在这种情况下,结果准确性的要求高于模型的可解释性,因此,机器学习模型将 在这里就足够了。
有了这个,我们到这篇文章的结尾。
您可以在以下文章中了解有关数据挖掘和机器学习之间的区别以及前4个机器学习算法的完整详细信息:
观看此空间,以获取有关机器学习,数据科学和统计学的更多信息!
学习愉快:)
随着自带设备(BYOD)、无线、统一通信(UC)和基于云的SaaS等应用程序深入人心,新...
本周三,谷歌宣布将在本周内尽快把隐私信息添加到旗下 iOS 应用中,否认关于其抵...
近期有关iPhone 12的爆料越来越多,甚至连发布价格都被顶上了微博热搜榜,但关于...
本文转载自公众号读芯术(ID:AI_Discovery) 人类的规划是分层级的。无论是做晚餐...
根据Gartner最近的一项调查显示,自疫情爆发以来,有47%的企业组织在人工智能(AI...
根据市场研究机构MarketsandMarkets发布的最新市场研究报告预测,5G企业市场规模...
有人断言,人工智能是新时代的电力。 根据市场研究机构IDC的数据,2020年全球AI...
软件定义存储(SDS)和软件定义网络(SDN)并不是解决基础设施管理难题的灵丹妙药。...
UbuCon Summit 2016峰会已经落下帷幕,众多Ubuntu开发者已经重回工作岗位继续他...
11月18日消息 据网友投递,今日,微信 Android 版迎来 7.0.21 内测版更新。更新...