本文转载自公众号“读芯术”(ID:AI_Discovery)。
决策树是机器学习中使用的最流行和功能最强大的分类算法之一。顾名思义,决策树用于根据给定的数据集做出决策。也就是说,它有助于选择适当的特征以将树分成类似于人类思维脉络的子部分。
为了有效地构建决策树,我们使用了熵/信息增益和基尼不纯度的概念。让我们看看什么是基尼不纯度,以及如何将其用于构建决策树吧。
什么是基尼不纯度?
基尼不纯度是决策树算法中用于确定根节点的最佳分割以及后续分割的方法。这是拆分决策树的最流行、最简单的方法。它仅适用于分类目标,因为它只执行二进制拆分。
基尼不纯度的公式如下:
基尼不纯度越低,节点的同质性越高。纯节点(相同类)的基尼不纯度为零。以一个数据集为例,计算基尼不纯度。
该数据集包含18个学生,8个男孩和10个女孩。根据表现将他们分类如下:
上述基尼不纯度的计算如下:
上述计算中,为了找到拆分(根节点)的加权基尼不纯度,我们使用了子节点中学生的概率。对于“高于平均值”和“低于平均值”节点,该概率仅为9/18,这是因为两个子节点的学生人数相等,即使每个节点中的男孩和女孩的数量根据其在课堂上的表现有所不同,结果亦是如此。
如下是使用基尼不纯度拆分决策树的步骤:
基尼不纯度小总结:
总而言之,基尼不纯度比熵/信息增益更受青睐,因为它公式简单且不使用计算量大而困难的对数。
你们还相信光吗? 这一句《奥特曼》中的台词,让众多人内心依然保存了一份初心,...
根据Gartner的最新预测,到2021年全球低代码开发技术市场总额将达到138亿美元,...
据日本《读卖新闻》2月1日报道,该报记者近日获悉,美国政府将设立一项多边基金...
智能手机市场的竞争即将来到尾声,智能手机系统迭代却迎来新的高潮。MIUI、Color...
人工智能不仅给人类的生活打下了坚实的物质基础,更是把更多的人从简单烦躁而重...
教育已死,学习永生。半个世纪前,美国教育思想家伊利奇在《去学校化社会》一书...
人工智能(AI)和机器学习(ML)技术正在颠覆全球几乎所有行业,并且人工智能技术不...
你可能已经听说过人工智能(通常用现在众所周知的缩写AI来描述)正在如何改变一个...
图为机器人 本文转载自网络,原文链接:https://www.toutiao.com/a6936708344983...
量子技术已经成为未来科技的制高点,也将成为长期影响经济竞争力的重要技术之一...