机器学习之 scikit-learn 开发入门（3）

文章来源：企鹅号 - Qunar技术沙龙

机器学习之 scikit-learn 开发入门 -

监督学习 -Ridge 回归介绍

曹华

个人介绍：曹华，2018 年加入去哪儿网技术团队。目前在火车票事业部/技术部小组。个人对图像处理、数据挖掘、图论、VR 等有浓厚兴趣。

一、概要

本文主要讲解 Ridge 回归的实践与原理，主要内容包括：

Ridge 回归的介绍

Ridge 回归算法类库介绍

Ridge 回归应用示例

Ridge 回归的原理

总结

通过文本的介绍，希望大家可以掌握 Ridge 回归的使用与了解 Ridge 回归的原理。

二、Ridge 回归的介绍

Ridge 回归简称岭回归、脊回归、吉洪诺夫正则化，它属于 L2 正则化方案，和一般线性回归的区别是在损失函数上增加了一个 L2 正则化的项。这里损失函数就是我们第一期提到的最小二乘法。那么为什么要加入 L2 正则化的项呢？在机器学习中如何才能确定算法判定的结果的优劣呢？其实机器学习中存在着两个词语是来说明模型的优劣的，即过拟合和欠拟合。

2.1 过拟合和欠拟合的介绍

过拟合：机器学习模型训练的过于复杂，导致在验证数据集中表现不佳。欠拟合：机器学习模型训练的不够复杂，导致在验证数据集中表现不佳。

这里我们会有疑问，过于简单的模型会表现不佳，但是过于复杂为何会表现不佳呢？打个比喻我要建立一个识别狗的模型，我需要对这个模型进行训练。恰好，我训练样本中的所有训练图片都是二哈，那么经过多次迭代训练之后，模型训练好了，并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去，那么问题来了！假如我的测试样本是一只金毛呢？将一只金毛的测试样本放进模型中，很有可能模型最后输出的结果就是金毛不是一条狗（因为这个模型基本上是按照二哈的特征去打造的）。所以这样就造成了模型过拟合，虽然在训练集上表现得很好，但是在测试集中表现得恰好相反。

2.2 偏差、方差与欠拟合和过拟合的关系

偏差是预测结果与真实值的距离大小；

方差是预测结果是否扎堆；

低偏差低方差时，是我们所追求的效果，此时预测值正中靶心(最接近真实值)，且比较集中(方差小)；

低偏差高方差时，预测值基本落在真实值周围，但很分散，此时方差较大，说明模型的稳定性不够好；

高偏差低方差时，预测值与真实值有较大距离，但此时值很集中，方差小，模型的稳定性较好，但预测准确率不高；

高偏差高方差时，是我们最不想看到的结果，此时模型不仅预测不准确，而且还不稳定，每次预测的值都差别比较大。

一言以蔽之，过拟合大多方差比较高，欠拟合大多偏差比较高。欠拟合就不多说了，下面主要介绍过拟合的情况。

2.3 过拟合的常见原因

建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；

样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；

假设的模型无法合理存在，或者说是假设成立的条件实际并不成立；

参数太多，模型复杂度过高。

2.4 常见的解决方法

选取合适的停止训练标准，使对机器的训练在合适的程度；

保留验证数据集，对训练成果进行验证；

获取额外数据进行交叉验证；

正则化，即在进行目标函数或代价函数优化时，在目标函数或代价函数后面加上一个正则项，一般有 L1 正则与 L2 正则等。

三、scikit-learn Ridge 回归算法类库介绍

scikit-learn 逻辑回归算法类库对应的是 Ridge。下面就对 Ridge 的重要参数做一个总结。

四、Ridge 回归应用示例

4.1 导入头文件

4.2 样本数据

数据是一个循环发电场的数据，共有 9568 个样本数据，每个数据有 5 列，分别是：AT（温度）, V（压力）, AP（湿度）, RH（压强）, PE（输出电力)。下载地址：

http://archive.ics.uci.edu/ml/machine-learning-databases/00294/

4.3 训练模型

4.4 预测验证

4.5 训练得到的 Ridge 模型

可知 Ridge 模型为：

4.6 获取最优的 alpha

4.7 画出预测值与真实值的线形图

五、Ridge 回归的原理

首先我们回顾下

线性回归

的标准方程：

我们需要求得 w 和 b 的值。在线性回归中我们利用最小二乘法求得 w 和 b，但是最小二乘法没有对特征的罚分机制，很容易过拟合，所以 Ridge 在线性回归的基础上增加了正则化项为 w 指定罚分机制，标准函数如下：

其中α为常数系数，可以通过它来调优。

为 L2 范数。这里的 α 近似于应用示例中的 alpha。 Ridge 回归主要还是使用最小二乘法。推倒公式详见第一期线性回归。令 J(θ) 的导数为 0，得到下式：

整理即可得到最后的 θ 的结果：

其中 E 为单位矩阵。从求导后公式可以看到 α 越大，得到回归系数 θ 就越小，最终趋近于 0。而如果 α 越小，即正则化项越小，那么回归系数 θ 就越来越接近于普通的线性回归系数。

六、总结

Ridge 解决了线性回归中最小二乘法的过拟合问题。

发表于: 2018-10-092018-10-09 08:00:22
原文链接：https://kuaibao.qq.com/s/20181009G0C96H00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习之 scikit-learn 开发入门（3）

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐