当前位置：主页 > 查看内容

CV学习：李宏毅2021机器学习(2)

发布时间：2021-06-16 00:00| 有位朋友查看

简介：上次读了前沿论文发现确实水平远远不足因此更加努力的看视频和学数学希望后续能有所改善本文主要总结关于神经网络训练不起来该怎么处理的问题进行论述大家可以选择性观看目录偶遇Critical Point Saddle Point Local Minimum 如何鉴别Critical Point 批处……

上次读了前沿论文，发现确实水平远远不足，因此更加努力的看视频和学数学，希望后续能有所改善！
本文主要总结关于神经网络训练不起来该怎么处理的问题进行论述，大家可以选择性观看！

偶遇Critical Point

有些时候，当我们构建的模型随着训练集的输入，它的Loss将会越来越小。但有时候，当它收敛结束后，我们可能对它的结果依旧不满意，或者甚至它在最初根本就没有训练起来。那么，在以前就会有人说可能是遇到了Critical Point。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210410110239720
它一般分为两大类，一类是Local Minimum(局部最小值)，另一类是Saddle Point(马鞍点)

Saddle Point

鞍点，词如其名，就是在某一方向或者某些方向上是最小的点，但在另一些方向上却仍可以继续优化。当我们遇到马鞍点，我们或许不需要特别惊慌，因为我们还有方向可以继续优化。

Local Minimum

局部最小值，不同于前者，其周围一般都是陡峭的悬崖，看上去我们已经找不到路可以走了。最初，它被认为是无法逃离的地方。

如何鉴别Critical Point

那么，我们可能会想知道，当我们遇到Critical Point时如何判别自己究竟是遇到了无法逃离的局部最小值还是有路可走的鞍点。
我们可以首先使用Taylor Series Approximation来估计θ附近的Loss：
$L\left(\theta\right)\approx L\left(\theta'\right)+\left(\theta+\theta'\right)^Tg+\frac{1}{2}\left(\theta+\theta'\right)^TH\left(\theta+\theta'\right)$
其中Gradient g是一个向量:
$g=\nabla L\left(\theta'\right)\ \ \ \ g_i=\frac{\partial L\left(\theta'\right)}{\partial\theta_i}$
它代表着，你用现有的Function中每个参数对Loss求偏导的结果。
而Hessian H是一个矩阵:
$H_{ij}=\frac{\partial^2}{\partial\theta_i\partial\theta_j}L\left(\theta'\right)$
它的第i行第j个元素是对Loss求第i个参数和第j个参数的二阶偏导。

那么这个公式有什么用呢？当我们遇到Critical Point时Gradient = 0上式就可以写作
$L\left(\theta\right)\approx L\left(\theta'\right)+\frac{1}{2}\left(\theta+\theta'\right)^TH\left(\theta+\theta'\right)$
我们假设
$v=\left(\theta-\theta'\right)$
当对于所有的θ：
$v^THv>0$
则L(θ)>L(θ’),该点为Local Minimum
同理，当：
$v^THv<0$
则L(θ)<L(θ’),该点为Local Maximum
而当其有时候大于0有时小于0时，它为Saddle Point
也可以用Hessian的特征值判断
当H的Eigen Value全为Positive时则为Local Minimum
当H的Eigen Value全为Negative时则为Local Maximum
当H的Eigen Value有时为Positive，有时为Negative时则为Saddle Point

我们假设存在一种简单的神经网络，和一组简单有标注数据集：
在这里插入图片描述
它的函数集：
$y=w_1w_2x$
它的Error Surface:

可知，当w1=w2=0时，为马鞍点，当w1*w2=1时为local minima
我们选取其中w1=w2=0的一点

发现它g为零向量，H特征值一正一负,它为saddle point，沿着它特征值矩阵方向还能继续减少Loss。

幸运的是，当θ维度够大的时候，它一般总会有路可以走，也就是说遇到Local Minima的机会很少。

批处理与动量

Batch批处理

神经网络有很多违背直觉的东西，batch就是其中之一。我们需要确定一个批次大小，每训练过Batch个再更新一次参数向量。在这里插入图片描述
结果是一般来说，更大的Batch（例如Full Batch）更节省时间，而更小的Batch（例如单个）在测试集上表现更好。
一般的解释是，小批次的噪音有助于训练，而GPU的并行训练节省了大Batch的时间。

动量

为了防止一遇到平坦地界就被卡住，我们设置了动量来助推它走过平坦或者狭窄坑道。如图
在这里插入图片描述

自动更新学习率

η在过去对我们来说，是一个常量，但当多个变量之间变化曲线有差距甚至差异极大时，它经常会导致许多问题。我们就考虑当当前梯度较大时使其学习率较小，当梯度较小时学习率增大。
$\eta^1=\frac{\eta^0}{\sigma}$
$\eta^1=\frac{\eta}{\sigma_i^t}g_i^t\ \ \ \sigma_i^t=\sqrt{\alpha\left(\sigma_i^{t-1}\right)^2+\left(1-\alpha\right)\left(g_i^t\right)^2}$
在这里插入图片描述
我们可以通过α来控制我们对于当前位置梯度的在乎程度。

Batch Normalization（批正则化）

在上文，我们发现，当参数梯度相差非常多的时候，普通的优化器已经无法应对了。因此我们也改进了我们的优化器为RMSProp，但现在我们改变我们的想法，是否可以通过改变数据的分布而使其梯度整体上趋于一致呢？
但仅仅改变某一个数据会导致其失去整体特征变为噪音，因此我们选择Batch Normalization，对一批数据的某一行数据整体正则化。如图在这里插入图片描述
让其拥有共同的平均值0以及方差1，特征更紧致。
现在也出现了许多可以让网络自调整其均值与方差值，让其分布更具备多样性。

总结

本文总结了笔者最近观看的网课，后续将开始涉及卷积神经网络，继续加油！

；原文链接：https://blog.csdn.net/CV_Gr_nD/article/details/115543654
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：深入理解计算机系统bomb实验 下一篇：没有了

随机推荐

《高效程序员的五个习惯》

高效的程序员可以获得更多的休(摸)息(鱼)时间和学习充电时间，还能为工作以及未...
Handtrack.js库实现实时监测手部运动(推

【导语】： Handtrack.js 是一个可以直接在浏览器中实现实时手部动作跟踪和检测...
html知识点实践经验总结

1. 表格标签是table，tr是行，td是单元格，cellspacing是单元格与单元格的距离 c...
RPC、RMI、SOAP的区别详解

===========================================================================...
.net core 静态类获取appsettings的方法

注入获取注入获取通过IConfiguration直接获取的方法官方文档里就有，可以直接看...
Linux 5.13 将移除 WiMAX 支持的相关代码

在 Linux 5.11 中，Linux 内核将 WiMAX 网络支持相关的代码降级到了内核中的暂存...
git add -A 和 git add . 的区别详解

git的分支与合并的两种方法 git add -A和git add . git add -u在功能上看似很相...
为什么别人能用好MySQL？万字详解其复杂

MySQL InnoDB 引擎现在广为使用，它提供了事务，行锁，日志等一系列特性，本文分...
正则表达式截取身份证号码加密的方法

下面一段简单的代码给大家介绍正则表达式截取身份证号码加密的方法，具体代码如...
JS 密码强度校验的正则表达式(简单且好用

最近一直在做通行证项目，里面的注册模块中输入密码需要显示密码强度（低中高）...

CV学习：李宏毅2021机器学习(2)

目录

偶遇Critical Point

Saddle Point

Local Minimum

如何鉴别Critical Point

批处理与动量

Batch批处理

动量

自动更新学习率

Batch Normalization（批正则化）

总结

推荐图文

Element el-button 按钮组件的使用详解

vue实现简易计算器功能

我一直以为SQL先执行SELECT语句？一个窗口函数，我

Flutter仿微信的下拉弹框

node.js通过Sequelize 连接MySQL的方法

MySQL流转工具Maxwell的代码改造和优化小结

随机推荐

《高效程序员的五个习惯》

Handtrack.js库实现实时监测手部运动(推

html知识点实践经验总结

RPC、RMI、SOAP的区别详解

.net core 静态类获取appsettings的方法

Linux 5.13 将移除 WiMAX 支持的相关代码

git add -A 和 git add . 的区别详解

为什么别人能用好MySQL？万字详解其复杂

正则表达式截取身份证号码加密的方法

JS 密码强度校验的正则表达式(简单且好用

关于我们