Rethink DL | 激活、损失函数与正则化

石晓文

发布于 2020-07-03 17:57:02

7910

发布于 2020-07-03 17:57:02

文章被收录于专栏：小小挖掘机小小挖掘机

作者 | 余文毅

知乎 | https://zhuanlan.zhihu.com/p/26122560

写在前面

Activation Function

Sigmoid

最开始接触 ANN 的时候，大家听说的 Activation Function 应该还都是 Sigmoid 函数。它的定义如下：

f(x)=\frac 1{1+e^{-x}}

其图形如下

ReLU

为了缓解 Gradient Vanish 现象，现在大家都会使用 ReLU（Rectified Linear Unit），其定义如下

y = \begin{cases} x,& \text{if $ x\geq $0} \\ 0,& \text{if $ x< $0} \end{cases}

对应的图形如下

ReLU除了具有Sigmoid函数大部分的优点外，还有

LReLU、PReLU

为了解决dying ReLU的问题，有学者提出了LReLU（Leaky Rectified Linear Unit）、PReLU（Prametric Rectified Linear Unit）。它们被定义为

y = \begin{cases} x_i & \text{if}(x_i>0) \\ a_ix_i & \text{if}(x_i\le0) \end{cases}

对应的图形如下

RReLU

Others

Activation Function 是一个比较发散的课题，在不同的任务中有不同的选择，暂时先不做更多的介绍。其它的 Activation Function 比如 Maxou、ELU 等，有兴趣的同学可以自己查找相关资料。

Cost Function

Softmax + Cross Entropy

Regularization 与 Weight Decay

Regularization 的理解

尾巴

在梳理 DNN 相关知识时，感觉现阶段 DNN 相关的信息有一些特点：首先是涉及到的知识很广泛，却都比较零碎；其次，DNN 中对于参数的解释更多地需要意会，理论上能解释的特别好的并不太多。这种特点某种程度上也体现在了这篇文章中，可能也会体现在整个 DNN 系列中。

本文参考资料

[1]

Kaggle NDSB: https://link.zhihu.com/?target=https%3A//www.kaggle.com/c/datasciencebowl

- END -

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-06-27，如有侵权请联系?cloudcommunity@tencent.com 删除

神经网络

https

网络安全

本文分享自小小挖掘机微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

神经网络

https

网络安全

登录后参与评论

0 条评论

热度