前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Rethink DL | 激活、损失函数与正则化

Rethink DL | 激活、损失函数与正则化

作者头像
石晓文
发布2020-07-03 17:57:02
7910
发布2020-07-03 17:57:02
举报
文章被收录于专栏:小小挖掘机小小挖掘机

作者 | 余文毅

知乎 | https://zhuanlan.zhihu.com/p/26122560

写在前面

Activation Function

Sigmoid

最开始接触 ANN 的时候,大家听说的 Activation Function 应该还都是 Sigmoid 函数。它的定义如下:

f(x)=\frac 1{1+e^{-x}}

其图形如下

ReLU

为了缓解 Gradient Vanish 现象,现在大家都会使用 ReLU(Rectified Linear Unit),其定义如下

y = \begin{cases} x,& \text{if $ x\geq $0} \\ 0,& \text{if $ x< $0} \end{cases}

对应的图形如下

ReLU除了具有Sigmoid函数大部分的优点外,还有

LReLU、PReLU

为了解决dying ReLU的问题,有学者提出了LReLU(Leaky Rectified Linear Unit)、PReLU(Prametric Rectified Linear Unit)。它们被定义为

y = \begin{cases} x_i & \text{if}(x_i>0) \\ a_ix_i & \text{if}(x_i\le0) \end{cases}

对应的图形如下

RReLU

Others

Activation Function 是一个比较发散的课题,在不同的任务中有不同的选择,暂时先不做更多的介绍。其它的 Activation Function 比如 Maxou、ELU 等,有兴趣的同学可以自己查找相关资料。

Cost Function

Softmax + Cross Entropy

Regularization 与 Weight Decay

Regularization 的理解

尾巴

在梳理 DNN 相关知识时,感觉现阶段 DNN 相关的信息有一些特点:首先是涉及到的知识很广泛,却都比较零碎;其次,DNN 中对于参数的解释更多地需要意会,理论上能解释的特别好的并不太多。这种特点某种程度上也体现在了这篇文章中,可能也会体现在整个 DNN 系列中。

本文参考资料

[1]

Kaggle NDSB: https://link.zhihu.com/?target=https%3A//www.kaggle.com/c/datasciencebowl

- END -

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-27,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 小小挖掘机 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写在前面
  • Activation Function
    • Sigmoid
      • ReLU
        • LReLU、PReLU
          • RReLU
            • Others
            • Cost Function
              • Softmax + Cross Entropy
              • Regularization 与 Weight Decay
                • Regularization 的理解
                • 尾巴
                  • 本文参考资料
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
                  http://www.vxiaotou.com