Crossentropy loss与Hinge loss

狼啸风云

修改于 2022-09-04 21:14:34

1.8K0

修改于 2022-09-04 21:14:34

损失函数

在之前写期望风险的时候其实已经提过这个概念了，再补充一下

损失函数 定义：损失函数就一个具体的样本而言，模型预测的值与真实值之间的差距。对于一个样本（xi,yi）其中yi为真实值，而f（xi）为我们的预测值。使用损失函数L（f(xi),yi）来表示真实值和预测值之间的差距。两者差距越小越好，最理想的情况是预测值刚好等于真实值。

进入正题~

categorical_crossentropy loss（交叉熵损失函数）

讲交叉熵损失函数，我想先从均方差损失函数讲起

均方差损失函数 简单来说，均方误差（MSE）的含义是求一个batch中n个样本的n个输出与期望输出的差的平方的平均值。比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为（其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。）：
C=\frac{(y-a)^{2}}{2}

在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算损失函数对w和b的导数：

\begin{array}{l} \frac{\partial C}{\partial w}=(a-y) \sigma^{\prime}(z) x=a \sigma^{\prime}(z) \\ \frac{\partial C}{\partial b}=(a-y) \sigma^{\prime}(z)=a \sigma^{\prime}(z) \end{array}

然后更新w、b： w <—— w - η* ?C/?w = w - η * a σ′(z) b <—— b - η ?C/?b = b - η * a * σ′(z) 因为sigmoid函数的性质，导致σ′(z)在z取大部分值时会很小，这样会使得w和b更新非常慢（因为η * a * σ′(z)这一项接近于0）。

为了克服这个不足，引入了categorical_crossentropy（交叉熵损失函数）

categorical_crossentropy（交叉熵损失函数) 交叉熵是用来评估当前训练得到的概率分布与真实分布的差异情况。 它刻画的是实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。 公式如下: （其中y为期望的输出，a为神经元实际输出）【a=σ(z), where z=∑Wj * Xj+b】
C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)]

同样进行求导：

\frac{\partial C}{\partial w_{j}}=\frac{1}{n} \sum_{x} x_{j}(\sigma(z)-y)

\frac{\partial C}{\partial b}=\frac{1}{n} \sum_{x}(\sigma(z)-y)

从上图可以看到，导数中没有σ′(z)这一项，权重的更新是受σ(z)?y这一项影响，即受误差的影响，所以当误差大的时候，权重更新就快，当误差小的时候，权重的更新就慢。性质： a.非负性。（所以我们的目标就是最小化代价函数） b.当真实输出a与期望输出y接近的时候，代价函数接近于0.(比如y=0，a～0；y=1，a~1时，代价函数都接近0)。这边举一个简单的二分类例子：预测为猫的p=Pr(y=1)概率是0.8，真实标签y=1；预测不是猫的1-p=Pr(y=0)概率是0.2，真实标签为0。