开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >学习让机器学会学习-Meta Learning课程笔记-2

学习让机器学会学习-Meta Learning课程笔记-2

作者头像

百川AI

发布于 2022-01-04 08:27:58

1890

发布于 2022-01-04 08:27:58

举报

文章被收录于专栏：我还不懂对话我还不懂对话

来源于李宏毅老师机器学习课程，笔记是其中meta learning部分，few-shot learning学习也可以观看此部分课程。

课程主页：http://t.cn/Exykrk9 video: http://t.cn/ExykrkC

bilibili：https://www.bilibili.com/video/BV1Gb411n7dE?p=32

Gradient Descent as LSTM

上一次讲到通过学习初始化参数的meta learning方法，那么是否有更多的方法呢？

20201009152830

每一次的update的，会很像RNN的time step，每一步训练都会更新参数，那么RNN是否可以用于meta learning呢？

那么RNN和lstm的原理是什么样的呢，这里先做了一些介绍，其实看图就让人回忆起来了。

详细原理可以参考：RNN及其变种LSTM/GRU/SRU

LSTM由于加入了cell单元，相对于RNN会有更长期的记忆。具体原理下面会进行回顾

首先是输入向量z, 以及三个门（输入门、遗忘门、输出门）计算公式。

然后图中是lstm的输出：

c^t,h^t, y^t

的计算公式。

然后每一次都反复每个time step的步骤，就是LSTM的计算过程。那么和meta learning会有什么关系呢？

梯度下降过程中，每个time step会通过梯度来更新参数

\theta

，和LSTM中c很相似，那么LSTM中c是否也可以用

\theta

来代替呢？如图，将遗忘门

z^f

置为全1的矩阵，将输入门

z^i

所有元素置为meta learn的学习率。

实际过程中，当前time step的输入还可以引入更多东西（图中other），可以是当前参数

\theta^{t-1}

的loss等。同时，

z^f,z^i

是固定的，能否通过学习得到呢？即：

z^i

:自动学习给出适合当前的学习率。

z^f

自动学习出做多少weight decay。

z^f

是将之前的参数缩小，和weight decay一样的作用。

图上面是一般的lstm结构，下面是gradient descent中的lstm，对于初始参数

\theta^0

，训练集中mini batch输入可以获得其梯度，然后更新参数的过程为：

\theta^{t}=z^{f} \odot \theta^{t-1}+z^{i} \odot^{-\nabla_{\theta} l}

同时每次的batch不一样，并且参数不一样，对应的梯度

-\nabla_{\theta} l

也是不一样的（这里符号上没有做区别）。图中就是一个训练数据集的三次参数update的过程，然后这个是“lstm”网络的前馈过程，然后使用训练数据，计算获得损失

l(\theta^3)

，然后使用梯度更新“lstm”参数来使得损失最小。（这里有点套娃）

由于参数

\theta

的数量巨大，不能直接输入“lstm”，所有会将所有维度的参数都复用一个“lstm”的cell。

Metric-based Approach

本文参与?腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2020-10-09 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客?前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

Gradient Descent as LSTM
Metric-based Approach