【时空序列预测实战】风险时空预测？keras之ConvLSTM实战来搞定

MeteoAI

发布于 2020-06-19 11:42:27

2.8K0

发布于 2020-06-19 11:42:27

文章被收录于专栏：MeteoAI

作者 | Eric琨

学校 | 武汉大学信管

研究 | NLP、时空序列

出品 | AI蜗牛车

前言

毕设临近截止，故写一篇心得以供新手学习，理论在知乎上有很多介绍的不错的文章，这里强烈推荐微信公众号：AI蜗牛车，这位东南老哥写了时空预测系列文章，能够帮助了解时空领域模型的演变，同时也向他请教了一些训练技巧。我的本科毕设大概是这样的：先计算某个区域的风险，计算得到一段时间的风险矩阵，这里用的是自己的模型去计算的，数据如何生成，本文不做赘述，主要讲解如果通过每个时刻下的矩阵数据去预测未来的矩阵。

1. 回顾理论基础

在ConvLSTM中，网络用于捕获数据集中的时空依赖性。ConvLSTM和FC-LSTM之间的区别在于，ConvLSTM将LSTM的前馈方法从Hadamard乘积变为卷积，即input-to-gate和gate-to-gate两个方向的运算均做卷积,也就是之前W和h点乘改为卷积（*）。ConvLSTM的主要公式如下所示：

\begin{array}{c} i_{t}=\sigma\left(W_{x i}^{*} x_{t}+W_{h i}^{*} h_{t-1}+b_{i}\right) \\ f_{t}=\sigma\left(W_{x f}^{*} x_{t}+W_{h f}^{*} h_{t-1}+b_{f}\right) \\ o_{t}=\sigma\left(W_{x o}^{*} x_{t}+W_{h o}^{*} h_{t-1}+b_{o}\right) \\ C_{t}=f_{t}^{\circ} C_{t-1}+i_{t}^{\circ} \tanh \left(W_{x c}^{*} x_{t}+W_{h c}^{*} h_{t-1}+b_{c}\right) \\ H_{t}=o_{t}^{\circ} \tanh \left(c_{t}\right) \end{array}

详细可参考：

【时空序列预测第二篇】Convolutional LSTM Network-paper reading

2. 官方keras案例

实战过的朋友应该了解，关于Convlstm，可参考的案例非常少，基本上就集中在keras的官方案例（电影帧预测——视频预测

[官方案例] https://keras.io/examples/conv_lstm/
[知乎解说] https://zhuanlan.zhihu.com/p/124106729

官方模型核心代码：

from keras.models import Sequential
from keras.layers.convolutional import Conv3D
from keras.layers.convolutional_recurrent import ConvLSTM2D
from keras.layers.normalization import BatchNormalization
import numpy as np
import pylab as plt
 
seq = Sequential()
seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   input_shape=(None, 40, 40, 1),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(ConvLSTM2D(filters=40, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())

seq.add(Conv3D(filters=1, kernel_size=(3, 3, 3),
               activation='sigmoid',
               padding='same', data_format='channels_last'))
seq.compile(loss='binary_crossentropy', optimizer='adadelta')

模型结构可以如官方一样：用前20个预测后20个，这里先解释一下官方模型结构的维度：

（如已熟悉，请跳过）对于新手来说，看上去似乎很复杂，其实弄清楚后会发现不过如此，请耐心听我讲完：

先从第一个Convlstm说起，输入的是(None, 40, 40, 1)，输出的维度（None，None，40，40，40），这里的输入维度（input_shape）其实是每个时刻下的输入，如下图：比如这里用20个预测后20个，那么整理的第一个样本就是0至19个矩阵，label（标签）就是20至39个矩阵，每一个矩阵维度为（40，40，1）最后的这个1为通道数，如果是图片，那就对应多通道了，那么整理的样本X就应该是（样本个数,20，40，40，1），对应标签Y就是（样本个数，20，40，40，1）这样每个样本和标签才能一一对应，由于reurn_sequence为true，即每个时刻单元都有输出，也就是20个预测20个嘛，那么第一层的Convlstm输出的维度就是（None，None，40，40，40）这里第一个None是batchsize毫无疑问，第二个其实就是20，至于最后一个维度是40，和filter个数直接相关，（因为一个卷积核对样本做一次特征提取，40个就有40个特征提取）。

接下来N层Convlstm均如此，最后为啥要接一个Conv3d，很好解释，因为你的label维度是（样本个数，20，40，40，1），这里的最后维度还得回归到1啊，所以Conv3d的filter这才设置为了1，以此类推，如果你的一个数据是三通道的图像，这里filter自然就是3了，一定要和label维度对应即可。

ConvLSTM参数介绍

filters: 卷积核的数目
kernel_size： 卷积核大小（1乘1的state-to-state kernel size很难抓住时空移动的特征，所以效果差很多，所以更大的size更能够获取时空的联系）
strides： (1,1)为卷积的步长，即卷积核向右和向下一次移动几格，默认步长为1
padding： 补0，为“valid”或 “same”。若要保证卷积核提取特征后前后维度一致，那就“same”
data_format: 即红绿蓝三个通道(channel)是在前面还是在后面，channels_last (默认) （width, height, channel）或 channels_first (channel, width, height) 之一, 输入中维度的顺序
activation： 激活函数，即下图中的RELU层，为预定义的激活函数名，如果不指定该参数，将不会使用任何激活函数（即使用线性激活函数：a(x)=x）

3. 模型改造

不过我由于数据量比较少，我把模型结构改造成了20个预测1个（样本数较少的童鞋可以参考），在convlstm最后一个层的reurn_sequence参数改为flase、Conv3d改2d即可。其实了解了reurn_sequence这个参数后，改造就顺理成章了，在最后一个Convlstm这里将reurn_sequence改为false，那么就只在最后一个单元有输出了，第二个None维度就没了，然后再把Conv3d改为2d即可，这样就要求整理数据集的时候，样本和标签分别整理成这样：(样本数，20，40，40，1) 和（样本数，40，40，1），也就是20个预测1个。

from keras.models import Sequential
from keras.layers.convolutional import Conv3D ,Conv2D
from keras.layers.convolutional_recurrent import ConvLSTM2D
from keras.layers.normalization import BatchNormalization
from keras_contrib.losses import DSSIMObjective

import numpy as np

seq = Sequential()
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   input_shape=(None, 60, 93, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())
 
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   padding='same', return_sequences=True))
seq.add(BatchNormalization())
 
seq.add(ConvLSTM2D(filters=30, kernel_size=(3, 3),
                   padding='same', return_sequences=False))
seq.add(BatchNormalization())
 
seq.add(Conv2D(filters=3, kernel_size=(3, 3),
               activation='sigmoid',
               padding='same', data_format='channels_last'))

seq.compile(loss= DSSIMObjective(kernel_sizesize=3), optimizer='adadelta')
seq.summary()

模型经验及调参

先看看结果图吧，随便抽一张示意一下，预测的点相对比较准确，但是模糊度还没解决掉，毕竟只训练了十几分钟，有这个效果也还算可以了：

整个模型看上去不算复杂，但是实际效果比较差，有以下几个要稍微注意的地方：

1.矩阵数据是否过于稀疏，如果0太多，建议先转成图片再做训练，否则效果会奇差无比，原因可能是求梯度的时候网络出了问题，直接崩了。
2.如果输入是图片张量，需要提前做好归一化，我用的简单处理，直接元素除255.0，显示的时候再乘回来即可，可能有一丢丢颜色误差，但是不太影响。
3.预测图片出现模糊大概有以下几个原因：（1）网络结构不够优（继续调就完事了），往往这种情况下，得到的预测点也不会太准确。（2）由于是多个时刻下的数据去预测一个，那么必然存在信息叠加（融合），这样导致的模糊是不可避免的，如果数据量很大，那么可以采用20帧预测20帧这样的结构，应该会有效减缓一点模糊程度。（3）重要： 损失函数若使用MSE则会默认模糊，如果换成SSIM（结构相似性）则会明显改观（亲测有效）在模糊处理方面，我也想尝试改进，但是还没有找到比较好的方式，蜗牛车老哥建议调小学习率，训练时间长一点，可以这样去尝试一下！反卷积也尝试了，但是效果不佳，后期准备使用TrajGRU来实战（预测解码模块采用了上采样层理论上应该会提高清晰度）。

模型调参的过程其实是最无聊也最艰辛的，无非就是改改层结构，多一层少一层，改一下filter、batchsize个数，时空预测这种图像的预测和别的领域有一点不同，文本的只要acc、f1-score上去了就行，所以可以用grid search来自动化调参，但是图像预测还必须得肉眼去看效果，否则结果真可能是千差万别，loss看上去已经很低了但是效果很差的情况比比皆是，尝试多换几种loss来实验，后面也还可以尝试自定义loss看效果，整个调参过程确实是不断试错的过程，两个字："炼丹"!

本文参与?腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-06-11，如有侵权请联系?cloudcommunity@tencent.com 删除

机器学习