重庆网站建设帝维科技,网站做定向的作用,取消wordpress 黑标题,wordpress 主题 自适应1.1 LSTM的产生原因
RNN在处理长期依赖#xff08;时间序列上距离较远的节点#xff09;时会遇到巨大的困难#xff0c;因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘#xff0c;会造成梯度消失或者梯度膨胀的现象。为了解决该问题#xff0c;研究人…1.1 LSTM的产生原因
RNN在处理长期依赖时间序列上距离较远的节点时会遇到巨大的困难因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘会造成梯度消失或者梯度膨胀的现象。为了解决该问题研究人员提出了许多解决办法例如ESNEcho State Network增加有漏单元Leaky Units等等。其中最成功应用最广泛的就是门限RNNGated RNN而LSTM就是门限RNN中最著名的一种。有漏单元通过设计连接间的权重系数从而允许RNN累积距离较远节点间的长期联系而门限RNN则泛化了这样的思想允许在不同时刻改变该系数且允许网络忘记当前已经累积的信息。
1.2 图解标准RNN和LSTM的区别
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中这个重复的模块只有一个非常简单的结构例如一个 tanh 层如下图所示 LSTM 同样是这样的结构但是重复的模块拥有一个不同的结构。不同于单一神经网络层这里是有四个以一种非常特殊的方式进行交互。 注上图图标具体含义如下所示 上图中每一条黑线传输着一整个向量从一个节点的输出到其他节点的输入。粉色的圈代表 pointwise 的操作诸如向量的和而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接分开的线表示内容被复制然后分发到不同的位置。
1.3 LSTM核心思想图解
LSTM 的关键就是细胞状态水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行只有一些少量的线性交互。信息在上面流传保持不变会很容易。示意图如下所示 LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。示意图如下 LSTM 拥有三个门分别是忘记层门输入层门和输出层门来保护和控制细胞状态。
忘记层门
作用对象细胞状态 。
作用将细胞状态中的信息选择性的遗忘。
操作步骤该门会读取 h t − 1 h_{t-1} ht−1和 x t x_t xt输出一个在 0 到 1 之间的数值给每个在细胞状态 C t − 1 C_{t-1} Ct−1中的数字。1 表示“完全保留”0 表示“完全舍弃”。示意图如下 输入层门
作用对象细胞状态
作用将新的信息选择性的记录到细胞状态中。
操作步骤
步骤一sigmoid 层称 “输入门层” 决定什么值我们将要更新。
步骤二tanh 层创建一个新的候选值向量 C ~ t \tilde{C}_t C~t加入到状态中。其示意图如下 步骤三将 c t − 1 c_{t-1} ct−1更新为 c t c_{t} ct。将旧状态与 f t f_t ft相乘丢弃掉我们确定需要丢弃的信息。接着加上 i t ∗ C ~ t i_t * \tilde{C}_t it∗C~t得到新的候选值根据我们决定更新每个状态的程度进行变化。其示意图如下 输出层门 作用对象隐层 h t h_t ht
作用确定输出什么值。
操作步骤
步骤一通过sigmoid 层来确定细胞状态的哪个部分将输出。
步骤二把细胞状态通过 tanh 进行处理并将它和 sigmoid 门的输出相乘最终我们仅仅会输出我们确定输出的那部分。
其示意图如下所示 1.4 LSTM流行的变体
增加peephole 连接
在正常的LSTM结构中Gers F A 等人提出增加peephole 连接可以门层接受细胞状态的输入。示意图如下所示 对忘记门和输入门进行同时确定
不同于之前是分开确定什么忘记和需要添加什么新的信息这里是一同做出决定。示意图如下所示 Gated Recurrent Unit
由Kyunghyun Cho等人提出的Gated Recurrent Unit (GRU)其将忘记门和输入门合成了一个单一的更新门同样还混合了细胞状态和隐藏状态和其他一些改动。其示意图如下 最终的模型比标准的 LSTM 模型要简单也是非常流行的变体。
2 LSTMs与GRUs的区别
LSTMs与GRUs的区别如图所示 从上图可以看出二者结构十分相似不同在于
new memory都是根据之前state及input进行计算但是GRUs中有一个reset gate控制之前state的进入量而在LSTMs里没有类似gate产生新的state的方式不同LSTMs有两个不同的gate分别是forget gate (f gate)和input gate(i gate)而GRUs只有一种update gate(z gate)LSTMs对新产生的state可以通过output gate(o gate)进行调节而GRUs对输出无任何调节。