深入理解LSTM(Understanding LSTM Networks)

原文

循环神经网络(Recurrent Neural Networks)

思考问题时,人类不是每一时刻都是从零开始的。当你阅读这篇短文时,对于每一个词的理解都是基于这个词之前的词的含义。你不会把前面看到的丢弃,然后从零开始。你的思考是连贯的。

传统的神经网络无法做到这一点,并且这是它的一个主要的缺点。例如,假如你想清楚地知道在一个电影的每一个片段发生了什么样的事情。现在,还不能确定,传统的神经网络如何能够基于已知的事件推断出将要发生的事件。

循环神经网络致力于解决该问题。这样的网络通过环回链接,保持信息的连贯性。

带环的循环神经网络

在上图中,A是一个神经网络的一部分,输入$x_t$得到输出$h_t$。环回链接控制信息被从网络的一层传递到下一层。

这些环回链接使得循环神经网络看起来有些神秘。但是,如果你更进一步地思考,它与普通的神经网络没有太大的区别。一个循环神经网络可以被认为是一个网络的多个拷贝,每一个把信息传递给下一个。对循环神经网络做循环展开后,它就是下面的样子:

循环展开的循环神经网络

这种链式的本质说明了循环神经网络本质上与序列和链表相关。它天生就是要应用到这样的数据上。

当然,它们也是这样被使用的。在过去的几年中,它们在一些领域,取得了难以置信的成功。这个名单很长,主要包括:语音识别、语言模型和图像自动标题等。如果你想深入了解这方面的讨论,请阅读Andrej Karpathy的精彩博文“The Unreasonable Effectiveness of Recurrent Neural Networks.”。这些例子真的是很神奇。

基本上,这些成功的例子都是使用了“LSTMs”。LSTMs是一个特殊的循环神经网络。在很多方面,它都比标准模型做的要好。在循环神经网络的成功案例几乎都是使用它们实现的。本文将主要讨论这些LSTMs模型。

长距离间的依赖关系(The Problem of Long-Term Dependencies)

RNNs最令人着迷的是,它也许能够将当前的任务与之前的信息联系起来。例如,通过视频以播放过的帧来理解当前的这一帧。如果RNNs能做到,它的作用是巨大的。RNNs能做到吗?在某些条件下是的。
有些时候,当前的任务是可以依据最近的信息推测出来的。例如,依据前面已经出现的词推测下一个词的语言模型。当我们推测“the clouds are in the sky,”这句话的最后一个词时,已经不需要其他的上下文了;非常明显这个词是“sky”。(译者:其他的词“mountain”)。在这种情况下,相关联的词汇间的距离很短,RNNs能够学习如何使用这些信息。

但是在某些情况下需要更多的上下文。例如预测这句话 - “I grew up in France… I speak fluent French.” - 的最后一个词。与目标词最近的相关信息表明这个词很可能指某个语言。但是如果把这个词缩小到某个具体的语言上,就需要与距离较远的France的上下文考虑到。
与目标点相关的信息与目标点之间的间隔非常的大,这是完全可能的。

不幸的是,随着距离的增加,RNNs就不能学习到这些关联信息。

在理论上,RNNs绝对能够处理长距离间的依赖关系。通过仔细挑选参数,能够在一些实验性的玩具项目上取得很好的效果。不幸的是,在现实中,RNNs不能学习使用这些信息。Hochreiter (1991) [German] 和 Bengio, et al. (1994), 在这方面做了深入的研究,他们的研究结果揭示了一些RNNs在这方面的本质上的缺陷。

令人欣慰的是,LSTMs能解决这个问题!

LSTM网络

长短期记忆网络 - 通常被称为“LSTMs” - 是一个特殊的RNN,能够学习使用长期的依赖关系。在1997年,Hochreiter & Schmidhuber首次提出了这个模型。随后,很多人(Felix Gers, Fred Cummins, Santiago Fernandez, Justin Bayer, Daan Wierstra, Julian Togelius, Faustino Gomez, Matteo Gagliolo, and Alex Graves)对该模型进行了优化,并使其流行起来。LSTM网络能够很好地解决很多问题,因此现在被广泛使用。

LSTMs致力于解决长期依赖关系的问题。记忆一段时间内的信息是LSTMs固有的功能,而不是挣扎地调优的参数。

所有的循环神经网络都是一个重复模块链的结构。在标准的RNNs中,这个重复的模块的结构非常的简单,例如一个单独的tanh层。

The repeating module in a standard RNN contains a single layer.

LSTMs当然也是这种链式结构,但是重复模块有不同的结构。LSTMs有四个网络层,而不是一个,这四个网络层以一种特殊的方式交互。

暂时不要纠结它们是如何工作的。本文会逐步帮助你理解它们。现在,让我们先熟悉一些将要使用的术语。

在上图中,每个图标操作一个向量,粉红色的圆圈代表点乘操作,类似向量加法。黄色的方块表示神经网络层。合并箭头表示连接操作。分叉的箭头表示数据被拷贝到不同的地方。

LSTMs的核心思想

LSTMs的核心是神经元的状态,如下图中最上面的水平线所示,其状态从$C_{t-1}$变换到$C_t$。
神经元的状态类似一种传送带。它直线穿过整个数据链,在这个过程中只有一些线性交互。所以,在这个过程中信息可能没有任何的变化。

LSTM的门有计划、有组织地在神经元上删除或添加信息。门选择性地允许信息从数据链上通过。它由一个sigmod神经网络层和点乘操作组成。

sigmod神经网络层的输出介于0和1之间,表示允许多少信息通过。其值为零时,则不允许任何信息通过;为1时,则全部放行。

LSTM步骤分解

LSTM网络首先选择从神经元中移除哪些信息。这个操作由一个sigmod层,也被称为“失忆门”层,来决定的。它的输入时$h_{t_1}$和$x_t$,输出一个介于0和1之间的数值,这个数值将被应用到每一个神经元的$C_{t-1}$上。当值为1时,意味着$C_{t-1}$全部保留;值为0,则与之相反,$C_{t-1}$全部被丢弃。

现在,让我们回想一下预测下一单词的例子。在这类问题上,神经元的状态也许包含了已知的主语词性,因此,可以推断出正确的代词。当遇到一个新的主语时,期望能够去掉已知的主语词性。

译者:
最初将subject一词理解为单词,但阅读到后面时,发现基于language model一词,这里应该是指一句话中的“主语”。

下一步是确定在神经元中存储哪些信息。这包含两个过程。首先,一个sigmoid层,也被称为“输入门层”决定更新哪些值。然后,一个tanh层创建一个新的候选值向量, $C_t$,它们能够被加入到神经元中。接下来,使用这些值合成一个新的状态。

在前面提到的预测单词的语言模型例子中,期望在神经元中使用新的主语词性替换旧的。

接下来的任务,就是把神经元的状态从$C_{t-1}$迁移到$C_t$。到了这里,已经知道了做什么,现在只需要计算出新的状态。

神经元的已知状态乘以$f_t$,。然后,将结果与$i_t * \widetilde{C_t}$ 的结果相加。至此,得到新的状态值,其与需要更新的信息多少成正比。

在单词预测的语言模型中,这一步丢弃了已知的主语词性信息,并添加了新的信息。

最后一步的工作是输出结果。输出结果是基于被过滤过的神经元状态的。首先,一个sigmoid层确定神经元状态的哪些部分被输出。然后,神经元的状态被归一化处理(tanh层)并与sigmoid门的输出相乘。至此,得到想要的输出。

在单词预测的语言模型中,但其遇到一个主语时,它期望输出与动词相关的信息,通常,主语后面是动词。例如,输出的主语可能是单数或多数,就知道接下来该使用动词的词格。

Variants on Long Short Term Memory

至此,本文详细阐述了一个通用的LSTM模型。但是,并不是所有的LSTMs都和本文描述的一样。事实上,几乎每篇论文涉及LSTMs的论文中使用的模型都在细节上有所不同。尽管这些不同是微小的,但是有些还是值得探讨一下。

一个最为常用的LSTM变体,是Gers & Schmidhuber在2000年提出的,“peephole connections”。其允许门层看到神经元状态。

在上图中,在所有的门中添加了“peepholes”,但是很多的论文中只在部分门中添加“peepholes”。

另一个变体是把失忆门和输入门组合在一起。即,同时处理丢弃和添加信息,而不是分开来做。在该模型中,只有有输入信息时才丢弃信息。只有在丢弃信息是,才有新的信息输入。

Cho,et al. 在2014年引入了门循环单元( Gated Recurrent Unit, or GRU)。它将忘记门和输入门合成为一个“更新门”(“update gate”)。同时,它把神经元层和隐藏层合并到一起,以及一些其他的改变。该模型比标准的LSTM模型简单,并且很快流行起来。

以上只是几个非常值得注意的LSTM变体。LSTMs的变体非常的多,如Depth Gated RNNs by Yao, et al. (2015)。当然,还有一些完全不同的处理长期依赖关系的方法,例如 Clockwork RNNs by Koutnik, et al. (2014).

哪个LSTM变体最好?这些变化发挥了多大的作用?Greff, et al. (2015)对这些变体做了比较,发现它们几乎差不多。Jozefowicz, et al. (2015)测试了成千上万的RNN模型,发现在某些特定的任务上,有些比LSTM的效果好。

总结

本文已经提到过使用RNNs所取得的显著成果。这些成果大都是通过LSTMs得到的。它们确实胜任很多任务。

由一组公式描述的LSTMs看起非常的恐怖。期望,本文分步骤地解析LSTM能够帮助你更好地理解。

LSTMs是一个巨大的飞跃在RNNs领域。您也许会问:有没有另一个巨大的飞跃?研究领域的观点是:“是的!下一个巨大的飞跃就是attention。”Attention网络的核心是在RNN的每一个步骤中,从一个大的数据集中提取信息。例如,如果你想使用RNN来描述一张图片,可以从图片中截取一部分然后从其输出的单词中选择。事实上,Xu, et al. (2015) - 如果你想研究Attention网络,这是一个很好的起点。现在,Attension网络在很多方面取得了令人振奋的结果,并且还有很多值得去发掘的领域。

在RNN研究领域,Attention网络不是唯一令人振奋的。例如,Kalchbrenner, et al. (2015) 提出的Grid LSTMs看起来也非常有前景。在生殖模型中使用RNNs - 例如, Gregor, et al. (2015), Chung, et al. (2015), or Bayer & Osendorfer (2015) - 也看起来很美。在过去的几年中,循环神经网络得到了飞速的发展。在接下来的时间里,会带来更多的惊喜。