LSTMによるシーケンス予測の歴史まとめ

LSTM(Long Short Term Memory)が好きで、1997年以降のLSTMの活躍を追っています。

Long Short Term Memory

LSTMはSeppによって発明されましたが、本格的に表舞台に上がったのはGravesやSutskeverなどがあらゆるタスクに応用し始めたためではないかと考えています。

以下の記事では、その検証もふまえて、LSTMがどうやって活躍していったかをまとめています。

確固たる優位性を築いていないため、ここではGRUはLSTMとして認めていません。

Gated Recurrent Unit

まず、LSTMの基本的な表現力を調査しました。

レイヤー1個のLSTMはsin波を学習できるのだろうか

レイヤー2個のLSTMは足し算を学習できるのだろうか

次の論文は、LSTMが初めて手書き文字生成に応用された論文です。以降、様々なタスクにおいてLSTMが活躍することになります。

論文解説:Generating Sequences With Recurrent Neural Networks(2013)

論文解説:Speech Recognition with Deep RNN(2013)

論文解説:Neural Machine Translation by Jointly Learning to Align and Translate (2014)  (bi-directional LSTM)

論文解説:Sequence to sequence learning with neural networks(2014)

論文解説:LEARNING TO EXECUTE(2014)

2016年になると、どうやらLSTMには記憶(memory)としての役割を持たせるのではなく、memory部分は別のユニットに任せて、メモリセレクターのように振舞わせるのが良いのではないかということがわかってきました。

読んだ:Hybrid computing using a neural network with dynamic external memory (2016 Nature)