RNN と LSTM は弱いです!注目モデルは王様！

リカレントニューラルネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラルネットワークは、もう捨て去るべき時です。LSTM と RNN は 1980 年代と 1990 年代に発明され、2014 年に復活しました。その後数年間で、それらはシーケンス学習とシーケンス変換 (seq2seq) を解決する方法となり、音声テキスト認識や Siri、Cortana、Google 音声アシスタント、Alexa の機能の驚くべき改善も可能になりました。

[[228013]]

また、文書をさまざまな言語に翻訳する機械翻訳や、画像をテキストに、テキストを画像に、字幕動画などに翻訳できるニューラルネットワーク機械翻訳も忘れないでください。

その後数年で、ResNet が登場しました。 ResNet は残差ネットワークであり、より深いモデルをトレーニングすることを意味します。 2016 年、Microsoft Research Asia の研究者グループは、驚異的な 152 層のディープ残差ネットワークで ImageNet 画像認識チャレンジに勝利し、画像分類、画像位置特定、画像検出の 3 つの主要プロジェクトすべてで絶対的な優位性を持って優勝しました。その後、Attention モデルが登場しました。

たった2年しか経っていませんが、今日私たちは確信を持ってこう言うことができます。

「RNN と LSTM の使用をやめましょう。もう役に立たないのです!」

事実に基づいて話しましょう。 Google、Facebook、Salesforce などの企業は、注目モデルに基づくネットワークをますます活用しています。

これらの企業はすべて、すでに RNN とその派生モデルをアテンションベースのモデルに置き換えていますが、これはまだ始まりに過ぎません。 RNN は、アテンションベースのモデルよりもトレーニングと実行に多くのリソースを必要とします。 RNN は破滅する運命にある。

なぜ

RNN と LSTM およびその派生物は、主に時間の経過に伴う順次処理を目的としていることに留意してください。次の画像の水平矢印を参照してください。

▲RNNにおける逐次処理

水平矢印は、長期情報が現在の処理ユニットに入る前にすべてのユニットを順番に通過する必要があることを意味します。つまり、0 未満の小さな数を何度も掛けると、簡単に破損する可能性があります。これが勾配消失問題の原因です。

この目的のために、今日では救世主とみなされている LSTM モデルが登場しました。これは、ユニットをバイパスしてより長い時間ステップを記憶できる ResNet モデルに少し似ています。したがって、LSTM は勾配消失問題の一部を排除できます。

▲LSTMにおける逐次処理

上の図からわかるように、これですべての問題が解決するわけではありません。過去のユニットから現在のユニットまでの連続したパスがまだ残っています。実際、パスには付加物があり、従属するブランチを無視するため、パスはより複雑になっています。

LSTM と GRU (Gated Recurrent Uni、LSTM の派生) およびその派生型が、より長期的な情報を大量に記憶できることは間違いありません。ただし、これらが記憶できるのは 1,000 個以上のシーケンスではなく、100 個程度のシーケンスのみです。

RNN のもう 1 つの問題は、トレーニングに非常に多くのハードウェアが必要になることです。さらに、これらのネットワークを高速にトレーニングする必要はありませんが、それでも多くのリソースが必要になります。また、これらのモデルをクラウドで実行するには、多くのリソースが必要です。

音声テキスト変換の需要が急速に高まっていることを考慮すると、クラウドは拡張可能ではありません。 Amazon Echo などのエッジでデータを処理する必要があります。

何をするか？

順次処理を避ける必要がある場合は、「フォワード」またはより適切な「バックトラッキング」ユニットを見つけることができます。これは、リアルタイムの因果データを扱う場合、ほとんどの場合、「過去を振り返り」、それが将来の決定に与える影響（「将来に影響を与える」）を知りたいからです。たとえば、完全なデータと十分な処理時間がある文章の翻訳や録画されたビデオの分析などの場合には、これは当てはまりません。このようなバックトラッキング/フォワードユニットは、Neural Attention モデルグループです。

この目的のために、複数のニューラルネットワークアテンションモデルを組み合わせることで、次の図に示すように、「階層型ニューラルネットワークアテンションエンコーダー」が登場しました。

▲階層型ニューラルネットワークアテンションエンコーダ

「過去を振り返る」ためのより良い方法は、注意モデルを使用して過去のエンコーディングベクトルをコンテキストベクトル CT に要約することです。

上記では、ニューラルネットワークの階層と非常によく似た注意モデルの階層があることに注目してください。これは、以下の注釈 3 の Temporal Convolutional Network (TCN) にも似ています。

階層型ニューラルネットワークの注意エンコーダーでは、複数の注意層が最近の過去の小さな部分、たとえば 100 ベクトルを調べることができ、その上の層はこれらの 100 個の注意モジュールを調べて、100 x 100 ベクトルの情報を効果的に統合できます。これにより、階層型ニューラルネットワークアテンションエンコーダーの機能が 10,000 個の過去ベクトルに拡張されます。

これこそが「過去を振り返り」、そして「未来に影響を与える」ための正しい方法です！

しかし、表現ベクトルがネットワーク出力に伝播するために必要なパスの長さを見ることの方が重要です。階層型ネットワークでは、これは log(N) に比例します。ここで、N は階層内の層の数です。これは、RNN が実行する必要がある T ステップ (T は記憶するシーケンスの最大長、T >> N) とは対照的です。

トレース情報を 100 ステップスキップするよりも、3 ～ 4 ステップスキップする方がはるかに簡単です。

このアーキテクチャはニューラルネットワークのチューリングマシンと非常に似ていますが、ニューラルネットワークが注意を通じてメモリから何を読み取るかを決定できるようにします。これは、実用的なニューラルネットワークが、過去のどのベクトルが将来の決定にとって重要であるかを決定することを意味します。

しかし、メモリへの保存はどうでしょうか? 上記のアーキテクチャは、以前のすべての表現をメモリに保存しますが、これはニューラルチューリングマシン (NTM) とは異なります。これは非常に非効率的です。ビデオ内の各フレームの表現を保存することを検討してください。ほとんどの場合、表現ベクトルはフレームごとに変化しないため、実際には同じものをあまりにも多く保存していることになります。

私たちにできることは、関連データが保存されないように別のユニットを追加することです。たとえば、以前保存されたベクトルと非常に類似しているベクトルは保存されません。しかし、これは実際には単なるハックであり、どのベクトルを保存するか、または保存しないかをアプリケーションに指示させるのが最善のアプローチです。これが現在の研究の焦点である

多くの企業が音声からテキストへの変換に RNN/LSTM をまだ使用していることに本当に驚いています。多くの人は、これらのネットワークが非常に非効率で拡張不可能であることに気づいていません。

RNN と LSTM のトレーニングの悪夢

RNN と LSTM のトレーニングは、メモリ帯域幅に制限された計算を必要とするため困難であり、これはハードウェア設計者にとって最悪の悪夢であり、最終的にはニューラルネットワークソリューションの適用範囲を制限します。つまり、LSTM では、各シーケンスタイムステップで実行するために、ユニットごとに 4 つの線形レイヤー (MLP レイヤー) が必要です。

線形レイヤーの計算には大量のメモリ帯域幅が必要であり、実際には、多くの計算ユニットを使用することはできません。これは通常、計算ユニットを満たすのに十分なメモリ帯域幅がシステムにないためです。また、コンピューティングユニットを追加するのは簡単ですが、メモリ帯域幅を追加するのは困難です (チップ上には十分な数のワイヤがあり、プロセッサからメモリへのワイヤも長いことに注意してください)。

その結果、RNN/LSTM とそのバリエーションはハードウェアアクセラレーションに適していません。これについては、以前こことここで説明しました。解決策としては、FWDNXT で取り組んでいるように、ストレージデバイス内で計算することが挙げられます。

つまり、RNN を捨ててください。注目モデルこそが本当に必要なすべてです!

<<: データセンターにおける AI の未来

>>: これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。