RNN と LSTM は弱いです!注目モデルは王様!

RNN と LSTM は弱いです!注目モデルは王様!

リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラル ネットワークは、もう捨て去るべき時です。LSTM と RNN は 1980 年代と 1990 年代に発明され、2014 年に復活しました。その後数年間で、それらはシーケンス学習とシーケンス変換 (seq2seq) を解決する方法となり、音声テキスト認識や Siri、Cortana、Google 音声アシスタント、Alexa の機能の驚くべき改善も可能になりました。

[[228013]]

また、文書をさまざまな言語に翻訳する機械翻訳や、画像をテキストに、テキストを画像に、字幕動画などに翻訳できるニューラル ネットワーク機械翻訳も忘れないでください。

その後数年で、ResNet が登場しました。 ResNet は残差ネットワークであり、より深いモデルをトレーニングすることを意味します。 2016 年、Microsoft Research Asia の研究者グループは、驚異的な 152 層のディープ残差ネットワークで ImageNet 画像認識チャレンジに勝利し、画像分類、画像位置特定、画像検出の 3 つの主要プロジェクトすべてで絶対的な優位性を持って優勝しました。その後、Attention モデルが登場しました。

たった2年しか経っていませんが、今日私たちは確信を持ってこう言うことができます。

  • 「RNN と LSTM の使用をやめましょう。もう役に立たないのです!」

事実に基づいて話しましょう。 Google、Facebook、Salesforce などの企業は、注目モデルに基づくネットワークをますます活用しています。

これらの企業はすべて、すでに RNN とその派生モデルをアテンションベースのモデルに置き換えていますが、これはまだ始まりに過ぎません。 RNN は、アテンションベースのモデルよりもトレーニングと実行に多くのリソースを必要とします。 RNN は破滅する運命にある。

なぜ

RNN と LSTM およびその派生物は、主に時間の経過に伴う順次処理を目的としていることに留意してください。次の画像の水平矢印を参照してください。


▲RNNにおける逐次処理

水平矢印は、長期情報が現在の処理ユニットに入る前にすべてのユニットを順番に通過する必要があることを意味します。つまり、0 未満の小さな数を何度も掛けると、簡単に破損する可能性があります。これが勾配消失問題の原因です。

この目的のために、今日では救世主とみなされている LSTM モデルが登場しました。これは、ユニットをバイパスしてより長い時間ステップを記憶できる ResNet モデルに少し似ています。したがって、LSTM は勾配消失問題の一部を排除できます。


▲LSTMにおける逐次処理

上の図からわかるように、これですべての問題が解決するわけではありません。過去のユニットから現在のユニットまでの連続したパスがまだ残っています。実際、パスには付加物があり、従属するブランチを無視するため、パスはより複雑になっています。

LSTM と GRU (Gated Recurrent Uni、LSTM の派生) およびその派生型が、より長期的な情報を大量に記憶できることは間違いありません。ただし、これらが記憶できるのは 1,000 個以上のシーケンスではなく、100 個程度のシーケンスのみです。

RNN のもう 1 つの問題は、トレーニングに非常に多くのハードウェアが必要になることです。さらに、これらのネットワークを高速にトレーニングする必要はありませんが、それでも多くのリソースが必要になります。また、これらのモデルをクラウドで実行するには、多くのリソースが必要です。

音声テキスト変換の需要が急速に高まっていることを考慮すると、クラウドは拡張可能ではありません。 Amazon Echo などのエッジでデータを処理する必要があります。

何をするか?

順次処理を避ける必要がある場合は、「フォワード」またはより適切な「バックトラッキング」ユニットを見つけることができます。これは、リアルタイムの因果データを扱う場合、ほとんどの場合、「過去を振り返り」、それが将来の決定に与える影響(「将来に影響を与える」)を知りたいからです。たとえば、完全なデータと十分な処理時間がある文章の翻訳や録画されたビデオの分析などの場合には、これは当てはまりません。このようなバックトラッキング/フォワードユニットは、Neural Attention モデル グループです。

この目的のために、複数のニューラル ネットワーク アテンション モデルを組み合わせることで、次の図に示すように、「階層型ニューラル ネットワーク アテンション エンコーダー」が登場しました。


▲階層型ニューラルネットワークアテンションエンコーダ

「過去を振り返る」ためのより良い方法は、注意モデルを使用して過去のエンコーディング ベクトルをコンテキスト ベクトル CT に要約することです。

上記では、ニューラル ネットワークの階層と非常によく似た注意モデルの階層があることに注目してください。これは、以下の注釈 3 の Temporal Convolutional Network (TCN) にも似ています。

階層型ニューラル ネットワークの注意エンコーダーでは、複数の注意層が最近の過去の小さな部分、たとえば 100 ベクトルを調べることができ、その上の層はこれらの 100 個の注意モジュールを調べて、100 x 100 ベクトルの情報を効果的に統合できます。これにより、階層型ニューラル ネットワーク アテンション エンコーダーの機能が 10,000 個の過去ベクトルに拡張されます。

これこそが「過去を振り返り」、そして「未来に影響を与える」ための正しい方法です!

しかし、表現ベクトルがネットワーク出力に伝播するために必要なパスの長さを見ることの方が重要です。階層型ネットワークでは、これは log(N) に比例します。ここで、N は階層内の層の数です。これは、RNN が実行する必要がある T ステップ (T は記憶するシーケンスの最大長、T >> N) とは対照的です。

トレース情報を 100 ステップスキップするよりも、3 ~ 4 ステップスキップする方がはるかに簡単です。

このアーキテクチャはニューラル ネットワークのチューリング マシンと非常に似ていますが、ニューラル ネットワークが注意を通じてメモリから何を読み取るかを決定できるようにします。これは、実用的なニューラル ネットワークが、過去のどのベクトルが将来の決定にとって重要であるかを決定することを意味します。

しかし、メモリへの保存はどうでしょうか? 上記のアーキテクチャは、以前のすべての表現をメモリに保存しますが、これはニューラル チューリング マシン (NTM) とは異なります。これは非常に非効率的です。ビデオ内の各フレームの表現を保存することを検討してください。ほとんどの場合、表現ベクトルはフレームごとに変化しないため、実際には同じものをあまりにも多く保存していることになります。

私たちにできることは、関連データが保存されないように別のユニットを追加することです。たとえば、以前保存されたベクトルと非常に類似しているベクトルは保存されません。しかし、これは実際には単なるハックであり、どのベクトルを保存するか、または保存しないかをアプリケーションに指示させるのが最善のアプローチです。これが現在の研究の焦点である

多くの企業が音声からテキストへの変換に RNN/LSTM をまだ使用していることに本当に驚いています。多くの人は、これらのネットワークが非常に非効率で拡張不可能であることに気づいていません。

RNN と LSTM のトレーニングの悪夢

RNN と LSTM のトレーニングは、メモリ帯域幅に制限された計算を必要とするため困難であり、これはハードウェア設計者にとって最悪の悪夢であり、最終的にはニューラル ネットワーク ソリューションの適用範囲を制限します。つまり、LSTM では、各シーケンス タイム ステップで実行するために、ユニットごとに 4 つの線形レイヤー (MLP レイヤー) が必要です。

線形レイヤーの計算には大量のメモリ帯域幅が必要であり、実際には、多くの計算ユニットを使用することはできません。これは通常、計算ユニットを満たすのに十分なメモリ帯域幅がシステムにないためです。また、コンピューティング ユニットを追加するのは簡単ですが、メモリ帯域幅を追加するのは困難です (チップ上には十分な数のワイヤがあり、プロセッサからメモリへのワイヤも長いことに注意してください)。

その結果、RNN/LSTM とそのバリエーションはハードウェア アクセラレーションに適していません。これについては、以前こことここで説明しました。解決策としては、FWDNXT で取り組んでいるように、ストレージ デバイス内で計算することが挙げられます。

つまり、RNN を捨ててください。注目モデルこそが本当に必要なすべてです!

<<:  データセンターにおける AI の未来

>>:  これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。

ブログ    
ブログ    

推薦する

人間は機械化され、機械は人間化されるのです!起こっていることはさらに恐ろしいことだ。

科学技術の継続的な発展に伴い、人工知能は徐々に科学技術分野の主な研究方向になってきました。 「ロボッ...

...

あなたのデータ戦略は GenAI に対応していますか?

AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...

自動運転事故を回避するために、CV 分野では物理的な攻撃をどのように検出できるでしょうか?

敵対的攻撃の概念は、Goodfellowら[6]によって初めて提唱されました。近年、この問題はますま...

初心者のためのホームオートメーション完全ガイド

スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...

...

人工知能、VR、音声検索、従来のマーケティングモデルを変える「三銃士」

人工知能と関連技術はマーケティングの未来を変えつつあり、仮想現実 (VR)、音声検索、人工知能はマー...

推薦システムに関する6つの衝撃的な「秘密」

1990年代にレコメンドシステムが誕生して以来、2024年時点で32年の開発の歴史があります。過去...

自動運転タクシーの分野では競争が激しく、中国では百度がリードしています。

タクシーサービスに代表される商業的探究の激化に伴い、自動運転タクシーの急速な導入は、自動運転が人々の...

自動運転車における LiDAR とカメラセンサーの融合

センサーフュージョンは、自動運転車の重要な技術の 1 つです。これは、すべての自動運転車のエンジニア...

Yandexとロシア郵便が配達ロボットサービスを開始

外国メディアの報道によると、ロシアの検索エンジン会社ヤンデックスとロシア郵便は最近、モスクワのいくつ...

ディープラーニングを使用した DGA (ドメイン生成アルゴリズム) の検出

[[196872]] DGA (ドメイン生成アルゴリズム) は、ドメイン名のブラックリスト検出を回避...

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...

Java ソートアルゴリズムの概要 (パート 3): バブル ソート

バブル ソートは、計算時間が O(n^2) のコンピュータ ソート方法です。ヒープ ソートやクイック...