CNN が RNN に取って代わる？シーケンスモデリングで再帰ネットワークが不要になったとき

過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や Transformer などのモデルがさまざまなシーケンスモデリングタスクで RNN に取って代わりつつあります。この記事では、シーケンスモデリングにおける再帰型ネットワークとフィードフォワードネットワークの違いと、再帰型ネットワークではなく畳み込みネットワークを選択する方がよい場合について説明します。

このブログ記事では、再帰型ネットワークモデルとフィードフォワードネットワークモデル間のトレードオフについて説明します。フィードフォワードモデルはトレーニングの安定性と速度を向上させることができ、リカレントモデルは表現力が優れています。興味深いことに、表現力を追加しても、再帰モデルのパフォーマンスは向上しないようです。

いくつかの研究グループは、フィードフォワードネットワークがベンチマークシーケンスタスクで再帰モデルと同等の結果を達成できることを実証しました。この現象は理論的研究にとって興味深い疑問を提起します。

フィードフォワードネットワークは、パフォーマンスを犠牲にすることなく、リカレントニューラルネットワークを置き換えることができるのはなぜですか? いつ置き換えることができるのでしょうか?

私たちは、考えられるいくつかの答えについて議論し、基本的な安定性の観点から説明している最近の研究「リカレントモデルがリカレントである必要がないとき」に焦点を当てます。

2つのシーケンスモデルの物語

1. リカレントニューラルネットワーク

再帰モデルの多くのバリエーションは同様の形式を持ちます。モデルは状態 h_t を使用して過去の入力シーケンスを整理します。各時間ステップ t において、状態は次の式に従って更新されます。

ここで、x_t は時刻 t における入力、φ は微分可能マップ、h_0 は初期状態です。非常に原始的な再帰型ニューラルネットワークでは、モデルは行列 W と U によってパラメータ化され、次に従って状態を更新します。

実際には、長短期記憶ネットワーク (LSTM) がより一般的に使用されます。どちらの場合でも、予測を行うときに状態が関数 f に渡され、モデルは y_t = f(h_t) を予測します。状態 h_t は過去のすべての入力 x_0、...、x_t の関数であるため、予測 y_t も入力 x_0、...、x_t の履歴全体に依存します。

サイクルモデルは次のようにグラフィカルに表すことができます。

バックプロパゲーションを使用して、再帰モデルをデータに適合させることができます。ただし、時間ステップ T から時間ステップ 0 への勾配を逆伝播するには、通常、法外な量のメモリが必要になるため、実際には、すべての再帰型モデルの実装では、勾配を切り捨てて、k 時間ステップの勾配のみを逆伝播します。

この構成では、再帰モデルの予測は依然として入力 x_0、…、x_T の履歴全体に依存します。しかし、このトレーニングプロセスが、特に k ステップを超えるステップを必要とする長期パターンを学習するモデルの能力にどのように影響するかは不明です。

2. 自己回帰モデルとフィードフォワードモデル

自己回帰モデルは、履歴全体に依存して予測を行うのではなく、最新の k 個の入力 x_t-k+1、...、x_t のみを使用して y_t を予測します。これは強い条件付き独立性の仮定に対応します。特に、フィードフォワードモデルでは、ターゲットは最新の k 個の入力のみに依存すると想定されます。 Google の WaveNet はこの一般原則をよく表しています。

RNN と比較すると、フィードフォワードモデルのコンテキストは限られているため、k タイムステップを超えるパターンをキャプチャすることはできません。ただし、拡張畳み込みなどの手法を使用すると、k を非常に大きくすることができます。

なぜフィードフォワードモデルに焦点を当てるのでしょうか?

一見すると、リカレントモデルはフィードフォワードモデルよりも柔軟で表現力豊かなモデルのように見えます。結局のところ、フィードフォワードネットワークは強力な条件付き独立性の仮定を課しますが、再帰型モデルはそのような制限を課しません。ただし、フィードフォワードモデルの表現力は劣るものの、研究者がフィードフォワードネットワークの使用を好む理由はいくつかあります。

並列化: 畳み込みフィードフォワードモデルは、隠れ状態を更新して保存する必要がなく、出力間に順次依存関係がないため、トレーニング時に並列化が容易です。これにより、最新のハードウェア上でトレーニングプロセスを非常に効率的に実装できるようになります。

トレーニング可能性: 深層畳み込みニューラルネットワークのトレーニングはディープラーニングの基本的なプロセスですが、再帰型モデルのトレーニングと最適化はより困難になることがよくあります。さらに、開発者は、ディープフィードフォワードネットワークを効率的かつ確実にトレーニングするためのアーキテクチャの設計とソフトウェアの開発に多大な労力を費やしてきました。

推論速度: 場合によっては、フィードフォワードモデルは同様の再帰型システムよりも軽量で、推論を高速に実行できます。その他の場合、特に長いシーケンスの問題の場合、自己回帰推論は大きなボトルネックとなり、克服するには多くのエンジニアリング作業や創意工夫が必要になります。

3. フィードフォワードモデルはリカレントモデルよりも優れたパフォーマンスを発揮する

フィードフォワードモデルのトレーニング可能性と並列化はモデルの精度を犠牲にすると思われるかもしれませんが、フィードフォワードネットワークがベンチマークタスクでリカレントネットワークと同じ精度を実際に達成できることを示す最近の例があります。

言語モデリング。言語モデリングでは、現在のすべての単語に基づいて次の単語を予測することが目標です。フィードフォワードモデルでは、予測を行うために最新の k 個の単語のみが使用されますが、再帰型モデルではドキュメント全体が使用されます。ゲート畳み込み言語モデルは、大規模な LSTM ベースラインモデルと競合できるフィードフォワード自己回帰モデルです。切り捨て長 k = 25 にもかかわらず、このモデルは、長期的な依存関係を捉えるのに適したモデルをテストするために使用される Wikitext-103 ベンチマークで、大規模な LSTM モデルよりも優れたパフォーマンスを発揮します。 Billion Word Benchmark では、このモデルのパフォーマンスは最先端の LSTM よりもわずかに劣りますが、トレーニングは高速で、使用するリソースも少なくなります。

機械翻訳。機械翻訳の目的は、英語の文章を他の言語の文章にマッピングすること（英語からフランス語へなど）です。フィードフォワードモデルでは翻訳に文の k 語のみを使用しますが、再帰モデルでは文全体を利用できます。ディープラーニングでは、Google Neural Machine Translation などのモデルが当初、LSTM とアテンションメカニズムに基づいてシーケンスモデリングを実行していました。その後、シーケンスモデリングには完全畳み込みネットワークが使用され、Transformer を使用して大規模な翻訳システムが構築されました。

音声合成。音声合成の分野では、研究者はリアルな人間の音声を生成しようとしています。フィードフォワードモデルは過去の k 個のサンプルに制限されますが、リカレントモデルはすべての履歴サンプルを使用できます。この記事の執筆時点では、フィードフォワード自己回帰 WaveNet は LSTM-RNN モデルに比べて大幅に改善されています。

さらに読む最近、Bai らは、拡張畳み込みを活用した一般的なフィードフォワードモデルを提案し、合成コピーから音楽生成に至るまでのさまざまなタスクで再帰ベースラインよりも優れた性能を発揮することを示しました。

4. フィードフォワードモデルはどのようにしてリカレントモデルよりも優れているのでしょうか?

上記の例では、フィードフォワードネットワークは、リカレントネットワークと同じかそれ以上の結果を達成できます。ループモデルの方が高度であるように見えるため、混乱が生じます。 Dauphin らはこの現象について次のように説明しています。

言語モデリングの場合、再帰モデルによって提供される最大限のコンテキスト情報は必ずしも必要ではありません。

言い換えれば、予測タスクを実行するために平均化するコンテキスト情報を多く必要としない可能性があります。最近の理論的研究は、この見解を支持するいくつかの証拠を提供しています。

Baiらは別の説明をした。

RNN の「スーパーメモリ」の利点は、実際には基本的に存在しません。

Bai らが報告しているように、RNN とそのバリアントは、長期的なコンテキストを明示的に必要とする実験であっても、長いシーケンスを学習できません。 Billion Word Benchmark では、優れた Google Scholar 論文により、n=13 語のコンテキストを記憶する LSTM n-gram モデルが、任意の長さのコンテキストを記憶する LSTM と同等のパフォーマンスを発揮することが示されています。

この証拠から、実際にトレーニングされた再帰モデルは実際にはフィードフォワードモデルであるという推測が導かれます。これは、勾配降下法でトレーニングされたモデルには長期記憶がないため、時間の経過に伴う切り捨てバックプロパゲーションでは k ステップより長いパターンを学習できないために発生する可能性があります。

私たちの最近の論文では、勾配降下法を使用してトレーニングされた再帰型モデルとフィードフォワード型モデル間のギャップを研究しています。再帰モデルが安定している場合（爆発的な勾配がないことを意味する）、再帰モデルのトレーニングと推論の両方がフィードフォワードネットワークによって適切に近似できることを示します。言い換えれば、勾配降下法でトレーニングされたフィードフォワードモデルと安定した再帰モデルは、テスト時に同等であることを示しています。もちろん、実際にトレーニングされたモデルがすべて安定しているわけではありません。また、パフォーマンスを損なうことなく、特定のサイクルモデルに安定性条件を課すことができるという経験的証拠も示します。

V. 結論

いくつかの初期の試みは行われていますが、フィードフォワードモデルがリカレントモデルと競合できる理由を理解し、シーケンスモデル間のトレードオフを明らかにするには、まだ多くの作業が必要です。一般的なシーケンスベンチマークでは実際にどれくらいのメモリが必要ですか? 切り捨てられた RNN (フィードフォワードモデルと考えることができます) と一般的な畳み込みモデルとの間の表現力のトレードオフは何ですか? フィードフォワードネットワークが実際には不安定な RNN と同等のパフォーマンスを発揮するのはなぜですか?

これらの質問に答えることは、現在のアプローチの長所と限界を説明し、特定の状況でさまざまなモデルを選択する方法に関するガイダンスを提供できる理論を構築する試みです。

オリジナルリンク: http://www.offconvex.org/2018/07/27/approximating-recurrent/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: DeepFMアルゴリズムを使用して推奨システムを設計する方法

>>: AIと天気予報が出会うとどんな火花が散るのでしょうか？