過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や Transformer などのモデルがさまざまなシーケンスモデリングタスクで RNN に取って代わりつつあります。この記事では、シーケンス モデリングにおける再帰型ネットワークとフィードフォワード ネットワークの違いと、再帰型ネットワークではなく畳み込みネットワークを選択する方がよい場合について説明します。 このブログ記事では、再帰型ネットワーク モデルとフィードフォワード ネットワーク モデル間のトレードオフについて説明します。フィードフォワード モデルはトレーニングの安定性と速度を向上させることができ、リカレント モデルは表現力が優れています。興味深いことに、表現力を追加しても、再帰モデルのパフォーマンスは向上しないようです。 いくつかの研究グループは、フィードフォワード ネットワークがベンチマーク シーケンス タスクで再帰モデルと同等の結果を達成できることを実証しました。この現象は理論的研究にとって興味深い疑問を提起します。 フィードフォワード ネットワークは、パフォーマンスを犠牲にすることなく、リカレント ニューラル ネットワークを置き換えることができるのはなぜですか? いつ置き換えることができるのでしょうか? 私たちは、考えられるいくつかの答えについて議論し、基本的な安定性の観点から説明している最近の研究「リカレント モデルがリカレントである必要がないとき」に焦点を当てます。 2つのシーケンスモデルの物語 1. リカレントニューラルネットワーク 再帰モデルの多くのバリエーションは同様の形式を持ちます。モデルは状態 h_t を使用して過去の入力シーケンスを整理します。各時間ステップ t において、状態は次の式に従って更新されます。 ここで、x_t は時刻 t における入力、φ は微分可能マップ、h_0 は初期状態です。非常に原始的な再帰型ニューラル ネットワークでは、モデルは行列 W と U によってパラメータ化され、次に従って状態を更新します。 実際には、長短期記憶ネットワーク (LSTM) がより一般的に使用されます。どちらの場合でも、予測を行うときに状態が関数 f に渡され、モデルは y_t = f(h_t) を予測します。状態 h_t は過去のすべての入力 x_0、...、x_t の関数であるため、予測 y_t も入力 x_0、...、x_t の履歴全体に依存します。 サイクルモデルは次のようにグラフィカルに表すことができます。 バックプロパゲーションを使用して、再帰モデルをデータに適合させることができます。ただし、時間ステップ T から時間ステップ 0 への勾配を逆伝播するには、通常、法外な量のメモリが必要になるため、実際には、すべての再帰型モデルの実装では、勾配を切り捨てて、k 時間ステップの勾配のみを逆伝播します。 この構成では、再帰モデルの予測は依然として入力 x_0、…、x_T の履歴全体に依存します。しかし、このトレーニング プロセスが、特に k ステップを超えるステップを必要とする長期パターンを学習するモデルの能力にどのように影響するかは不明です。 2. 自己回帰モデルとフィードフォワードモデル 自己回帰モデルは、履歴全体に依存して予測を行うのではなく、最新の k 個の入力 x_t-k+1、...、x_t のみを使用して y_t を予測します。これは強い条件付き独立性の仮定に対応します。特に、フィードフォワード モデルでは、ターゲットは最新の k 個の入力のみに依存すると想定されます。 Google の WaveNet はこの一般原則をよく表しています。 RNN と比較すると、フィードフォワード モデルのコンテキストは限られているため、k タイム ステップを超えるパターンをキャプチャすることはできません。ただし、拡張畳み込みなどの手法を使用すると、k を非常に大きくすることができます。 なぜフィードフォワードモデルに焦点を当てるのでしょうか? 一見すると、リカレント モデルはフィードフォワード モデルよりも柔軟で表現力豊かなモデルのように見えます。結局のところ、フィードフォワード ネットワークは強力な条件付き独立性の仮定を課しますが、再帰型モデルはそのような制限を課しません。ただし、フィードフォワード モデルの表現力は劣るものの、研究者がフィードフォワード ネットワークの使用を好む理由はいくつかあります。 並列化: 畳み込みフィードフォワード モデルは、隠れ状態を更新して保存する必要がなく、出力間に順次依存関係がないため、トレーニング時に並列化が容易です。これにより、最新のハードウェア上でトレーニング プロセスを非常に効率的に実装できるようになります。 トレーニング可能性: 深層畳み込みニューラル ネットワークのトレーニングはディープラーニングの基本的なプロセスですが、再帰型モデルのトレーニングと最適化はより困難になることがよくあります。さらに、開発者は、ディープ フィードフォワード ネットワークを効率的かつ確実にトレーニングするためのアーキテクチャの設計とソフトウェアの開発に多大な労力を費やしてきました。 推論速度: 場合によっては、フィードフォワード モデルは同様の再帰型システムよりも軽量で、推論を高速に実行できます。その他の場合、特に長いシーケンスの問題の場合、自己回帰推論は大きなボトルネックとなり、克服するには多くのエンジニアリング作業や創意工夫が必要になります。 3. フィードフォワードモデルはリカレントモデルよりも優れたパフォーマンスを発揮する フィードフォワード モデルのトレーニング可能性と並列化はモデルの精度を犠牲にすると思われるかもしれませんが、フィードフォワード ネットワークがベンチマーク タスクでリカレント ネットワークと同じ精度を実際に達成できることを示す最近の例があります。 言語モデリング。言語モデリングでは、現在のすべての単語に基づいて次の単語を予測することが目標です。フィードフォワード モデルでは、予測を行うために最新の k 個の単語のみが使用されますが、再帰型モデルではドキュメント全体が使用されます。ゲート畳み込み言語モデルは、大規模な LSTM ベースライン モデルと競合できるフィードフォワード自己回帰モデルです。切り捨て長 k = 25 にもかかわらず、このモデルは、長期的な依存関係を捉えるのに適したモデルをテストするために使用される Wikitext-103 ベンチマークで、大規模な LSTM モデルよりも優れたパフォーマンスを発揮します。 Billion Word Benchmark では、このモデルのパフォーマンスは最先端の LSTM よりもわずかに劣りますが、トレーニングは高速で、使用するリソースも少なくなります。 機械翻訳。機械翻訳の目的は、英語の文章を他の言語の文章にマッピングすること(英語からフランス語へなど)です。フィードフォワード モデルでは翻訳に文の k 語のみを使用しますが、再帰モデルでは文全体を利用できます。ディープラーニングでは、Google Neural Machine Translation などのモデルが当初、LSTM とアテンション メカニズムに基づいてシーケンス モデリングを実行していました。その後、シーケンス モデリングには完全畳み込みネットワークが使用され、Transformer を使用して大規模な翻訳システムが構築されました。 音声合成。音声合成の分野では、研究者はリアルな人間の音声を生成しようとしています。フィードフォワード モデルは過去の k 個のサンプルに制限されますが、リカレント モデルはすべての履歴サンプルを使用できます。この記事の執筆時点では、フィードフォワード自己回帰 WaveNet は LSTM-RNN モデルに比べて大幅に改善されています。 さらに読む最近、Bai らは、拡張畳み込みを活用した一般的なフィードフォワード モデルを提案し、合成コピーから音楽生成に至るまでのさまざまなタスクで再帰ベースラインよりも優れた性能を発揮することを示しました。 4. フィードフォワード モデルはどのようにしてリカレント モデルよりも優れているのでしょうか? 上記の例では、フィードフォワード ネットワークは、リカレント ネットワークと同じかそれ以上の結果を達成できます。ループ モデルの方が高度であるように見えるため、混乱が生じます。 Dauphin らはこの現象について次のように説明しています。
言い換えれば、予測タスクを実行するために平均化するコンテキスト情報を多く必要としない可能性があります。最近の理論的研究は、この見解を支持するいくつかの証拠を提供しています。 Baiらは別の説明をした。
Bai らが報告しているように、RNN とそのバリアントは、長期的なコンテキストを明示的に必要とする実験であっても、長いシーケンスを学習できません。 Billion Word Benchmark では、優れた Google Scholar 論文により、n=13 語のコンテキストを記憶する LSTM n-gram モデルが、任意の長さのコンテキストを記憶する LSTM と同等のパフォーマンスを発揮することが示されています。 この証拠から、実際にトレーニングされた再帰モデルは実際にはフィードフォワード モデルであるという推測が導かれます。これは、勾配降下法でトレーニングされたモデルには長期記憶がないため、時間の経過に伴う切り捨てバックプロパゲーションでは k ステップより長いパターンを学習できないために発生する可能性があります。 私たちの最近の論文では、勾配降下法を使用してトレーニングされた再帰型モデルとフィードフォワード型モデル間のギャップを研究しています。再帰モデルが安定している場合(爆発的な勾配がないことを意味する)、再帰モデルのトレーニングと推論の両方がフィードフォワード ネットワークによって適切に近似できることを示します。言い換えれば、勾配降下法でトレーニングされたフィードフォワードモデルと安定した再帰モデルは、テスト時に同等であることを示しています。もちろん、実際にトレーニングされたモデルがすべて安定しているわけではありません。また、パフォーマンスを損なうことなく、特定のサイクル モデルに安定性条件を課すことができるという経験的証拠も示します。 V. 結論 いくつかの初期の試みは行われていますが、フィードフォワード モデルがリカレント モデルと競合できる理由を理解し、シーケンス モデル間のトレードオフを明らかにするには、まだ多くの作業が必要です。一般的なシーケンス ベンチマークでは実際にどれくらいのメモリが必要ですか? 切り捨てられた RNN (フィードフォワード モデルと考えることができます) と一般的な畳み込みモデルとの間の表現力のトレードオフは何ですか? フィードフォワード ネットワークが実際には不安定な RNN と同等のパフォーマンスを発揮するのはなぜですか? これらの質問に答えることは、現在のアプローチの長所と限界を説明し、特定の状況でさまざまなモデルを選択する方法に関するガイダンスを提供できる理論を構築する試みです。 オリジナルリンク: http://www.offconvex.org/2018/07/27/approximating-recurrent/ [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: DeepFMアルゴリズムを使用して推奨システムを設計する方法
>>: AIと天気予報が出会うとどんな火花が散るのでしょうか?
ディープ ニューラル ネットワーク モデルの複雑さが非常に高い場合、保有するデータの量、モデルを実行...
[[384631]] ◇コンピューティングパワーアルゴリズムの重要な基盤として、人工知能チップと人...
専門家は、将来的には職業の約 70% が自動化されると予測しています。運転手、教師、ベビーシッター、...
英国の雑誌「ネイチャー」は26日、ロボット工学の最新成果を発表した。ロボットを動かすための重要な部品...
まとめこの記事では主に、プロンプトを最適化することで ChatGPT の使用を改善する方法について説...
ついに2020年が到来しました。これは、火星探査、バイオニックロボット、自動運転、遺伝子編集、複合現...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械学習モデルは全部でいくつありますか?分かりません。誰も数えたことがありません。すべての変種を含め...
[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...
かつてはSFの世界の話のように思われていた人工知能(AI)という言葉は、今や現実のものとなり、私たち...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...