DeepMind のニューラルネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

1. はじめに

インターネットに溢れる AI 関連の情報の大半は、一般の人向けに進歩を説明するものと、他の研究者向けに進歩を説明するものの 2 つのカテゴリに分けられることがわかりました。最先端の開発に精通していない技術的なバックグラウンドを持つ人々が元気を回復できるような良いリソースは見つかりませんでした。私は最先端の研究を（比較的）わかりやすく詳しく説明することで、その架け橋になりたいと思っています。まず、「ニューラルネットワークにおける壊滅的な忘却の克服」という論文から始めましょう。

2. 動機

汎用人工知能を実現するための重要なステップは、継続的に学習する能力を獲得することです。つまり、エージェントは古いタスクの実行方法を忘れずに、新しいタスクの実行方法を学習できなければなりません。しかし、この一見単純な機能は、歴史的に実現されてきませんでした。この能力の欠如に最初に気づいたのは、McCloskey と Cohen (1989) でした。彼らはまず、ニューラルネットワークに数値に 1 を加算することを学習させるようにトレーニングし、次にニューラルネットワークに 2 を加算することを学習させるようにトレーニングしましたが、するとネットワークは数値に 1 を加算しなくなりました。ニューラルネットワークは新しいタスクを学習する際に、すぐに上書きして以前のタスクを実行するために必要なパラメータを失う傾向があるため、この問題は「壊滅的な忘却」と呼ばれています。

破滅的な忘却を克服する進歩は限られている。以前の 2 つの論文「Policy Distillation」と「Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning」では、トレーニング中にすべてのタスクからのデータを提供することで、混合タスクで優れたパフォーマンスを達成しました。ただし、これらのタスクが次々に導入される場合、このマルチタスク学習パラダイムでは、優れたパフォーマンスを実現するために、トレーニングデータを記録および再生するためのエピソード記憶システムを維持する必要があります。システムレベルの統合と呼ばれるこのアプローチは、保存されるメモリの合計量に見合ったサイズのメモリシステムが必要であるという制限があります。また、タスクが大きくなると、メモリの量も大きくなります。

しかし、継続的な学習のために巨大なメモリバンクを持ち歩くのは間違いだと直感的に考える人もいるかもしれません。結局のところ、人間は歩き方を学ぶだけでなく、話すことも学ぶことができ、歩き方を学んだ記憶を保持する必要はないからです。哺乳類の脳はどのようにしてこの能力を獲得するのでしょうか? Yang、Pan、Gan (2009) は、学習は時間の経過とともにシナプス後樹状突起棘の形成と除去を通じて達成されることを示しました。樹状突起棘とは、以下に示すように、「ニューロンの樹状突起上の突起で、通常はシナプスで単一の軸索からの入力を受け取ります」。

具体的には、研究者らは、特定の新しいタスクのための動作戦略を学習した後のマウスの脳を調べた。マウスが人工的な動き方を学習すると、研究者たちは樹状突起棘の形成が著しく増加することを観察しました。運動が樹状突起棘の形成につながるというさらなる説明を排除するために、研究者らは運動する対照群も設定しましたが、この群では樹状突起棘の形成は観察されませんでした。その後、研究者たちは、新たに形成された樹状突起棘の大半は後に消失したが、少数は残っていることに気づいた。 2015年の別の研究では、特定の樹状突起棘が消去されると、それに対応するスキルも消失することが示されました。

カークパトリックらは論文「ニューラルネットワークにおける壊滅的な忘却の克服」で次のように述べています。「これらの発見は、大脳新皮質における継続的な学習がタスク固有のシナプス統合に依存していることを示唆しています。この統合では、シナプスのサブセットの可塑性を低下させることで知識が永続的にエンコードされ、時間の経過とともに安定した状態が維持されます。」壊滅的な忘却を克服するために、同様のアプローチ (個々のニューロンの可塑性をその重要性に基づいて変更する) を使用できるでしょうか?

この論文の残りの部分では、彼らの予備的な答え「はい」を導き出し、実証します。

3. 直感

2 つのタスク A と B があり、ニューラルネットワークにそれらを順番に学習させたいとします。ニューラルネットワークがタスクを学習するとは、実際には、ニューラルネットワークがそのタスクでより優れたパフォーマンスを発揮できるように、ニューラルネットワークの重みとバイアス (総称してパラメーター/θ と呼ばれる) を調整することを意味します。これまでの研究では、大規模ネットワークの場合、さまざまなパラメータ構成で同様のパフォーマンスを実現できることが示されています。通常、これはネットワークが過剰にパラメータ化されていることを意味しますが、これを悪用することができます。過剰パラメータ化により、タスク B の構成をタスク A の構成に近づけることができます。著者は役立つグラフィックを提供しています:

図では、θ∗A はタスク A で最高のパフォーマンスを発揮する θ の構成を表しています。このパフォーマンスに近づくことができるパラメータ構成は多数あり、灰色はこの構成セットを表しています。ここで楕円が使用されているのは、一部のパラメータの調整重みが他のパラメータよりも大きいためです。ニューラルネットワークが、タスク A を記憶することに関心を持たずにタスク B を学習するように設定されている場合 (つまり、タスク B のエラー勾配に従う場合)、ネットワークはパラメーターを青い矢印の方向に移動します。 B の最適解も同様の誤差楕円体を持ち、上で白い楕円で表されます。

ただし、タスク A も覚えておく必要があります。パラメータを単純に固定すると、緑の矢印に従い、タスク A と B の両方のパフォーマンスが低下します。最善のアプローチは、タスクにとっての重要度に基づいてパラメータの固定度を選択することです。この場合、ニューラルネットワークパラメータの変更方向は赤い矢印に従い、タスク A と B の両方を適切に実行できる構成を見つけようとします。著者はこのアルゴリズムを「Elastic Weight Consolidation (EWC)」と呼んでいます。この名前は、シナプス統合と「柔軟な」アンカーパラメータ (以前のソリューションの制約は 2 次式であるため、弾性です) を組み合わせたものに由来しています。

4. 数学的説明

ここでは2つの問題があります。まず、アンカー関数がなぜ二次関数なのでしょうか? 次に、どのパラメータが「重要」であるかをどのように判断するのでしょうか?

これら 2 つの質問に答える前に、まずニューラルネットワークのトレーニングを確率論的観点から理解することが何を意味するのかを理解する必要があります。データ D があり、最適尤度のパラメータ (p(θ|D) と表記) を見つけたいとします。この条件付き確率を計算するには、ベイズの定理を使用できます。

対数変換を適用すると、この式は次のように書き直すことができます。

データ D が、タスク A のデータ DA とタスク B のデータ DB という 2 つの独立した部分で構成されていると仮定します。このロジックは 2 つ以上のタスクに適用されますが、ここでは詳細には説明しません。独立の定義を使用すると、この式を書き直すことができます。

(3)の右側の真ん中の3つの項を見てください。見覚えがありますか? 見覚えがあるはずです。これら3つの項は式(2)の右辺ですが、DはDAに置き換えられます。簡単に言えば、これら 3 つの項は、タスク A のデータが与えられた場合のネットワークパラメーターの条件付き確率の対数に相当します。したがって、次の式が得られます。

まず式(4)について説明しましょう。左側はデータセット全体のp(θ|D)を計算する方法を依然として示していますが、タスクAを解くときに学習したすべての情報は条件付き確率p(θ|DA)に含まれています。この条件付き確率により、タスク A を解決する上でどのパラメータが重要であるかがわかります。

次のステップは不明瞭である。「真の事後分布は扱いにくいため、Mackay (19) のラプラス近似に関する研究に従って、事後分布を、平均がパラメータ θ∗A で与えられ、対角精度がフィッシャー情報行列 F の対角線で与えられるガウス分布として近似します。」

これを詳しく説明しましょう。まず、真の事後確率がなぜ扱いにくいのか？論文では説明されていないが、答えはベイズの定理が教えてくれる。

p(θ|DA)はp(DA)=∫p(DA|θ′)p(θ′)dθ′に依存します。ここでθ′はパラメータ空間におけるパラメータの可能な構成です。通常、この積分には閉じた形式の解がないため、代わりに数値近似が残ります。数値近似の時間計算量はパラメータの数に応じて指数関数的に増加するため、数億以上のパラメータを持つディープニューラルネットワークでは実用的ではありません。

それでは、Mackay のラプラス近似に関する研究とは何であり、それはここでの研究とどのように関係しているのでしょうか。事後分布を数値的に近似する代わりに、θ*A を平均として使用し、それを多変量正規分布としてモデル化します。分散についてはどうでしょうか? 各変数の分散を、分散の逆数の精度として指定します。精度を計算するには、フィッシャー情報行列 F を使用します。フィッシャー情報とは、「観測可能なランダム変数 X が、X の確率が依存する未知のパラメータ θ について持つ情報量を測定する方法」です。私たちの場合、DA からの各データが θ について持つ情報量を測定することに興味があります。フィッシャー情報行列は数値近似よりも計算しやすいため、便利なツールになります。

したがって、タスク A でネットワークをトレーニングした後、タスク B でネットワークの新しい損失関数を定義できます。 LB(θ)をタスクBのみの損失とします。パラメータを i でインデックスし、タスク A のタスク B に対する重要度に影響を与えるスカラー λ を選択すると、EWC で最小化される関数 L は次のようになります。

著者らは、EWC の実行時間はネットワークパラメータの数とトレーニング例の数に対して線形であると主張しています。

V. 実験と結果

1. ランダムモード

EWC の最初のテストは、勾配降下法 (GD) よりも長い単純なパターンを記憶できるかどうかを確認することでした。これらの研究者は、ランダムなバイナリパターンをバイナリ結果と関連付けるようにニューラルネットワークをトレーニングしました。ネットワークが以前に見たことのあるバイナリパターンを見つけた場合、信号対雑音比がしきい値を超えているかどうかを観察して、そのパターンを「記憶している」かどうかを評価します。この単純なテストを使用する理由は、解析的なソリューションがあるためです。パターンの数が増えるにつれて、EWC と GD のパフォーマンスは最適な答えに近づきます。しかし、次の図に示すように、EWC は GD よりもはるかに多くのパターンを記憶できます。

2. MNIST

研究者が EWC のために実施した 2 番目のテストは、MNIST の修正版でした。与えられたデータを使用する代わりに、3 つのランダムな順列を生成し、各順列をデータセット内のすべての画像に適用します。タスク A は、最初の順列によって変換された MNIST 画像内の数字を分類することであり、タスク B は、2 番目の順列によって変換された画像内の数字を分類することです。タスク C も同様です。研究者らは、完全に接続されたディープニューラルネットワークを構築し、タスクA、B、Cでトレーニングし、タスクA（Aでトレーニングした後）、タスクB（Bでトレーニングした後）、タスクC（Cでトレーニングした後）でネットワークのパフォーマンスをテストしました。トレーニングは、確率的勾配降下法 (SGD)、L2 正則化を使用した均一なパラメータ剛性、および EWC を使用して個別に実行されました。結果は次のとおりです。

予想どおり、SGD は壊滅的な忘却に悩まされています。タスク A のパフォーマンスは、タスク B のトレーニング後に急速に低下し、タスク C のトレーニング後にはさらに低下します。パラメータをより厳密にすると、最初のタスクのパフォーマンスは維持できますが、後続のタスクを学習できなくなります。 EWC は、以前のタスクの実行方法を記憶しながら、新しいタスクを正常に学習できます。タスク数が増えても、EWC は比較的良好なパフォーマンスを維持できます。対照的に、ドロップアウト正則化を使用した SGD のパフォーマンスは、以下に示すように低下し続けます。

3. アタリ 2600

DeepMind は以前の論文で、Deep Q Network (DQN) が、一度に 1 つのゲームをトレーニングしてテストすると、さまざまな Atari 2600 ゲームで超人的なパフォーマンスを達成できることを示していました。 EWC がこのより困難な強化学習環境で継続的な学習をどのように可能にするかを理解するために、研究者は DQN エージェントを EWC を使用するように変更しました。しかし、彼らはさらにもう 1 つ変更を加える必要がありました。哺乳類の継続学習では、エージェントが現在どのタスクを学習しているかを判断するために高レベルのシステムが必要ですが、DQN エージェントはそのような判断をまったく行うことができません。この問題に対処するため、研究者らは、忘却の法則 (FMN) プロセスに基づくオンラインクラスタリングアルゴリズムを追加しました。これにより、DQN エージェントは推論タスクごとに個別の短期メモリキャッシュを維持できるようになりました。

その結果、2 つの時間スケールにわたって学習できる DQN エージェントが誕生します。短期的には、DQN エージェントは SGD などのオプティマイザーを使用して経験の再生から学習できます (この場合、研究者は RMSProp を使用しました)。長期的には、DQN エージェントは EWC を使用して、さまざまなタスクから学習した知識を統合します。研究者たちは、DQN が人間レベルのパフォーマンスを達成した 19 の Atari ゲームのうち 10 をランダムに選択し、以下に示すように、各ゲームでエージェントを一定期間トレーニングしました。

これらの研究者は、3 つの異なる DQN エージェントを比較しました。青のエージェントは EWC を使用せず、赤のエージェントは EWC とワジェートミーノットタスク識別子を使用します。ブラウンエージェントは EWC を使用し、実際のタスクラベルが提供されます。タスクにおいて人間レベルのパフォーマンスを達成すると、スコア 1 に正規化されます。ご覧のとおり、EWC は 10 個のタスクすべてで人間に近いレベルのパフォーマンスを達成していますが、非 EWC エージェントは複数のタスクでそれを達成できません。エージェントに真のラベルが与えられたか、タスクを推測する必要があったかは結果にほとんど影響しませんでしたが、これは EWC の成功だけでなく、FMN プロセスの成功も示していると思います。

次の部分は本当にクールです。前述したように、EWC はこれら 10 のタスクで人間レベルのパフォーマンスを達成しません。なぜこのようなことが起こるのでしょうか? 考えられる理由の 1 つは、フィッシャー情報行列がパラメータの重要性を適切に推定できない可能性があることです。これを実際に検証するために、研究者たちはたった 1 つのゲームでトレーニングされたエージェントの重みを研究しました。ゲームに関係なく、すべて次のパターンを示します。重みが均一なランダム摂動の影響を受ける場合、摂動が増加するにつれてエージェントのパフォーマンス (1 に正規化) が低下します。重みがフィッシャー情報の対角線の逆数によって摂動される場合、より大きな摂動があってもスコアは安定したままです。これは、フィッシャー情報量がパラメータの真の重要性を判断するのに非常に優れていることを示しています。

その後、研究者らはヌル空間での摂動を試みた。これは無効であるはずですが、実際には研究者は逆フィッシャー空間での結果と同様の結果を観察しました。これは、フィッシャー情報行列を使用すると、いくつかの重要なパラメータが重要でないとマークされる可能性があることを示唆しています。「したがって、現在の実装の主な制限は、パラメータの不確実性を過小評価していることである可能性が高いです。」

6. 議論

1. ベイズの説明

著者らは、EWC の非常に優れたベイジアン解釈を示しています。「正式には、新しいタスクを学習する必要がある場合、ネットワークパラメータは事前分布によって調整されます。事前分布とは、データが与えられたパラメータに対する以前のタスクの事後分布です。これにより、事前分布が制約されているパラメータの学習速度が速くなり、重要なパラメータの学習速度が低くなります。」

2. 重複

冒頭で、ニューラルネットワークのオーバーパラメータ化により、EWC が優れたパフォーマンスを実現できることについて説明しました。当然の疑問は、これらのニューラルネットワークは、ネットワークを各タスクごとに特定の部分に分割することでパフォーマンスが向上するのか、あるいは、表現を共有することでこれらのネットワークのパワーをより効率的に使用できるのか、ということです。この疑問に答えるために、著者らはフィッシャー情報行列 (フィッシャーオーバーラップ) におけるタスクペアのオーバーラップを測定します。非常に類似したタスク (わずかに異なる 2 つのランダム順列など) の場合、Fisher Overlap は非常に高くなります。異なるタスクの場合でも、Fisher Overlap は 0 より大きくなります。ネットワークの深さが増すにつれて、Fisher Overlap も増加します。次の図は結果を示しています。

3. シナプス可塑性の理論

研究者らはまた、EWC が神経可塑性の研究にどのように役立つかについても議論しています。カスケード理論は、可塑性と安定性をモデル化するためにシナプス状態のモデルを構築しようとします。 EWC は時間の経過とともにパラメータを調整することはできないため、以前の情報を忘れることはできませんが、EWC とカスケードはどちらもシナプスの可塑性を低下させることで記憶の安定性を延長することができます。最近の研究では、シナプスは実際の重さを保存するだけでなく、現在の重さに関する不確実性も保存していると提案されています。 EWC はこのアイデアの拡張です。EWC では、各シナプスに重み、平均、分散の 3 つの値が格納されます。

VII. 結論

忘れることなく継続的に学習することが知能には必要です。
研究では、哺乳類の脳におけるシナプスの強化が継続的な学習を可能にすることが示されています。
EWC は、重要なパラメータをより柔軟にすることで、人工ニューラルネットワークのシナプス統合をシミュレートします。
EWC は、ニューラルネットワークに適用した場合、SGB よりも優れたパフォーマンスを示し、より広い範囲で一貫したパラメータ安定性を備えています。
EWC は、体重の統合が継続的な学習の基礎であるという手がかりを提供します。

元記事: http://rylanschaeffer.github.io/content/research/overcoming_catastrophic_forgetting/main.html

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?

>>: [ホワイトベアおもしろ事実4] パーフェクトワールド：ペットの犬にはロボットがいて、独身の犬にはバーチャルガールフレンドがいる

ブログ

MLPerfの結果が発表され、中国のAIチップ企業が再び世界第1位に！大規模モデル推論の3つのカテゴリーで優勝し、H100を超えるパフォーマンスを達成

DeepMind のニューラルネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

MLPerfの結果が発表され、中国のAIチップ企業が再び世界第1位に！大規模モデル推論の3つのカテゴリーで優勝し、H100を超えるパフォーマンスを達成

モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

あなたの次のオフィスアシスタントはロボットでしょうか?

電子商取引検索における人工知能技術の応用

清華大学がJittorをオープンソース化：国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

北京ソフトウェア協会が「人工知能委員会」の設立準備を進め、アジアインフォテクノロジーズの欧陽葉博士が委員長に選出される

米国は、中国のAIチップ量子の3つの主要分野への投資を制限する最新の大統領令に署名しました。大手メーカーが50億ドル相当のA800を緊急発注

両者は負荷分散アルゴリズムを要約する

推薦する

AIが考古学に参入！科学者らはディープラーニングアルゴリズムを使用して、約100万年前に人類が火を使用していた証拠を発見した。PNASに掲載。

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

TensorFlow2020: Tensorflow.js を使用してコンピュータービジョンアプリケーションを実行する方法は?

Google BardとChatGPT、どちらを選ぶべきでしょうか?

「AIネイティブ」の潜在能力を解き放ち、新たな「サイバー空間」を切り拓くには？

劉強東：AIは今後20年間ですべての産業を変革する中核的な力となる

国内メディアが大々的に報じた「世界初のAI地震監視システム」は的外れ

AIスタートアップ向け優秀開発ツールガイドが人気に、Jupyterの「キラー」も発見される

自然言語処理のためのニューラルネットワークモデルに関する予備的研究

ルカン氏は罵倒し、マスク氏は笑って泣いた。9体のヒューマノイドロボットが記者会見を開いたからだ。