今は2020年です。ディープラーニングの今後はどうなるのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

過去1年間、ディープラーニング技術は相変わらずさまざまな分野で大きな進歩を遂げてきました。しかし、現在のディープラーニング技術 (この記事ではディープラーニング 1.0 と呼びます) には、意識的なタスクを解決するには不十分であるなど、いくつかの明らかな制限がまだ残っています。では、来年これらの制限に対してどのような解決策が考えられるでしょうか?ディープラーニングはどのような分野で有望なブレークスルーをもたらすでしょうか?

この記事では、機械学習の上級実践者である Ajit Rajasekharan が、ディープラーニング分野のさまざまなリーダーのアイデアをまとめ、自身の考えをいくつか共有します。

この画像は、Yoshua Bengio 教授、Yann LeCun 教授、Leon Bottou 教授による最近の NeurIPS 2019 プレゼンテーションを要約したものです。

ディープラーニングモデルは 2019 年も記録を更新し続け、さまざまなタスク、特に自然言語処理タスクで現時点で最高の結果を達成しましたが、2019 年は「ディープラーニング 1.0 の次は何か?」という疑問が世間の注目を集めた年であるだけでなく、学術界がこの問題に関する研究を加速させた年でもありました。

1. ディープラーニング 1.0 の限界

ディープラーニング 1.0 (上の写真、ベンジオ教授は「ディープラーニングシステム 1」と呼んでいます) は、ゲームで特定のアクションを取ることが良いことだと直感的に感じたり、写真の中に犬がいることを認識したりするなど、人間が直感的に (多くの場合、素早い無意識の非言語的な方法で) 解決できるタスクをうまく解決しました。これらは、1 秒未満ですばやく完了でき、日常的に解決できるタスクです。

DL 1.0 モデルは、特定のタスクのベンチマークでは超人的なパフォーマンスを発揮しますが、これらのタスクでもいくつかの既知の欠陥があります。

1. 人間と比較すると、DL 1.0 モデルには大量のトレーニングデータまたは時間が必要です。たとえば、戦略ゲーム「StarCraft II」をマスターするまでに、モデルは 200 年に相当する時間、リアルタイムでトレーニングされる必要がありました。人間は平均 20 時間で運転を習得でき、事故を起こす可能性も低くなります。

これまでのところ、人間よりも数桁多いトレーニングデータと時間を消費しているにもかかわらず、車が完全に自動運転するようにトレーニングすることはまだできていません。また、多くのタスクでは、モデルは人間がラベル付けしたデータから概念を学習する必要もあります。

Yann Lecun の最近の講演「エネルギーベースの自己教師あり学習」からの画像。一部のゲームでは、プロの人間プレイヤーのレベルに到達したり、それを超えたりするために、モデルのトレーニング時間を大幅に増やす必要があります。

2. DL 1.0 モデルは、人間が通常は犯さないような間違いを犯します。たとえば、画像のピクセルを少し変更すると（人間の目には気づかれない程度）、モデルが誤分類する可能性があります。たとえば、人が電話の横に立っていると、モデルはその人が電話中であると誤って認識する可能性があります。

これらのエラーは、さまざまな理由から生じているようです。(1) モデルが誤った関連付けを行うケースがあります。(2) 入力データに偏りがあるため、モデルの出力が汚染されています。(3) モデルが分布の変化に対して十分に堅牢ではなく、トレーニング分布内のまれなケースを処理できない場合もあります。

DL 1.0 モデルが起こす可能性のあるさまざまな種類のエラー。 (a) 左上の図では、人間には気づかないほどのノイズの注入によって、モデルが誤分類する可能性があります。 2015 年の論文からの敵対的サンプルの画像。 (b) 右の図の誤差は、モデルがほとんどの場合、電話ボックスの近くで人間が電話をかけているシーンにさらされているために発生しており、これはトレーニングデータセットの選択バイアスによるものです。 2019 年 10 月の Leon Bottou 氏の講演「因果不変性による表現の学習」の画像 (c) よく見られるエラーのクラスは、モデルがトレーニングデータ分布からこの分布外のデータ (たとえば、トレーニング分布内のまれなイベント) に一般化できないことです。下の図は、ブラックスワン効果の具体的な例です。ブラックスワン効果とは、自動運転車がまれなイベントに遭遇する (ただし、トレーニングデータの分布を考えると可能性は低い) など、発生する可能性は低いが、発生した場合には深刻な結果をもたらすものです。 NeurIPS 2019でのYoshua Bengio氏の講演の画像

2. 人間レベルに近いAIを実現するにはどうすればいいでしょうか？

答えは今のところ不明です。具体的には、次のような質問になるはずです。DL 1.0 モデルの既存の制限に対処し、意識的なタスクの解決を克服するにはどうすればよいでしょうか。

有望なアプローチは、人間からインスピレーションを得ることです。なぜなら、人間は、無意識のタスクを解決する際の DL 1.0 の制限 (サンプルの非効率性とデータ分布外への一般化の不可能性) がないだけでなく、論理的推論、計画などの意識的なタスク (システム 2 タスク) を解決するのも得意だからです。

以下は、ディープラーニング研究を「ディープラーニング 2.0」（意識的なタスク解決）に導く可能性のある研究の方向性です（これらの合理的な方法、仮定、事前条件の一部は、初期の小規模な実装で実現されています）。

自己教師学習: 入力を予測して学習する
分散表現の構成力を活用する
IID（独立かつ同一分布）ランダム変数仮定を削除する
2つの自己教師あり表現学習法
注意メカニズムの役割
複数の時間スケールでの生涯学習
アーキテクチャの優先順位

以下では、これらの研究の方向性を詳細に紹介し、その本質を明らかにし、前述の DL 1.0 の欠点を克服すると同時に、意識的なタスク解決 (DL 2.0) への道筋にもなり得ることを示します。

1. 自己教師学習：入力を予測して学習する

自己教師学習は、本質的には、入力データの一部を使用して入力データの他の部分を予測することによって学習することです。これらの予測は、入力データシーケンス内の次の要素 (時間または空間) の予測、またはシーケンス内の欠損値の予測である可能性があります。入力データは、1 つ以上のタイプ (画像、音声、テキストなど) になります。自己教師学習は、入力の欠落部分を再構築することで学習します。

私たちは、そのほとんどを自己教師学習を通じて学びます。ジェフリー・ヒントンは数年前の手紙でこれを予測していました。彼は、入力データを教師なしで再構築することで自分自身の学習を監督するプロセスを「自己監督」と呼びました。現在では、わかりやすくするためにこれを「自己監督」と呼んでいます。

脳には約 10 ^{14 個の}シナプスがあり、私たちの寿命はわずか 10 ⁹秒です。したがって、データよりも多くのパラメータがあります。このことから、人間には間違いなく多くの教師なし学習が必要であるという考えが生まれました。なぜなら、感覚入力は、1 秒あたり 10 ⁵次元の制約にアクセスできる唯一の場所だからです。

自己教師あり学習におけるセンサーデータストリームの価値は、その膨大な量 (1 秒あたりのトレーニングデータ数) の他に、次の点にあります。

一般的な教師あり学習（フィードバックは各入力のカテゴリ値またはいくつかの数値）や強化学習（フィードバックはモデルの予測に対するスカラー報酬）よりも少ないフィードバックデータを提供するのに対し、強化学習ではより多くのフィードバックデータ（フィードバックは再構築の種類により、入力データのすべてではないにしても、その一部）が提供されます。
環境からのセンサーデータのストリームは非定常です。これにより、学習者、より具体的には学習者に組み込まれたエンコーダーは、変化する環境においてほぼ不変であるオブジェクトと概念の安定した表現を学習するようになります。環境の本質的な非定常性は、変化の原因を知る機会も提供します。分布外一般化（トレーニング分布に存在しないイベントを予測すること）と因果関係の獲得は、学習者が生存に必要な予測を行うために重要です。本質的には、環境の非定常性は、概念の表現と概念間の因果関係を継続的に評価および改良することによって、継続的な学習の機会を提供します。
センサーストリームには、学習において重要な役割を果たすエージェント (学習者を含む) が含まれます。エージェントは環境の一部であり、介入することで環境を変更します。 DL 1.0 では、強化学習にはエージェントのみが組み込まれていました。 DL 2.0 モデルが目標を達成するには、エージェントを自己教師学習に組み込むことが重要なステップとなる可能性があります。新生児のような受動的な学習者であっても、生後数か月間は主に環境内の他のエージェントとのやり取りを観察することによって学習します。

Yann LeCun 氏の最近の講演からの画像。新生児は物理学を直感的に学ぶことができます。たとえば、生後 9 か月くらいの赤ちゃんは、私たちが重力について教えなくても、周囲の世界を観察するだけで重力について学ぶことができます。乳児が重力を直感的に理解しているかどうかは、車をテーブルから押し出しても落ちない（目に見えない紐でつかまっている）という簡単な実験からわかります。これは、生後 9 か月未満の乳児にとっては驚くべき現象ではありません。生後 9 か月の赤ちゃんは、自分たちの観察結果が、車が落ちると予測する生後 9 か月の「内部モデル」の出力と一致しないために驚きます。

因果関係を捉えた概念の安定した表現を学習することで、学習者は計算能力の範囲内でもっともらしい行動シーケンスをシミュレートすることで数ステップ先のシーケンスを予測し、リスクを回避するための将来の行動を計画することができます（例：坂を下るときに崖から落ちないように運転することを学ぶ）。

DL 1.0 における自己教師学習

自己教師あり学習は、DL 1.0 自然言語処理 (NLP) タスクにおいて非常に有用かつ成功している (最先端のパフォーマンスを達成している) ことが証明されています。文中の次の単語を予測したり、文から削除された単語を予測したりすることで単語表現を学習できるモデルがあります (BERT のように、NLP の世界では教師なし事前トレーニングと呼ばれますが、本質的には自己教師学習であり、モデルは入力の欠落部分を再構築することで学習します)。

しかし、DL 1.0 言語モデリング手法はテキスト入力からのみ学習し、他の感覚ストリームやエージェントの相互作用の環境での学習は考慮しません (2018 年にこの試みが行われた論文があり、興味のある方は https://arxiv.org/pdf/1810.08272.pdf にアクセスして論文を読むことができます)。感覚的文脈に基づいた言語学習では、文中の単語の文脈（文中の他の単語に対する位置）の統計情報だけでなく、単語にさらに多くの文脈と意味が与えられます。

しかし、現在の言語学習は主にテキストに基づく自己教師学習に限られており、大量のトレーニングテキストを必要とするだけでなく、モデルの言語理解が単語シーケンスの統計的特性に限定され、多感覚環境での学習に匹敵することはできません。 (トロフィーは大きすぎるため箱に収まらない、トロフィーは小さすぎるため箱に収まらない、文は「それ」を正しいオブジェクトにマッピングすることで理解される必要があり、最初の「それ」はトロフィーを指し、2 番目の「それ」は箱を指すなど、単語シーケンスの統計的特性のみを学習しても、モデルは空間を理解することはできません。)

これまでのところ、自己教師学習は、画像補完（ペイント）や GAN を使用したビデオの次のフレーム予測モデルなどではある程度の進歩が見られたものの、テキストほど画像、ビデオ、オーディオでは進歩していません。ただし、ピクセル、ビデオ、オーディオの入力空間で直接予測を行うことは、意識的なタスク解決の観点からは適切なアプローチではない可能性があります (私たちは、映画の中で次に何が起こるかをピクセルレベルで意識的に予測するのではなく、オブジェクトまたは概念レベルで予測します)。

さまざまな感覚入力は世界を理解する上で重要な役割を果たしますが、感覚モダリティによる入力予測は、元の入力空間 (ビデオ、オーディオなど) ではなく抽象的な表現空間で最も効果的に実行される可能性があり、前述のように、言語理解にも複数の感覚から世界を理解する必要があります (最後の追加メモでは、言語の特殊性と DL 2.0 デバッグにおけるその潜在的な役割について説明しています)。

2. 分散表現の組み合わせ力を活用する

組み合わせ可能性は、有限の要素セットからより大きな（指数関数的に）組み合わせを作成する機能を提供します。

DL 1.0 は、コンポーザビリティの指数関数的な成長特性を次のように活用しています。

分散表現の各機能は、すべての概念の表現に参加できるため、指数関数的な組み合わせを実現できます。特徴コンポーネントの表現は自動的に学習されます。分散表現を実数値 (float/double) ベクトルとして視覚化すると、それが具体的になります。ベクトルは、密 (ほとんどのコンポーネントがゼロ以外の値を持つ) または疎 (ほとんどのコンポーネントがゼロで、極端な場合はワンホットベクトル) になる場合があります。
DL モデルの各計算層はさらに組み合わせることができ、各層の出力は前の層の出力の組み合わせになります。 DL 1.0モデルは、この構成性を利用して、複数のレイヤーを持つ表現を学習しました（たとえば、NLPモデルは、異なるレイヤーで異なるレベルの構文および意味の類似性をキャプチャすることを学習しました）。
この言語には、DL 1.0 ではまだ十分に活用されていない追加の構成可能性レベルがあります。たとえば、言語は、トレーニング分布から抽出することが不可能な独自の文を記述できます。つまり、トレーニング分布内でのそれらの出現確率は小さいだけでなく、出現確率がゼロになる可能性もあります。これは、分布外 (OOD) 一般化よりも一歩進んだ体系的な一般化です。最近の言語モデルは、独創性が高く一貫性のある新しい文章を生成できますが、特にこれらの文章がエンジニアリングの概念で構成されている場合、モデルは基礎となる概念を理解していません。前述のように、この欠陥は言語理解の不足に一部起因している可能性があり、DL 2.0 で克服できる可能性があります。
構成性は、下の図に示すように、新しい文を作成することに限定される必要はなく、以前の概念の元の構成になることもできます (ただし、言語はある程度、あらゆる概念を説明するために使用できます)。

DLは人間ほど既存のデータから新しい概念を組み立てることはできない

3. IID（独立かつ同一分布）確率変数仮定を削除する

ほとんどの DL 1.0 モデルでは、トレーニングセットまたはテストセットのデータサンプルは互いに独立しており、同じ分布から抽出されたものであると想定しています (IID 仮定、つまり、トレーニングデータセットとテストデータセットの両方の分布は、同じ分布パラメーターのセットで記述できます)。

非静的な環境からの自己教師学習では、エージェントがそのような環境と対話している間に IID 仮定を取り除く必要があります (常に変化する環境から学習するという性質を考慮すると)。

ただし、教師あり学習の問題 (自動運転車の画像/オブジェクトの分類/識別など) であっても、モデルがトレーニング中に見たことのない現実のシナリオが常に存在し、誤分類がコストのかかる可能性がある (自動運転車の初期バージョンでは、この例がいくつかありました) ため、IID 仮定は負担になる可能性があります。

大量の運転時間データを使用してモデルをトレーニングするとエラーを減らすことができますが、IID 仮定なしで学習したモデルは、IID 仮定を使用して学習したモデルよりも、まれなケースや分布外のケースをより適切に処理できる可能性が高くなります。

IID 仮定を放棄するもう 1 つの理由は、トレーニングデータとテストデータを均質にするためにデータをシャッフルすると、モデルをトレーニングするためのデータセットを作成するときに選択バイアスが導入される点です。

IID を実装するには、さまざまなソースから取得されたデータ (属性の違いを含む) をシャッフルし、トレーニングセットとテストセットに分割します。これにより、情報が破損し、誤った関連付けが生じる可能性があります。たとえば、画像を牛かラクダのどちらかに分類する例を考えてみましょう。牛の写真はすべて緑の牧草地にありますが、ラクダは砂漠にいます。モデルがトレーニングされた後、モデルが誤った関連付けを導入し、緑の風景を牛として、土色の風景をラクダとして分類するため、海岸にいる牛の写真を分類できない可能性があります。

モデルにさまざまな環境にわたって不変の特徴を学習させることで、これを回避できます。たとえば、ある牧草地は緑が 90%、別の牧草地は緑が 80% というように、緑の割合が異なる牧草地で牛の写真を撮ることができます。このようにして、モデルは牧草地と牛の間には強いが変化する相関関係があることを学習し、牧草地を使用して写真に写っている動物が牛であるかどうかを判断することはできません。ただし、モデルは、牛がいる環境に関係なく、牛自体を識別できる必要があります。

したがって、不変の属性をまとめて扱うのではなく、さまざまな分布を活用して不変の属性を識別することで、誤った相関関係を防ぐことができます。これは単なる例ですが、分布シフトからの情報を広範囲に活用し、シフトする分布の下での不変表現を学習すると、堅牢な表現を学習するのに役立つ可能性があります。

ちなみに、分布の変化にわたって不変な変数を特定することは、原因変数を直接特定するよりも比較的簡単なので、これは原因変数を特定する方法として使用できますが、課題は分布の変化にわたって不変な変数を見つけることです。

当然の疑問は、IID 仮定を放棄した場合、変化する環境における表現をどのようにして正確に学習できるのかということです。

4. 2つの自己教師あり表現学習法

自己教師あり表現学習には 2 つのアプローチがあります。

入力スペースで次に何が起こるかを予測します。
抽象的な空間で次に何が起こるかを予測します。

2 つの自己教師学習方法。左側では、入力空間の欠落部分を予測することによって表現学習が実行されます。たとえば、ビデオストリームからの自己教師学習では、時刻 t の画像フレームは時刻 t-1 の画像フレームを使用して予測されます。予測子は、時刻 t-1 のフレームと潜在変数を入力として受け取り、時刻 t のフレームを予測します。モデル出力は潜在変数を使用して複数の予測を提供し、（エネルギーベースのモデルでは）最もエネルギーが低い予測ペア（y、y'）が選択されます。右の図では、学習した表現 c と h が存在する抽象空間で予測が行われます。目的関数 V は、現在の状態 h と過去の状態 c を特定の方法で一致させ、これら 2 つの状態間の一貫性を維持するようにトレーニングされます。この目的関数の実際の実装はまだ決定されておらず、このアプローチの詳細については参考セクションで提供されています。

これら 2 つのアプローチは相互に排他的ではなく、モデルは両方の方法を同時に使用して表現を学習できます。

1) 入力空間で次に何が起こるかを予測する

これは通常、環境に関するすべての未知の情報 (エージェントに関する情報やエージェント間の相互作用を含む) を含む潜在変数を通じて未来を予測するようにモデルをトレーニングすることによって行われます。または、学習した表現として再構築エラーを使用して未来を再構築することで同等に行われます。エネルギーベースのモデルは、そのような表現を学習するための 1 つのアプローチです。

この方法では、入力 (x) と入力の予測/再構築された部分 (y) をスカラー値のエネルギー関数を通じてエネルギー平面にマッピングし、入力データポイント x と y の学習された表現のエネルギーを低くします。これは 2 つの方法で実現できます。

（１）最初のアプローチは、入力データポイント（xとその予測y）のエネルギーを減らし、他のすべてのポイントのエネルギーを増やすことです（たとえば、エネルギーベースのGANでは、ジェネレーターは入力ポイントから遠く離れた対照的なデータポイントを選択します）

（２）２番目のアプローチは、入力データポイントのエネルギーを（ネットワーク構造や何らかの正規化を通じて）より低いレベルに制限することである。前述のように、環境の未知の部分は通常、潜在変数 (z) によって反映され、z を変化させることで y の複数の予測を行うことができ、その中からエネルギーが最も低いものが選択されます。

潜在変数の情報容量は、潜在変数がスパース要件を満たすように正規化したり、ノイズを追加したりするなど、さまざまな方法で制限する必要があります。これらの潜在変数は通常、入力 (x) と予測される実際のデータ (y') の両方を取り込むエンコーダーを介してトレーニング中に学習されます。次に、デコーダーは潜在変数と x (実際には、何らかのニューラルネットワークを介して変換された x の変換バージョン) を使用して予測を行います。

エネルギー関数はコスト関数として機能し、この関数のスカラー出力はモデルをトレーニングして正しい表現を学習するために使用されます。推論はデコーダーを通じて実行されます (実際、エンコーダーは、以下で説明する生涯トレーニングサイクルでも使用できます)。 Yann LeCun 氏は最近の講演 (https://youtu.be/A7AnCvYDQrU) でこのアプローチについて詳しく説明し、シミュレーション環境で自動車が運転を学習する方法を示しました (トレーニングデータは、現実世界のシナリオでの自動車のダッシュカメラビデオであり、モデルは、ビデオの次のフレームで自動車が他の自動車とともに車線のどこにいるかを予測することで学習します。コスト関数では、自動車と他の自動車との距離と、自動車がまだ元の車線内にあるかどうかが考慮されます)。

このアプローチは本質的に、単なるスカラー報酬 (強化学習) やラベル (教師あり学習) ではなく、フィードバックが非常に有益な (ビデオ、オーディオなどの次の画像フレーム) 入力を再構築する自己教師あり学習タスクに DL 1.0 モデルを適用します。

2) 抽象的な空間で次に何が起こるかを予測する

このアプローチは、環境の変化は、環境からの感覚入力から学習される高次元表現（DL 1.0 で表現される知覚空間に類似）から抽出されたいくつかの因果変数（最終的にはスパース表現として表現される）によって説明できるという仮定に基づいています。最後に、因果変数のスパース表現を使用して将来を予測します。つまり、元の入力空間で予測を行う代わりに、学習されたスパース表現がこの表現から導出された知覚空間と一致する空間で予測が行われます。

これは、私たちが仕事から家に帰るドライブを計画するときに、移動中の車両からの実際の感覚入力の空間ではなく、非常にスパースな（低次元の）空間でルート計画操作を実行する方法に似ています。

抽象空間から次に何が起こるかを予測することは、知覚ストリームの生の入力空間から予測するよりも潜在的な利点がいくつかあります。環境の変化を考慮した入力ストリームのより優れた表現を学習できるだけでなく (DL 1.0 の表現と同様)、入力知覚ストリームが変化する理由も学習できます。

本質的には、分布シフトと OOD パフォーマンスのためにこれらのモデルをトレーニングする実践 (参考文献のセクションで説明したように、これらの表現を学習するためのトレーニング目的関数の設計は未解決の問題のままです) は、優れた低次元因果表現を学習するためのトレーニング信号として使用できます。同時に、環境の変化は低次元表現によって説明できるという仮定は、エンコーダーにそのような表現（および場合によっては他の制約）を学習するための制約を課します。

DL 法を使用して変数 (有向グラフ) 間の因果関係を見つける初期の研究がいくつかありました。これを使用して、2 つのランダム変数 A と B の結合分布 P(A,B) の 2 つの同等の因数分解 (P(A)P(B/A) と P(B)P(A/B)) のいずれかを選択し、A と B 間の因果関係を最もよく捉えることができます。 P(A)P(B/A) などの正しい因果分解を持つモデル、つまり A が B の原因であり、A が何らかのノイズによって乱されている場合、分布の変化に迅速に適応できます。 (Yoshua Bengio の最近の講演でもこのアプローチについて詳しく説明しています)。

これら 2 つのアプローチはまったく異なりますが、潜在的には関連しています。 1 つの関連性は、両方のアプローチ (異なる方法で実装されている場合でも) にスパース制約があることです。もう 1 つの関連性は、因子グラフとエネルギー関数の間にあります。

変数間の結合分布（適切な表現空間内）は、エージェントが計画、推論、想像などを行うのに役立つ世界の大まかな近似値です。因子グラフは、ランダム変数の複数のサブセットの関数に分割することによって結合分布を表すことができます (1 つの変数が複数のサブセットに含まれる場合があります)。正しい分割によりエネルギー関数が削減されます。そうでない場合、分割を因子グラフに配置するのは賢明ではありません。

5. 注意メカニズムの役割

注意は本質的には加重合計ですが、コンテンツ駆動型のトレーニングと推論中に重み自体が動的に計算されると、この単純な操作の威力が明らかになります。

焦点はどこにあるのでしょうか?

標準的なフィードフォワードニューラルネットワーク内の任意のノードの出力は、トレーニング中に学習された重みを使用して、そのノードへの入力の加重合計の非線形関数になります。対照的に、アテンションメカニズムを使用すると、入力を推論している間でもこれらの重みを動的に計算できます。これにより、計算層を接続する静的重みを、トレーニングおよび推論中のコンテンツに基づいて注意メカニズムによって計算された動的重みに置き換えることができます。

BERT などのトランスフォーマーアーキテクチャはこのアプローチを使用します。たとえば、単語のベクトル表現は、その近傍の重み付けされた合計です。重みは、単語のベクトル表現を計算するときに各近傍がどの程度重要か (つまり、どこに注意を集中するか) を決定します。重要なのは、これらの重みが、文内のすべての単語に依存する注意ヘッド (BERT モデルの各レイヤーに複数の注意ヘッドがあります) によって動的に計算されることです。

焦点はどこにあるのでしょうか?この図は、レイヤー間の動的重み付けエッジ接続を備えたアテンションモデルと、推論時にレイヤー間の静的重み付けエッジ接続を備えたバニラモデル (標準 FFN など) の比較を示しています。左の図では、ノード X の出力は入力の加重合計であり、推論中は、重み w1、w2、w3、w4、w5 は入力 (A1 ～ A5、B1 ～ B5) に関係なく一定のままです。右側: 注意モデルのノード X の出力も入力の加重合計ですが、重み自体は入力に基づいて動的に計算されます (トレーニング中および推論中)。これにより、異なる色の破線のエッジで示されるように、入力 (A1-A5、B1-B5) が異なる場合に重みが変わります。

いつ集中すべきか?

機械翻訳では、エンコーダーによって計算された一連の隠し状態が与えられると、注意メカニズムは、翻訳段階（デコーダーの隠し状態）に応じて、各タイムステップで異なる数の隠し状態ベクトルを選択して（つまり、注意を集中するタイミングを決定して）、翻訳を生成します（下の図を参照）。

いつ集中すべきか?この図は、Jay Alammar のニューラル機械翻訳に関する記事 (https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/) から引用したものです。エンコーダの出力は 3 つの隠れ状態ベクトルです。翻訳されたテキストを出力するとき、2 つのデコード状態 (時間ステップ 4 と 5) は、アテンションメカニズム (A4 と A5) を通じて、これら 3 つの隠れ状態ベクトルの合計の異なる割合を選択します。

注意メカニズムは、上記の「抽象空間での予測」アプローチにおいて重要な役割を果たし、意識的なタスク解決を支援するために無意識空間を構成する多数の表現の中から注意を必要とする側面を選択するために使用されます。最善の解決策を見つけるための因果推論、計画、またはグラフ検索はすべて、時間シーケンス処理タスクとして定式化できます。この場合、各時間ステップで、適切な非表示状態のサブセット（無意識状態のセットから）を選択するための注意メカニズムが必要です。

グラフトラバーサルの次のステップ選択にノイズを挿入すると (アテンションメカニズムを使用)、ソリューションの検索で探索する方向が開かれます (RL のモンテカルロツリー検索に似ています)。さらに重要なことは、DL 1.0 が翻訳タスクに対して行ったのと同様に、シーケンス処理タスクに適した注意マスク (感覚空間表現の関数として動的に計算される) を学習できることです。

注意は、意識的なタスク解決に使用されるだけでなく、トップダウン方式でその後のタスクの認識に影響を与える可能性もあります。このトップダウンの影響は脳に由来しており、大脳新皮質（意識的な処理が行われる場所）の各機能単位（皮質柱）には感覚求心性および遠心性の結合があり、その一部は運動野と関連しています。入力内の何かが私たちの注意を引くと、これらの接続によって、入力ストリームのその特定の部分に意識的に知覚が向けられます。たとえば、大脳新皮質の感覚領域から音声入力を処理する頭部の筋肉への運動接続があるため、ある音が私たちの注意を引くと、私たちの頭はその異常な音が聞こえてくる方向に向きます。

この画像は、Yoshua Bengio 氏のプレゼンテーションスライドからのものです (https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view)。意識は下から上に向かって無意識状態の主な側面を選択し、その結果、感覚入力に対して上から下に向かって注意が集中するようになります。

6. 多様な時間スケールでの生涯学習

マルチタイムスケール学習と反復最適化により、OOD の一般化が促進されます。たとえば、エージェントは、より遅い反復を通じて学習した適応を一般化しながら、さまざまな環境に素早く適応することを学習できます。このマルチタイムスケールのアプローチは、学習方法を学ぶ方法です。

DL 1.0 実践者は、失敗事例を含むトレーニングセットを拡張し、人間の専門家にそのようなエッジケースをさらに見つけてもらい、これらの失敗事例を中心に教師あり学習モデルを継続的にトレーニングし、最後にトレーニング済みのモデルを実際のアプリケーションに展開することで、「学習方法の学習」部分を人間に実行させることで、同じ効果を実現します。

テスラの実践は、このアプローチの一例であり、同社は車をアップデートするにつれて、自律運転機能を継続的に改善しています。まれなイベントをゆっくりと排除するこの方法が、最終的にブラックスワンイベントの確率を無視できるレベルに低下させ、現実世界の安全を達成できるかどうかはまだ見られないかどうか。

7。アーキテクチャの優先順位

上記の注意メカニズムに依存することに加えて、「抽象空間で予測する」というアプローチには、DL 1.0のベクトルを処理するマシンからベクターのセットで動作し、動的に再編成されたニューラルネットワークモジュール（関連する作業HTTPS://arxiv.orxiv.orxiv.-orxiv.orxiv.orxiv.-orxiv.orxiv.orxiv.orxiv.orxtpsiv.orxiv.orxiv.orxtps）によって動作するモデルを移行する必要があります。

これまでのところ、入力空間で予測するための自己監視学習方法は新しいアーキテクチャを必要としないようであり、多くの既存のモデルは主にエネルギーベースのモデルとして分類できます（たとえば、Bertなどの言語モデルはエネルギーベースのモデル）。自己学習学習は、これらの既存のアーキテクチャを広範囲に使用しています。

近くの人間レベルのAIを達成する他の方法

1。ハイブリッドアプローチ

現在までに、DL 1.0と従来のシンボリック処理およびアルゴリズムを組み合わせたハイブリッドアプローチの実装がたくさんあります。これらのハイブリッドアプローチにより、アプリケーションをDL 1.0を活用することを展開できます。したがって、ハイブリッドメソッドの重要性を過小評価することはできません。

意思決定のユースケースに適用された場合、これらすべてのハイブリッドアプローチが共通しているのは、DL 1.0出力でさらにアルゴリズム処理を実行し、通常、DL 1.0出力の分布表現を削減します（グラフ埋め込みを除く）分散表現は失われます。

DL出力をシンボルに削減し、DL 2.0タスク（これらのシンボルの推論や計画など）を実行するハイブリッドアプローチが人間レベルのAIに導くかどうかはまだ不明です。

今日、人間レベルのAIを達成するためのハイブリッドアプローチの可能性についての議論の多くは、これに要約されます：DL 2.0タスクはシンボルだけを使用して達成できますか？または、DL 1.0の分散表現の利点を考えると、DL 2.0タスクは必然的に相関をキャプチャするために分散表現を必要としますか？

2。自然知能からより多くの事前知識を得る必要がありますか？

インテリジェンスの基本的なコンピューティングユニット（ハードウェアの観点から） - ニューロン（人工ニューロンは生物ニューロンの重要な機能のわずかな部分のみを実装するだけですが）から、自然知能は多くの方法で人工知能の発達に影響を与え続けています。ディープラーニングは、たとえば、複数の計算層（視覚皮質の視覚的知覚プロセスと同様）によって提供される構成性から、意識的なタスク解決のための事前にインスピレーションを与え続けています。

上記の問題の重要性は、Christos Papadimitriou（https://ccneuro.org/2019/proceedings/0000998.pdfによる2019年の論文で強調されています。これは、脳のコア計算プリミティブが生物学者の実験的に検証された計算方法に根ざしているにもかかわらず、脳の単なる別の計算モデルとしてすぐに見られます。今のところアイデアを脇に置いて、自然知能の実践から学ぶことができるテクニックはありますか？

以下に概説したメカニズムを、ハエ（一般的に昆虫嗅覚系のハードウェアと機能を表す）がどのように1つまたは2つのサンプルで臭気を認識することを学ぶことができるかの例として考えてみましょう。この種の学習を「サンプル効率」と呼ぶことは、「ステロイドの学習」がより適切かもしれません。

3.ハエはどのようにして匂いを認識することを学びますか？

臭気を感知する約50のニューロンがあり、これらのニューロンは2,000ニューロンにランダムに投影され、ランダムな二部グラフを形成します。ベクターの用語では、50次元ベクトルによってキャプチャされる臭気入力は、2000次元ベクトルにランダムに投影され、抑制性ニューロンはそれを約10％の非ゼロ値を持つスパースベクトルに強制します。この2000次元のスパースベクトルは、特定の臭気のフライの記憶として機能します。

この写真は、クリストス・パピディミトリウのスピーチ（https://youtu.be/_sogiwyjroa）から撮影されています。上の画像は、ハエが臭気を認識する方法のモデルを示しています。彼らは、彼らが一度か二度だけにさらされ、学んだ以上に一般化することができ、約50の異なる臭気センサーしか持っていない（私たちは約500、マウスには約1,500を持っている）を覚えています。

ランダム投影とそれに続く上限（ハードウェアに実装）は、人間も使用する脳の計算の非常に基本的な機能的原始的であるように見えます（クリストスの脳モデルは、この基本的な計算原始の上にいくつかの単純なアルゴリズム操作の構築に主に基づいています）。

ランダム投影と上限は類似性を保持します（適切なハイパーパラメーターの選択の下）。臭気間の類似性は、記憶表現（シナプス重み）でキャプチャされます。メモリリコールは、学習された重みに関連する活性化を呼び起こします。ハエには約50種類の嗅覚センサーがあります（約500個、マウスには1,500個があります）。異なる臭気を類似性をキャプチャする分散表現にマッピングする能力は、ショウジョウバエの生存にとって重要です。

基本的に、この単純な生物学的ネットワークでは、非常に高いサンプル効率（1つまたは2つの試行で臭気を学ぶ）と分散排出学習（既存の臭気に新しい臭気をマッピングする）を実現できます。

Christos Papidimitriouの講演（https://youtu.be/_sogiwyjroa）のイラストは、ランダム投影とキャップが類似性を維持する方法を示しています。自然は最高のスパース性を見つけているようです。つまり、意味の類似性をキャプチャするのに十分な数のニューロンを見つけながら、活性ニューロンの数を制限して異なる臭気を分離します。

ハエ臭気システムの設計の重要な側面は、情報処理のすべての段階で実施される表現のスパースです。これをDLモデルと比較すると、DLモデルの各入力は、明るさを変えるアクティブなクリスマスツリーのようにモデル全体を照らすことがわかります。

おそらく、常に（ランダム投影や上限などの運用プリミティブと同様に）、重量の更新をいくつかのパラメーターに制限するために、常に実行されます。同様に、「一緒に励起されるセルをリンクする必要がある」という単純な重量アップデート（学習）ルールには、固有のメモリ効率があります。これは、ランダム投影と上限と組み合わせて使用すると、時間の経過とともに一般化を増加させるのに役立ちます。

DLモデルでの学習は、確率勾配降下とバックパスに依存しています。これは、これまでのDLでの学習の基礎です。おそらく、DLモデルの学習効率を根本的に改善し、最終的に自己学習学習を超えるDL 2.0目標を達成するでしょう。

第四に、最後の思考

将来的には、人間レベルに近いまたはそれを超える人工知能を達成できる新しい学習方法が可能です。この新しいアプローチが最終的に出現すると仮定すると、新しいアプローチが、分散表現、正しいセマンティック空間で相関（DL 1.0）と因果関係（DL 2.0ターゲット）をキャプチャするなど、深い学習のコアアイデアの一部を吸収する可能性があります。

<<: CAPとPaxosコンセンサスアルゴリズムについての簡単な説明

>>: AIが疫病と戦う：百度がマスク顔検出・分類モデルをオープンソース化