ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開!最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?

ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開!最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?

LeCun 氏はどのような思考を経て、世界モデルが AI ビッグモデルの将来にとって最も理想的な道であるという結論に達したのでしょうか。

幸運なことに、昨年のサマースクールで統計物理学と機械学習に関する彼の講演を聞いた学生のアニア・ダウィドさんが、彼のアイデアを注意深く整理して出版しました。

ルカン氏も彼女の作品を賞賛した。

このノートでは、現在の機械学習手法の限界について説明し、LeCun が 2022 年の論文「A Path Towards Autonomous Machine Intelligence」で提案した自律型 AI に必要な中核概念と、設計の背後にある主要なアイデアを紹介します。

論文アドレス: https://arxiv.org/abs/2306.02572

人間のような知能の可能性

AI が人間のようなレベルに達し、新たな技術革新をもたらすまでは、現在の自動化システムには依然として大きな限界があります。

最良のシナリオでは、レベル 5 の自動運転、家庭用ロボット、仮想アシスタントが実現し、これらは世界の信頼できるモデルを学習し、複雑な一連のアクションを推論して計画します。

これらのノートでは、Ania Dawid が、LeCun が提案する将来の自律型インテリジェンス アーキテクチャの背後にある主要なアイデアを要約し、機能ベースの潜在変数モデルを紹介し、それらの長所を LeCun が構築を提案するモジュール、階層型共同埋め込み予測アーキテクチャ (H-JEPA) に組み合わせています。

機械学習手法は過去 10 年間で爆発的に普及し、囲碁、チェス、将棋などの戦略ゲームでは ML モデルが専門家レベルのパフォーマンスを発揮しています。

その代わりに、ディープラーニング モデルを作成するには膨大なデータセットでのトレーニングが必要となり、計算コストが非常に高くなります。

対照的に、人間は非常に効率的に学習します。タスクを完了する方法を素早く直感的に見つけることができます。幼児でも、物理的な世界を直感的に素早く理解することができます。

AI モデルに人間のような潜在能力を持たせるにはどうすればよいでしょうか?これらの講義ノートでは、LeCun は学生とともに自律知能の概念を探求しています。

彼らは、最初に多くの解決策を試すことなく、知識を転送し、新しい状況に自動的に適応することで、一般的なタスクを適切に実行する完全に自律的な AI を実現したいと考えています。

自律型機械知能

機械学習の現在の限界

これまでのところ、機械学習システムは依然として、大量のラベル付きサンプルを必要とする SL と、大量の実験を必要とする RL に大きく依存していますが、これは現状では非現実的です。現実世界では、あらゆる行動には時間がかかり、お金がかかります。

対照的に、人間や動物は、世界のモデルを構築するために、主に環境の積極的な観察に依存しています。

乳児はほぼ完全に観察を通じて学習し、その学習プロセスは SSL に最も似ており、SL (親とのやり取り) や RL (練習を通じてさまざまな説明を試すこと) は少しだけあります。

現実には、人間はすべての結果を試すのではなく、ほとんどの結果を想像して推測します。

したがって、完全に自律的な人間のような知能を実現するには、主に 3 つの課題があります。

1. 世界の表現と予測モデルを学習し、AI システムが将来、特にその行動の結果を予測できるようにします。

SL と RL ではコストや試行回数が多すぎるため、最も可能性の高いアプローチは自己教師学習 (SSL) です。

2. DL と互換性のある方法で推論することを学びます。推論には、フィードフォワードの潜在意識の計算ではなく、意図を考慮する必要があります。最も可能性の高いアプローチは、エネルギー最小化のような推論と計画を設計することです。

3. 複雑なアクションシーケンスを計画する方法を学習するには、アクションプランの階層的な表現が必要です。

自律知能の新たなパラダイム

論文の中で、ルカン氏は自律型AIが持つべきモジュール構造を提案した。

この AI アーキテクチャは、相互接続された複数のモジュールで構成されています。

知覚モジュールは、世界の現在の状態を推定します。アクターはこれを使用して、世界モデルのガイダンスに従って最適な一連のアクションを提案し、アクターのアクションに基づいて世界の将来の可能性のある状態を予測または「想像」することができます。

これらの接続は、感知-計画-行動ループと呼ばれます。

世界モデルは、アクターのアクションの起こりうる結果を想像するときにコスト推論モジュールを使用します。

これは、痛み、幸福、空腹などの基本的なニーズをモデル化する内在的コストと、内在的コストの将来の価値を予測する批評家の 2 つのサブモジュールに分けられます。

短期記憶モジュールは世界の将来の状態を予測するために使用されます。 Configurator モジュールを使用すると、他のすべてのモジュールを構成することでタスク間の切り替えが可能になります。

a. SSL では、システムは入力の可視部分 (青) から入力の非表示部分 (オレンジ) を予測するようにトレーニングされます。 b. SSL は将来の AI システムで中核的な役割を果たします。SSL はケーキ、SL はアイシング、RL はチェリーです。

このモデルの「知覚-計画-行動ループ」は、最適制御におけるモデル予測制御 (MPC) に似ています。主な違いは、世界モデルは学習を通じて未来を予測することです。

また、コスト関数が既知であり、すべてのモジュールが微分可能であり、現実にはアクションを実行する必要がない点でも RL とは異なります。

自己教師学習と不確実性の表現

自己教師学習の主な目的は、上の図 a に示すように、入力を再構築するか、入力の欠落部分を予測することです。

入力できるのは画像、ビデオ、またはテキストです。トレーニング中、モデルはデータの階層的表現を学習するため、SSL の事前トレーニングは通常、SL または RL ステージに先行します。

また、MPC の予測 (フォワード) モデルの学習、制御ポリシーの学習、モデルベースの RL にも使用されます。

自己教師学習はテキストの場合には非常にうまく機能しますが、画像の場合、モデルが単一の予測を行うようにトレーニングされると、トレーニングによってすべての可能な予測の平均を予測するようになり、SSL はあいまいな予測を生成します。

ただし、意思決定を行うには、通常、世界に存在する可能性のあるすべての詳細を予測する必要はなく、タスクに関連する詳細のみを予測する必要があります。

エネルギーベースのモデル

確率モデルは正規化を必要とするため、高次元データのコンテキストでは扱いにくくなる可能性があります。

しかし、自動車を運転するという意思決定タスクでは、システムは正しい答えを選択するだけでよく、他の答えの確率は関係ありません。

したがって、モデルでは、エネルギー関数を通じて変数間の依存関係(下の図 a に示す決定 y と条件 x など)を表すことができます。

この場合、エネルギー誘導モデルでは、正解に最低のエネルギーを割り当て、不正解に大きなエネルギーを割り当てるだけで済みます。

図 b のエネルギー関数は、x と y の間の二次依存関係を表します。推論には、与えられた x に対する最小エネルギー値を見つけることが含まれます。

EBM の利点の 1 つは、マルチモーダル依存関係を表現できることです。理論的には、データ間の依存関係もさまざまな形式 (テキスト、ビジュアルなど) で記述できます。

エネルギーベースモデルと確率モデル

確率的設定では、トレーニングは、入力が与えられた場合に出力を観測する尤度が最大化される(または負の尤度が最小化される)ようなモデルパラメータ w を見つけることから構成されます。

最初の式は、データ ポイントが互いに独立しているという仮定に基づいていますが、2 番目の変換は、合計が乗算よりも簡単であるため実行されます。

確率モデルの場合、トレーニングは負の対数尤度 (クロスエントロピーなど) から生成された損失関数に制限されます。

確率設定を放棄するのは意外かもしれませんが、意思決定は、最も可能性の高いオプションを選択するのではなく、最も高いスコアを持つオプションを選択することと見なすことができることに注意してください。

たとえば、チェスをするとき、すべての可能性をチェックして次の動きを決めるのは明らかに非常に困難です。

代わりに、モンテカルロ木探索を使用して、最小のエネルギーを与える最短経路など、可能性木の一部を探索することができます。

したがって、確率的フレームワークを使用する必要はありません。

ただし、必要に応じて、エネルギーを正規化されていない負の対数確率として考慮することにより、EBM と確率モデルを接続できます。

これを行う最も一般的な方法は、ギブス・ボルツマン分布を使用することです。

隠れた変数エネルギーに基づくモデル

潜在変数 z のセットに依存する追加のエネルギー関数を使用することで、EBM の可能性を拡張できます。

これらの隠れた変数は潜在変数と呼ばれることが多く、x では直接利用できない y に関する情報を取得することを目的としています。

顔検出タスクでは、これらの潜在変数の例として、性別、ポーズ、髪の色などが挙げられます。

自動運転車の場合、潜在変数によって他のドライバーの可能性のある行動をパラメータ化できます。

そのため、それらは現実世界の不確実性に対処する方法を提供します。

構造化予測問題では、データには未知の構造があり、学習者は正確な予測を行うためにそれを解明する必要があると想定します。

最後に、潜在変数は、いわゆる構造化予測問題において非常に役立ちます。

a. 潜在変数推論 EBM には、潜在変数の最小化 (または限界化) も含まれます。 b. 潜在変数EBMの例では、緑の点yと楕円の間の距離を求める問題では、トレーニングポイント(青の点)から学習します。

エネルギーベースのモデルのトレーニング

これまで、EBM、特に潜在変数 EBM を推論に使用する方法について説明しました。

このセクションでは、EBM をトレーニングする方法について説明します。

トレーニング テクノロジーの選択は、EBM アーキテクチャの選択によって決まります。

下の図で 2 つの EBM アーキテクチャを比較してみましょう。

エネルギーモデル (EBM) のエネルギー崩壊が発生する可能性があります。 (a) 標準的な決定論的予測または回帰アーキテクチャ。エネルギー関数 Fw(x, y) は、ニューラル ネットワークの予測 x と y 自体の間の距離であり、エネルギー崩壊が発生しにくい。 (b) エネルギー崩壊の可能性があるEBMの例

最初のケースでは、エネルギー関数は、データ ポイント y とデータ ポイント x のエンコーダー (NN など) の出力間の距離にすぎません。

このアーキテクチャは回帰モデルとして考えることができ、トレーニング サンプルのエネルギーを単純に最小化することによってトレーニングされます。

ただし、他のアーキテクチャでは、このようなトレーニングによってエネルギー関数が崩壊する可能性があります。つまり、x が与えられると、エネルギーが「フラット」になり、y のすべての値に対して本質的に同じエネルギーが提供される場合があります。

例えば、図bの結合埋め込みアーキテクチャは、入力xとyを次のようにエンコードします。

目標は、そのような

そして

、x と y の表現が近くなるようにします。

エンコーダー出力間の距離を最小化するためだけにモデルをトレーニングすると、2 つのエンコーダーが入力を完全に無視し、同じ定数出力を生成する可能性があります。

比較法

エネルギーの崩壊を防ぐために、対照的なアプローチを取ることができます。

x と y は、エネルギーを削減したいトレーニング データ ポイントであり、下の図 b では青い点で表されます。

ˆy はコントラストポイントであり、下の図 b では緑色の点で表されており、そのエネルギーを増加させる必要があります。

エネルギーベースモデル(EBM)のトレーニング:(a)正しいトレーニング方法は、エネルギーの崩壊を防ぎながら、トレーニング例のエネルギーを最小限に抑えます。 (b) 対照的な方法は、トレーニングサンプルのエネルギーを最小化し、トレーニングセット外のサンプルのエネルギーを増加させます。 (c)正規化法は低エネルギー領域が占める空間の体積を制限する

最小化した場合

y の場合、トレーニング サンプルのエネルギーが、y と ˆy の間の距離に応じて異なるマージン m 以上、トレーニング サンプルおよび比較サンプルのエネルギーと等しくなるようにする必要があります。

適切な対照損失関数では、エネルギー崩壊を回避するためにゼロ以外のマージンを確保する必要があります。

対照損失関数は、次の式のヒンジ損失のように、特定のデータセットに対してペアで計算できます。

対照法の中心的な問題は対照点をどのように生成するかであり、最大尤度は対照法の特殊なケースとして解釈できます。

アーキテクチャと正規化の方法

私たちの主な課題は、低エネルギー空間の容積をどのように制限するかを選択することです。

1 つのアプローチは、低エネルギーで空間的に体積が制約されたアーキテクチャを構築することです。

別のアプローチは、低エネルギー空間のいくつかのメトリックを最小化する正規化項を追加することです。

最後に、スコア マッチングは、データ ポイントの周囲のエネルギー ランドスケープの勾配を最小化し、曲率を最大化する正規化手法です。

エネルギーモデルのいくつかの例

ホップフィールドネットワーク

ホップフィールド ネットワークは、1982 年にジョン ホップフィールドによって普及した完全接続再帰ネットワークです。図 a にそのスキームを示し、エネルギー関数は次のとおりです。

ただし、誤った最小値を生成する可能性があるため、実際にはあまり役に立ちません。

ボルツマンマシン

1983 年、ホップフィールド ネットワークの拡張であるボルツマン マシンが、ジェフリー ヒントンとテレンス セジュスキーによって提案されました。

下の図7(b)に示すように、隠れユニットと呼ばれるニューロンが導入されます。

そのエネルギー関数と自由エネルギーは次のとおりです。

この提案は、入力と出力が観測できないニューロンである隠れユニットの概念を初めて導入したため、機械学習コミュニティ全体にとって非常に重要でした。

これらの隠れユニットは、モデルの潜在変数として理解することもできます。

ノイズ除去オートエンコーダ

ノイズ除去オートエンコーダー (AE) は対照的な EBM です。

これは、破損した入力のクリーンなバージョンを回復するようにトレーニングされたオートエンコーダです。

そのアーキテクチャの概略図を下の図8(a)に示します。

たとえば、図 8(b) に示すように、ランダム ノイズを追加した後、データ ポイントが元の位置に戻るようにオートエンコーダをトレーニングできます。

元のデータ ポイントはオレンジ色のスパイラルからのものであり、その場所にノイズが追加されたことで破損しています。

次に、破損した緑のデータ ポイントが x として下の図 8(a) のノイズ除去オートエンコーダに入力され、そのクリーン バージョン y も提供されます。

再構築エラーは破損したポイントと元のポイント間の距離であり、最小化されると、ノイズ除去オートエンコーダによって出力される青いデータ ポイントはスパイラルに戻ります。

同じ問題では、ノイズ除去オートエンコーダーが処理できない問題もあることに注意してください。たとえば、オートエンコーダーは、スパイラルの 2 つのブランチから等距離にあるデータ ポイントを再構築することはできません。

この問題はデータの構造が崩れることによって発生しますが、実際のデータではこのようなケースはほとんど発生しません。

将来の自律システムのための構成要素

上記では、EBM が確率モデルの限界をどのように克服するか、また高次元データの場合は対照的手法ではなく正規化された手法を使用してトレーニングする必要があることを説明しました。

潜在変数モデルについて説明し、予測問題の構造化や不確実性の組み込みにおけるその使用法を説明した後、これらの利点を組み合わせて Joint Embedded Prediction Architecture (JEPA) と呼ばれるアーキテクチャを作成できます。

これはMetaが昨日発表したI-JEPAモデルの原理です。

ジョイント埋め込み予測アーキテクチャ

Joint Embedding Prediction Architecture (JEPA) は、図 9 に示すように、埋め込みモジュールと潜在変数を組み合わせた EBM です。

EBM として、JEPA は入力データ x と y 間の依存関係を学習しますが、学習された内部表現 Sx と Sy のレベルでそれらを比較します (si = Enc(i))。

表現 sx と sy を生成する 2 つのエンコーダーは異なる場合があり、特にアーキテクチャが異なり、パラメーターを共有しません。

このため、入力データはさまざまな形式(ビデオやオーディオなど)になる場合があります。

さらに、JEPA はマルチモーダル データを自然に処理します。

まず、x と y のエンコーダーは不変性プロパティを持つことができます。たとえば、さまざまな y を同じ Sy にマッピングできます。

JEPA をトレーニングする最終的な目標は、表現 Sx と Sy が互いに予測できるようにすることです。

セクション 4 で説明したように、EBM は対照法と正規化法を使用してトレーニングできますが、対照法は高次元の状況では非常に非効率的になることがよくあります。

したがって、JEPA は、予測誤差に加えて、下の図 10 に示すように、正則化項を含む損失関数を使用してトレーニングできます。

特に、情報エネルギーの崩壊を防ぐために、sx と sy が x と y に関する情報をできるだけ多く伝えるようにする必要があります。

そうしないと、トレーニング プロセスによってエンコーダーが一定になる可能性があります。

最後に、モデルが潜在変数の情報のみに依存しないように、潜在変数の情報内容を最小限に抑えるか制限する必要があります。

結論は

このノートでは、LeCun 氏の主な論点を要約し、上で述べた AI 開発の限界について説明します。

第3章では、実世界のデータ(動画やテキストなど)は通常高次元であるため、確率モデルよりもエネルギーベースモデル(EBM)の開発方向の方が有望な開発方向である可能性があることを説明します。

第 4 章では、EBM をトレーニングするための対照的手法と正則化手法を紹介し、高次元で対照的なサンプルを生成するには膨大なコストがかかることから、将来の EBM をトレーニングするには正則化手法の方が有望であると思われることを説明します。

第 5 章では、EBM の歴史と実際の使用例を紹介します。

最後に、セクション 6 では、人間の意思決定プロセスはさまざまな形式と様式のデータに基づいており、その構造は予測のためにデコードする必要があり、冗長な情報も含まれている可能性があるという事実に焦点を当てます。

このマルチモーダル障害は、LeCun が提案した Joint Embedding Prediction Architecture (JEPAs) と呼ばれる新しいアーキテクチャによって 3 次元で解決できます。

最終的に、私たちが直面する課題は、将来の自律型 AI がさまざまな時間スケールと抽象化レベルで世界の状態を予測できるようにすることです。このマルチレベル予測は、階層型ジョイント埋め込み予測アーキテクチャ (H-JEPA) を通じて実現できます。

正規化手法によってトレーニングされたこのアーキテクチャは、不確実性の下で世界を予測できるモデルを設計するための出発点となる可能性があり、将来の自律型 AI の開発における画期的な進歩となる可能性があります。

<<:  現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

>>:  スタンフォード大学の最新LLMランキングが発表されました!自社のアルパカが最下位、中国チームのウィザードLMオープンソースが1位、GPT-4とクロードが1位と2位となった。

推薦する

...

Transformer はコンピューター ビジョンの分野でどこまで進歩したのでしょうか?

[[400862]] Transformer モデルは、自然言語処理 (NLP) の分野における新...

...

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

現在、ロボットに関する研究は、主に特定の形状の物体を掴むためのロボットアームの設計に焦点を当てていま...

クラウド AI とエッジ AI: 2022 年にはどちらがより良い選択でしょうか?

エッジ AI とクラウド AI は、現在企業が使用している最も重要なテクノロジーの一部であることがわ...

...

...

...

日常生活における人工知能の12の例

以下の記事では、私たちの日常生活に登場する人工知能の12の例を確認することができます。人工知能 (A...

...

...