チューリング賞受賞者のヤン・ルカン氏：今後数十年間の AI 研究の最大の課題は「予測世界モデル」

ディープラーニングの大規模な応用の後、人々はさらなる技術的進歩をもたらすことができる真の汎用人工知能の出現を期待してきました。

この点に関して、Meta の主任科学者でチューリング賞受賞者のヤン・ルカン氏は最近、新たなアイデアを提案しました。同氏は、アルゴリズムが世界の内部動作法則を予測できるようにする「世界モデル」が鍵となると考えています。彼の考えは人々の注目を集めた。

今週のオンラインイベントで、LeCun 氏は 1 時間かけてセルフサービスの人工知能に関する新しいアイデアを紹介し、Joint Embedding Prediction Architecture (JEPA) が将来の開発方向であると提案しました。

AI研究は最近大きく進歩しましたが、人間のように考え、学習する機械を生み出すにはまだ遠い道のりです。ヤン・ルカン氏が言うように、車を運転したことのないティーンエイジャーでも20時間で運転を習得できるが、最高の自動運転システムには、何百万、何十億ものラベル付きデータ、または仮想環境での何百万もの強化学習実験が必要だ。それだけの努力を払っても、人間と同じ信頼性の高い運転能力を達成することはできません。

人間レベルに近いAIを作るにはどうすればいいのでしょうか？単純にデータを増やしてモデルを大きくするだけで解決できるのでしょうか?

Meta AI の最近の Inside the Lab イベントで、LeCun 氏は人間レベルの AI を構築するための代替ビジョンを概説しました。彼は、「世界モデル」（世界がどのように機能するかの内部モデル）を学習する能力が鍵となるかもしれないと示唆している。

オリジナル動画リンク: https://www.youtube.com/watch?v=DokLw1tILlw
PPT リンク: https://drive.google.com/file/d/1Txb9ykr03Lda-oTLXbnlQsEe46V8mGzi/view

ヤン・ルカンの見解は、金井らが提唱する意識的な情報生成の理論と非常に一致しています。知性は、世界（反事実を含む）の複雑な表現を生成する能力から生じるものですが、一部の学者はこれに対して否定的な態度を示しています。

カーネギーメロン大学教授で、かつてアップルのAI研究責任者を務めたラス・サラクディノフ氏は次のようにコメントしている。「ジョシュ・テネンバウム氏と他の多くの研究者が世界モデルの研究を始めたのは10年前、私が彼の研究室で博士研究員をしていた頃でした。それで、Facebook が世界モデルに基づいた AI の新しいビジョンに取り組んでいると言ったとき、私は少しおかしく聞こえたと思いました。

LeCun 氏のアプローチは汎用人工知能への道となるのでしょうか?数日前のMeta AIのブログと合わせて、LeCun氏の考えを見てみましょう。世界の仕組みをモデル化できるAI

人間や動物は、観察や小さな理解しにくいやりとりを通じて、タスクとは無関係に、監督なしに、世界の仕組みに関する多くの背景知識を学習できるようだとルカン氏は言う。この蓄積された知識が常識の基礎を形成すると考えられます。常識とは、何が起こる可能性があるか、何が起こる可能性が高いか、何が起こる可能性が低いかを教えてくれる世界のモデルの集合体と考えることができます。

これにより、人間は慣れない環境にいるときでも効果的に計画を立てることができます。例えば、記事の冒頭で述べたティーンエイジャーは、これまで雪道での運転をしたことがないかもしれませんが、雪道での運転は滑りやすいので、あまり激しく運転してはいけないことは知っています。

常識により、動物は将来の結果を予測できるだけでなく、時間や空間の欠けている情報を補うこともできます。運転手は近くで金属がぶつかる音を聞くと、たとえ事故に巻き込まれた車両が見えなくても、すぐに事故が起こったと分かります。

人間、動物、知的システムが世界のモデルを使用するという考えは、心理学や制御、ロボット工学などの工学分野にまで遡ります。 LeCun 氏は、今日の AI が直面している最も重要な課題の 1 つは、機械が自己教師型の方法で世界モデルを学習し、それらのモデルを予測、推論、計画に使用できるような学習パラダイムとアーキテクチャを設計することであると提唱しました。彼の概要には、認知科学、システム神経科学、最適制御、強化学習、および「従来の」AI などのさまざまな分野のアイデアが組み込まれており、それらを自己教師あり学習や共同埋め込みアーキテクチャなどの機械学習の新しい概念と組み合わせています。

自律知能システムアーキテクチャの提案

LeCun は 6 つの独立したモジュールで構成されるアーキテクチャを提案しました。各モジュールは、自身の入力に対する何らかの目的関数の勾配の推定値を簡単に計算し、その勾配情報を上流のモジュールに伝播できるという意味で微分可能であると想定されます。

上の図は、自律型インテリジェントシステムのアーキテクチャです。コンフィギュレータは他のモジュールから入力を取得します (これらの矢印は図では省略されています)。

コンフィギュレータモジュールは実行制御を担当します。実行するタスクが指定されると、これらのモジュールのパラメータを調整することで、現在のタスクの認識モジュール、ワールドモデル、コスト、およびアクターを事前に構成できます。

認識モジュールはセンサーから信号を受信し、世界の現在の状態を推定します。特定のタスクでは、認識された世界の状態のごく一部だけが関連性があり有用です。コンフィギュレータモジュールは、認識システムをアクティブ化し、認識から関連情報を抽出して、手元のタスクを完了します。

ワールドモデルは、アーキテクチャの中で最も複雑な部分を構成します。その役割は2つあります: (1)知覚によって提供されない世界の状態に関する不足している情報を推定すること、および (2)世界のありそうな将来の状態を予測することです。

世界モデルは、世界の自然な進化を予測したり、アクターモジュールによって提案された一連のアクションの結果として生じる世界の将来の状態を予測したりできます。ワールドモデルは、現在のタスクに関連する世界の部分のシミュレーターです。世界は不確実性に満ちているため、モデルは複数の可能性のある予測を表現できなければなりません。たとえば、交差点に近づいているドライバーは、交差点に近づいている別の車が一時停止標識で停止しなかった場合に備えて速度を落とすことがあります。

コストモジュールは、エージェントの不快感のレベルを予測する単一のスカラー出力を計算します。これは 2 つのサブモジュールで構成されています。固有コストはハードワイヤードで不変 (トレーニング不可) であり、直接的な不快感 (エージェントへのダメージ、ハードコードされた動作制約の違反など) を計算します。批評家は、固有コストの将来の値を予測するトレーニング可能なモジュールです。エージェントの最終的な目標は、長期的な固有コストを最小限に抑えることです。

「そこに根本的な行動の原動力と内発的動機がある」とルカン氏は言う。したがって、エネルギーの無駄がないなどの固有のコストと、現在のタスクの特定のコストも考慮されます。コストモジュールは微分可能であるため、コスト勾配は計画、推論、学習のための他のモジュールを通じて逆伝播できます。

アクターモジュールはアクションシーケンスの提案を計算します。「行為者は、従来の最適制御に似た方法で、推定される将来のコストを最小化し、最適なシーケンスの最初のアクションを出力する最適なアクションシーケンスを見つけることができます」とルカン氏は述べています。

短期記憶モジュールは、現在の世界状態と予測される世界状態、およびそれに関連するコストを追跡します。

世界モデルアーキテクチャと自己教師あり学習

このアーキテクチャの中核となるのは予測世界モデルです。これを構築する上での重要な課題は、複数の妥当な予測を表現できるようにすることです。現実の世界は完全に予測できるものではありません。特定の状況が展開する可能性のある方法は数多くあり、状況の詳細の多くは目の前のタスクとは無関係です。運転中は、道路近くの木々の葉の個々の詳細な位置を考えるのではなく、周囲の車の動きを予測する必要があるかもしれません。世界モデルは、重要な詳細を保持し、無関係な詳細を無視し、抽象表現の空間で予測を行うことができる世界の抽象表現を具体的にどのように学習すればよいのでしょうか。

ソリューションの重要な要素は、Joint Embedding Prediction Architecture (JEPA) です。 JEPA は、2 つの入力 x と y 間の依存関係をキャプチャします。たとえば、x はビデオのセグメントであり、y はビデオの次のセグメントである可能性があります。入力 x と y はトレーニング可能なエンコーダーに送られ、それらの抽象表現 s_x と s_y が抽出されます。 s_x から s_y を予測する予測モジュールをトレーニングします。予測子は潜在変数 z を使用して、s_y には存在するが s_x には存在しない情報を表すことができます。

JEPAは予測の不確実性を2つの方法で処理します: (1) エンコーダーは予測が難しいyに関する情報を破棄することを選択できます。(2) 潜在変数zが設定された範囲で変化すると、予測は一連の妥当な予測結果にわたって変化します。

それで、JEPAはどのようにトレーニングされるのでしょうか?以前は、これを実現する唯一の方法は、一致する x と y の例と、一致しない x と y の例を多数示すという対照的なアプローチを使用することでした。しかし、表現が高次元の場合、これはまったく非現実的です。過去 2 年間で、正則化法という別のトレーニング戦略が登場しました。 JEPA に適用する場合、このアプローチでは次の 4 つの基準を使用します。

xの表現がxに関する最も多くの情報を提供するようにする
yの表現がyに関する最も多くの情報を提供するようにする
xの表現からyの表現を最大限に予測できるようにする
予測子が予測の不確実性を表すために潜在変数からの情報をできるだけ少なく使用するようにします。

これらの基準は、さまざまな方法で微分可能なコスト関数に変換できます。 1 つのアプローチは、VICReg (分散-不分散-共分散正規化) メソッドです。 VICReg では、x と y の表現の情報量は、それらのコンポーネントの分散をしきい値以上に保ち、これらのコンポーネントを可能な限り独立させることによって最大化されます。同時に、モデルは x の表現から y の表現を予測できるようにしようとします。さらに、潜在変数の情報量の最小化は、潜在変数を離散的、低次元、スパース、またはノイズの多いものにすることで実現されます。

JEPA の優れた点は、無関係な詳細を排除して、入力の有益な抽象表現を自然に生成し、予測の実行に使用できることです。これにより、JEPA を積み重ねて、長期予測を実行できる、より抽象度の高い表現を学習できるようになります。

たとえば、あるシーンを大まかに説明すると、「シェフがクレープを作っている」ということになります。予想通り、シェフは小麦粉、牛乳、卵を持ってきて、材料を混ぜ、生地をフライパンに流し込み、生地を揚げ、クレープをひっくり返し、その工程を繰り返します。

もっと低いレベルでは、おたまを使って生地を注ぐという動作は、生地をすくってフライパンの周りに広げるという動作に分解できます。これらのプロセスは、シェフの手の1ミリ秒ごとの正確な軌跡にまでさらに細分化できます。この低レベルの手の軌道予測では、私たちの世界モデルは短い時間枠内でしか正確な予測を出すことができません。しかし、抽象度を高くすると、長期的な予測が可能になります。

階層型 JEPA を使用すると、複数の抽象化レベルと複数の時間スケールで予測を実行できます。階層化 JEPA のトレーニングは、主に受動的な観察を通じて行われ、対話の助けはほとんど受けません。

生後数か月間、赤ちゃんは主に観察を通じて世界の仕組みを学びます。彼女は、世界は三次元であり、ある物体は他の物体の前に存在し、物体は隠れていても存在していることを学びました。最終的に、生後 9 か月頃になると、赤ちゃんは、支えのない物体は重力によって落ちるといった直感的な物理学を学びます。

LeCun 氏と Meta AI は、Layered JEPA がビデオを視聴し、環境と対話することで、世界の仕組みを学習できることを期待しています。 JEPA は、ビデオで何が起こるかを予測するように自らをトレーニングすることで、世界を階層的に表現します。いくつかのアクションを実行し、その結果を観察することで、世界モデルはアクションの結果を予測することを学習し、推論と計画ができるようになります。

知覚-行動エピソード

階層型 JEPA を世界モデルとしてトレーニングすることにより、エージェントは複雑なアクションの階層的な計画を実行し、複雑なタスクを、エフェクタに対する低レベルのアクションに分解するまで、それほど複雑ではなく抽象度の低い一連のサブタスクに分解できるようになります。

下の図は典型的な知覚-行動のエピソードです。この図は、2 層の階層を持つ状況を示しています。

知覚モジュールは、世界の状態の階層的表現を抽出します（図のs1[0]=Enc1(x)およびs2[0]=Enc2(s[0])に対応）。次に、第 2 層の予測子が複数回適用され、第 2 層のアクターが提案する一連の抽象的なアクションに基づいて将来の状態を予測します。アクターは第2層のアクションのシーケンスを最適化して、総コスト（図のC(s2 [4])）を最小化する。

このプロセスは、最適制御におけるモデル予測制御に似ています。このプロセスを第 2 層の潜在変数の複数の描画に対して繰り返すと、異なる高レベルのシナリオが生成される可能性があります。結果として得られる高レベルのアクションは、実際のアクションを構成するものではありませんが、低レベルの状態シーケンスが満たす必要がある制約を定義します。

これもサブ目標となります。全体のプロセスは、低レベル予測子を実行し、前のレイヤーからの中間コストを最小限に抑えるように低レベルアクションシーケンスを最適化し、低レベル潜在変数の複数の描画に対してこのプロセスを繰り返して、より低いレベルで繰り返されます。このプロセスが完了すると、エージェントは最初の低レベルアクションをエフェクターに出力し、エピソード全体を繰り返すことができます。

このようなモデルを正常に構築できれば、すべてのモジュールが微分化可能になるため、アクションの最適化プロセス全体を勾配ベースの方法を使用して実行できます。

人間の知能に近いAI

ルカン氏のビジョンには、依然として困難な課題が数多くある。最も興味深く、かつ難しい課題の 1 つは、世界モデルのアーキテクチャとトレーニングプロセスの詳細をインスタンス化することです。ある程度、世界のモデルをトレーニングすることが、今後数十年で AI を実際に進歩させるための主な課題となるでしょう。

ただし、批評家を正確にトレーニングする方法、コンフィギュレータを構築してトレーニングする方法、短期記憶を使用して世界の状態を追跡し、履歴状態を保存する方法など、世界モデルアーキテクチャの多くの側面がまだ定義されていません。

人間と同じように効果的に学習し理解する機械を作ることは長期にわたる科学的取り組みであり、成功は保証されていません。しかし、基礎研究は機械の世界に対する理解を深め続け、人工知能の分野全体の発展を前進させるでしょう。

<<: ジェフ・ディーン: 「スパースモデル設計ガイド」を作成しましたので、ぜひご覧ください。

>>: 視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。