メタ「世界モデル」が疑問視される：それは 10 年前に存在していた！ルカン：重要なのは構築とトレーニングです

2月24日、Metaは「Spring Festival Gala」で、チーフサイエンティストのYann LeCunが概説した人間レベルのAI構築に関する新たなビジョンを紹介した。ルカン氏は、世界がどのように機能するかの内部モデルである「世界モデル」を学習するAIの能力が鍵となるかもしれないと述べた。しかし、記事が出るとすぐに、業界の多くの人から疑問の声が上がりました。これは、昔からあったことではないでしょうか？

1960年代に始まったのですか?

トロント大学のダン・ロイ准教授は、「ジョシュ・テネンバウムが世界モデルについて言及していたように記憶している。もちろん、間違っているかもしれない」と指摘した。

カーネギーメロン大学のコンピューターサイエンスの教授であり、かつてアップルの人工知能研究のディレクターを務めたラス・サラクディノフ氏は、即座にこう答えた。「10年前に私が博士研究員として研究をしていたとき、ジョシュ・テネンバウム氏や他の多くの人々がすでに世界モデルに取り組んでいました。ですから、今日フェイスブックがAIベースの世界モデルを説明するつもりだと言ったとき、私はとても面白いと思いました。」

ネットユーザーの中には、世界モデルの紹介を含む、ユルゲン・シュミットフーバーが1990年に発表した論文を持ち出す者もいた。

論文アドレス: https://mediatum.ub.tum.de/doc/814960/file.pdf もう一人の熱心なネットユーザーが、2018年にNIPSで世界モデルについて発表した論文を以下に添付した。

論文へのリンク。

論文アドレス: https://arxiv.org/abs/1809.01999 プロジェクトアドレス: https://worldmodels.github.io/ もちろん、ネットユーザーの中には「成功する可能性は非常に低い」とさえ言う人もいました。

最前線に押し出されたルカン氏は、個人的にこう発言せざるを得なかった。「これはFacebookとは何の関係もありません。私が提案したものであり、Metaであるべきです。」同氏は、「確かに、1960年代のサイバネティクス以来、何十年もの間、多くの人が世界モデルについて語ってきた。しかし、この概念を提案することが鍵ではない。鍵となるのは、世界モデルをいかに構築し、訓練するかだ」と語った。

つまり、世界モデルに階層的表現を学習させ、階層的計画を実現する方法です。ここでの革新性は、Joint Embedded Prediction Architecture (JEPA) を使用して表現空間で予測を行うことだと思います。

JEPA には以下の特徴があります。

非生成的 - 出力は暗号化され、詳細は省略されます。
非確率的 - エネルギーベースで、正規化できません。
非造影トレーニング（VICRを使用）

最初の特性と 2 番目の特性は、ジョシュのベイズの定理に違反する可能性が高いと思います。

しかし、一部のネットユーザーはルカン氏の意見に賛同している。彼は、「確かに、トレーニングは問題です。元の仕事を辞めて世界モデルに取り組む人は、物理学者、制御理論の専門家、人工知能の観点から考えるかもしれません。この場合、これらの視点が何かを行うのに役立つことは困難です...マシンを構築し、特定の分野の世界モデルをいくつか学習したとしても、驚異的なソフトウェアを作成することは依然として困難です。」と述べました。

「世界モデル」とは何ですか?

人間は限られた感覚で知覚できるものに基づいて世界のモデルを構築します。この時点から、人間が行うすべての決定と行動は、この内部モデルに基づいて行われます。このモデルは、単に未来を一般的に予測するだけでなく、私たちの現在の動きや行動に基づいて将来の感覚データに関する予測も行います。人間は危険に直面したとき、この予測モデルに基づいて本能的に行動し、意識的に行動計画を立てることなく、迅速な反射行動をとることができます。

人間が見ているものは、脳の未来予測に基づいています。LeCun 氏は次のように指摘しています。「人間は、タスクとは無関係で監督されない方法で、観察を通じて世界がどのように機能するかについての背景知識を学習します。この蓄積された知識が、よく常識と呼ばれるものの基礎を形成すると考えられます。」常識とは、どのような行動が可能か、どのような行動が合理的か、どのような行動が不可能かをインテリジェントエージェントに指示できる世界モデルの集合体と見なすことができます。これにより、人間は未知の状況でも効果的に計画を立てることができます。たとえば、10代のドライバーはこれまで雪道での運転をしたことがないかもしれませんが、雪道は滑りやすいだろうし、あまりに激しく運転すると制御を失ってスリップしてしまうだろうと予想します。常識的な知識により、知能の高い動物は将来の出来事の結果を予測できるだけでなく、時間や空間の欠けている情報を補うこともできます。運転手は、近くで金属音が聞こえると、たとえ事故現場を見ていなかったとしても、自動車事故が発生したことをすぐに知ることができます。初めて左側を運転する人がハンドルの握り方を再度学習する必要がないのと同じように、物理法則は変化せず、これが「世界モデル」の一例です。

初期の作品

研究者たちは、1990 年という早い時期から、完全に独力で世界を表現することを学習できるインテリジェントエージェントの構築を試み始めました。 Schmidhuber のモデルでは、エージェントは世界から報酬 R と入力 IN を受け取ることができるとされています。入力がネットワークによって処理された後、モデルはそれぞれ世界と将来の報酬について予測を行います（PREDIN、PREDR）。最後に、アクションは OUT を通じて出力されます。つまり、エージェントは世界モデルを使用して将来の報酬と入力を予測します。

シュミットフーバーのモデルは、帰納的推論、つまり知能の一部とみなされることが多い少数の例からの学習の鍵となる神経表現を圧縮するという考え方に基づいています。しかし、シュミットフーバーのこのアプローチには、知性と意識を分析する方法の理論が欠けている。 2018年の論文で、シュミットフーバー氏は再び人間の認知システムにヒントを得たシンプルなモデルを提案した。このモデルでは、エージェントは視覚的な感覚コンポーネントを持ち、見たものを小さな表現コードに圧縮します。履歴情報に基づいて将来のコードについて予測するメモリコンポーネントもあります。最後に、視覚コンポーネントと記憶コンポーネントによって作成された表現のみに基づいて、実行するアクションを決定する意思決定コンポーネントがあります。

エージェントは、視覚 (V)、記憶 (M)、コントローラー (C) の 3 つのコンポーネントで構成されています。この研究で、シュミットフーバーはまず、大規模なニューラルネットワークをトレーニングして、エージェントの世界モデルを教師なしで学習させ、次に、この世界モデルを使用してタスクを実行することを学習した小規模なコントローラーモデルをトレーニングしました。その中で、コントローラは、大規模な世界モデルの能力と表現力を犠牲にすることなく、トレーニングアルゴリズムが小さな検索空間でのクレジット割り当て問題に集中できるようにします。シュミットフーバー氏は、世界モデルのレンズを通してトレーニングした後、エージェントがタスクを実行するための非常にコンパクトなポリシーを学習できることを実証しました。

自律型インテリジェントアーキテクチャ

LeCun は「世界モデル」において、6 つの独立したモジュールで構成されるアーキテクチャを提案しました。

コンフィギュレータモジュールは、タスクの割り当てとパラメータの調整を制御する役割を担います。

認識モジュールは、センサーからの信号を受信して、世界の現在の状態を推定する役割を担います。

世界モデルモジュールには2つの機能があります: (1) 知覚モジュールによって提供されない情報を補完すること、(2) 合理的な将来の状態を予測すること。

コストモジュールは、エージェントの不適合度の計算と予測を担当します。これは、(1) エージェントへのダメージ、ハードコードされた動作の違反など、「不快感」を直接計算する固有コスト、(2) 固有コストの将来の値を予測する評価の 2 つの部分で構成されています。

アクターモジュールは、アクションシーケンスの提案を提供する役割を担います。

短期記憶モジュールは、現在の世界の状態と予測される世界の状態、およびそれに関連するコストを追跡する役割を担います。

自己監督トレーニング

自律型インテリジェンスアーキテクチャの中核となるのは、予測世界モデルです。これを構築する上での主な課題は、複数の可能な予測をどのように提示するかということです。現実の世界は完全に予測できるものではありません。特定の状況が進展する可能性のある方法は複数あり、状況の詳細の多くは目の前のタスクとは無関係です。人間の運転手は、運転中に周囲の車がどう動くかを予測する必要があるかもしれませんが、道路近くの木の葉の個々の位置を詳しく予測する必要はありません。世界モデルはどのようにして、重要な詳細を保持し、無関係な詳細を無視し、抽象表現の空間で予測を行うことができる現実世界の抽象表現を学習できるのでしょうか? ソリューションの重要な要素は、Joint Embedded Predictable Architecture (JEPA) です。 JEPA は、2 つの入力データ x と y 間の依存関係をキャプチャできます。たとえば、x はビデオのセグメントであり、y はビデオの次のセグメントである可能性があります。入力データ x と y はトレーニング可能なエンコーダーに送られ、それらの抽象表現、つまり sx と sy が抽出されます。 JEPAは予測の不確実性を2つの方法で処理します: (1)エンコーダーは予測が難しいyに関する情報を破棄する可能性があり、(2)潜在変数zが1つの可能性セットで変化すると、別の可能性セットの予測結果も変化します。それで、JEPAはどのようにトレーニングするのでしょうか? 最近まで、唯一の方法は対比法を使用することでした。つまり、x と y に適合する例、x に適合するが y とは適合しない例、x とは適合しないが y とは適合する例を十分に提供することでした。ただし、抽象表現が高次元に達すると、このアプローチは非現実的になります。過去 2 年間で、正則化法という別のトレーニング戦略が登場しました。 JEPA に適用する場合、このアプローチでは次の 4 つの基準を使用します。

xの表現がxに関する最大限の情報を提供するようにする
yの表現がyに関する最大限の情報を提供するようにする
xについての表現からyについての表現の予測を最大化する
予測子が予測の不確実性を表すために潜在変数からの情報をできるだけ少なく使用するようにします。

これらの基準は、VICReg (「分散、不変性、共分散正規化」の略) を通じて微分可能なコスト関数に変換できます。 x と y によって表される情報内容は、それらのコンポーネントの分散をしきい値以上に保ち、これらのコンポーネントを可能な限り互いに独立させることによって最大化されます。同時に、この方法では、潜在変数の情報量を離散的、低次元、スパース、またはノイズの多いものにすることで最小限に抑えながら、y の表現を x の表現から予測可能にしようとします。

JEPA の優れた点は、無関係な詳細を排除した入力情報の抽象的な表現を自然に生成し、それに基づいて予測を実行できることです。これにより、JEPA を積み重ねて、より長期的な予測を実行できる高レベルの抽象表現を学習できるようになります。たとえば、あるシーンを「シェフがクレープを作っている」という抽象度の高いレベルで表現することができます。つまり、人間の知能は、シェフが小麦粉、牛乳、卵を持ってきて、材料を混ぜ、生地をフライパンに入れて、生地を揚げ、パンケーキをひっくり返し、これを繰り返すことを予測できるのです。低レベルでは、人間の知能は、スプーンで生地をすくう、フライパンに注ぐ、フライパンの表面に生地を広げるなど、生地をすくう動作を予測できます。このレベルの塗布は、シェフの手の正確な動きの軌跡にまでミリ秒単位で継続されます。低レベルでは、手の軌跡の「世界モデル」は短期的にしか正確な予測を行うことができません。しかし、抽象度を高くすると、長期的な予測が可能になります。

JEPA の複数のレイヤーを使用して、複数の抽象化レベルと複数の時間スケールで予測を実行できます。トレーニングへの主なアプローチは受動的な観察であり、二次的なアプローチは環境との相互作用です。赤ちゃんが最初の数か月間、主に観察を通じて世界の仕組みを学ぶのと同じです。彼女は、世界は三次元であり、ある物体は他の物体の前に現れること、そして物体が隠れていてもそれは存在するということを学びました。最終的に、生後 9 か月頃になると、赤ちゃんは、支えのない物体は重力によって落ちるといった直感的な物理学を学びます。多層構造の JEPA は、ビデオの視聴や環境との相互作用など、同様の方法を通じて世界の仕組みを学習することが期待されています。動画内で何が起こるかを予測するように自己トレーニングすることで、世界の階層的な表現を生成します。現実世界で行動を起こし、その結果を観察することで、「世界モデル」は行動の結果を予測することを学習し、推論と計画ができるようになります。

LeCun 氏の見解では、機械が世界モデルを学習する主な方法である観察を通じて、現実世界の最も基本的な法則を機械に学習させるべきである。今日の人工知能にとって最も重要な課題の 1 つは、自己教師型の方法で世界モデルを学習し、それらのモデルを予測、推論、計画に使用できる学習パラダイムとアーキテクチャを設計することです。おそらくこの概念は想像されているほど「新しい」ものではないが、実際に適用されるまでにはまだまだ長い道のりがあるかもしれない。

<<: 省エネ1000倍！人間の脳のようなニューラルチップはAIモデルの実行時に大幅な電力節約が可能

>>: 今年の機械学習研究で最もホットな分野は何ですか?幾何学的ディープラーニングの最大の勝者、Redditは混乱に陥っている