ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ソラの登場はAI界全体に熱狂を巻き起こしたが、ルカンは例外だった。

OpenAI による Sora 生成ビデオの継続的なリリースに直面して、LeCun 氏はそれらの間違いを見つけることに熱心です。

結局のところ、LeCun 氏がターゲットとしていたのは Sora ではなく、OpenAI が ChatGPT から Sora まで一貫して採用してきた自己回帰生成ルートでした。

LeCun 氏は、GPT シリーズの LLM モデルが依存する自己回帰学習パラダイムは世界に対する理解が非常に表面的であり、実際の「世界モデル」よりもはるかに劣っていると常に信じてきました。

そのため、LeCun 氏は「Sora は世界モデルである」という記述に遭遇したとき、少し不安を感じました。「プロンプトに基づいてリアルなビデオを生成するだけでは、モデルが物理世界を理解しているわけではありません。ビデオを生成するプロセスは、世界モデルに基づく因果予測とはまったく異なります。」

では、世界モデルはどのようにして視覚タスクに対して自己回帰モデルのパフォーマンスを達成できるのでしょうか?

最近、Lecun は「世界モデル」に関する新しい論文「視覚表現学習における世界モデルの学習と利用」を発表しましたが、これはまさにこの問題を説明しています。

論文タイトル: 視覚表現学習における世界モデルの学習と活用
論文リンク: https://arxiv.org/pdf/2403.00504.pdf

LeCun による以前の世界モデルの紹介から、JEPA (Joint Embedding Predictive Architecture) は、ピクセルを再構築する生成アーキテクチャ (変分オートエンコーダなど)、マスクオートエンコーダ、ノイズ除去オートエンコーダよりも優れた視覚入力表現を生成できることがわかっています。

2023年6月、MetaはLeCunの世界モデルコンセプトに基づいた最初のAIモデル「Image Joint Embedding Prediction Architecture (I-JEPA)」を発表しました。これは、ピクセル自体を比較するのではなく、画像の抽象的な表現を比較して、外部世界の内部モデルを作成することで学習することができます。今年、Soraがリリースされた翌日、MetaはAIビデオモデルV-JEPAをリリースしました。これは、信号の損傷または変換されたバージョンに基づいて信号の表現を予測し、機械が観察を通じて世界がどのように機能するかを理解できるようにします。

この最新の研究は、表現学習に世界モデルを使用する際のもう 1 つの重要な側面を明らかにしています。それは、世界モデルに与えられた能力が、学習された表現の抽象化レベルに直接影響するということです。

直感的に言えば、予測子がアイデンティティである場合、ネットワークは入力 y とその変換 x 間の共通点をエンコードすることだけを学習するため、高レベルの意味情報を取得します。一方、予測器の容量が大きいため、エンコーダの出力は入力に関するより多くの情報を保持することができ、変換の効果を効果的に反転させることができます。

これら 2 つの概念は、等変表現学習の中核をなすものです。変換を効果的に適用できる予測子は等変ですが、変換を効果的に適用できない予測子は不変です。研究者らは、変換に対して不変な世界モデルは線形評価でより優れたパフォーマンスを発揮するのに対し、等変な世界モデルはより優れた世界モデルの微調整に関連していることを発見しました。これにより、適応性の容易さと純粋なパフォーマンスの間にトレードオフが生じます。したがって、世界モデルを学習することによって表現を学習すると、表現プロパティを柔軟に制御できるようになり、表現学習にとって魅力的なフレームワークになります。

次に、具体的な研究内容を見てみましょう。

方法

イメージワールドモデル (IWM) は、I-JEPA に類似した JEPA のフレームワークを採用しています。このフレームワークにおける予測子は、世界モデルのインスタンス化です。潜在空間で変換を適用し、同等の表現を学習できる場合、世界モデルは有能であると主張します。研究者は、世界について有能なモデルを等変モデルと呼び、世界について有能でないモデルを不変モデルと呼びます。

JEPA を使用する魅力の 1 つは、対照的な方法を使用して等価表現を学習する方法では、明示的または暗黙的に表現の品質を向上させるために不変性損失に依存する必要があることが多いことです。 JEPA のアプローチでは、表現の意味的側面が潜在空間での修復を通じて学習されるため、この欠点は発生しません。潜在空間で作業することで、ネットワークは不要な情報や予測できない情報を削除することもできます。再構築方法の場合、再構築の品質は必ずしも表現の品質と相関しないため、JEPA スキームは魅力的です。

IWM をトレーニングするには、まず画像 I からソースビューとターゲットビュー (図 2 ではそれぞれ x と y) を生成します。

研究者らは、a_x→y を x から y への変換パラメータとして表します。これは、初期変換プロセスの逆です。これには、x と y の間のカラーディザリングの違いと、各破壊的強化が適用されたかどうかに関する情報が含まれます。

世界はp_ϕによってモデル化されます。次に、エンコーダf_θとその指数移動平均がそれぞれ使用されます。

ソースとターゲットを取得します。だから私たちは平和なのです。ソリューションの崩壊を回避するには、EMA ネットワークの使用が不可欠です。予測子をワールドモデルとして調整するには、マスクトークンの形式と a_x→y 形式でオブジェクトのジオメトリに関する情報が予測子に入力されます。研究者はこれらのマスクトークンを m_a と呼んでおり、これは内の位置に対応しています。

次に、予測子p_ϕは埋め込まれたソースパッチx_c、変換パラメータa_x→y、およびマスクトークンm_aを入力として受け取ります。その目標は、p_ϕ(z_x, a_x→y, m_a) =を z_y に一致させることです。損失。使用される損失関数は、予測とそのターゲット z_y 間の L2 距離の二乗です。

表現学習のための画像世界モデルの学習

前述したように、算術数値の表現を学習することと世界モデルを学習することは密接に関連した問題です。したがって、算術数学の文献から指標を借りて、訓練された世界モデルの品質を評価することができます。研究者が使用した主な指標は、平均相互排他的評価 (MRR) でした。

それを計算するため、研究者らは強化されたターゲット画像のセット（実際には 256 個）を生成しました。ターゲット画像を予測することを目的として、予測子を介してクリーンな画像の表現を入力します。次に、予測結果と拡張表現ライブラリ間の距離が計算され、そこから NN グラフ内のターゲット画像のランクが導出されます。複数の画像と変換の逆ランキングを平均化することで、MRR を取得でき、これにより世界モデルの品質を把握できます。 MRR が 1 に近い場合は、ワールドモデルが変換を適用できることを意味し、MRR が 0 に近い場合は、ワールドモデルが変換を適用できないことを意味します。

優れたパフォーマンスを発揮する IWM を構築するために、研究者は、予測子が変換 (または操作) に課す条件、変換の複雑さの制御、予測子の容量の制御という 3 つの重要な側面を分離しました。これらのリンクのいずれかが適切に処理されない場合、表現が不安定になります。

表 1 に示すように、条件付けを行わないと変換を適用できない世界モデルが生成されますが、シーケンス軸または機能軸のいずれかを使用して条件付けを行うと、適切な世界モデルが生成されます。研究者は、下流のパフォーマンスが向上するため、実際に機能調整を使用します。

表 2 に示すように、拡張が強力であるほど、強力な世界モデルを学習しやすくなります。この傾向は、より広範な機能強化パッケージ全体にわたって継続しています。

変換が複雑な場合、予測子はそれを適用するためにより多くのパワーを必要とします。つまり、パワーは画像世界のモデルを学習する上で重要な要素になります。上記の表 2 に示すように、ディーププレディクターは、より広範囲の拡張機能に基づいて強力な世界モデルを学習できることを意味し、これは IWM の成功の鍵でもあります。したがって、予測機能は強力な世界モデルの重要な要素となります。

MRR を計算したのと同じ方法で、予測された表現を変換された画像のライブラリと比較し、予測に最も近い画像を調べることができます。図 1 に示すように、IWM によって学習された世界モデルは、潜在空間で変換を正しく適用できます。ただし、グレースケールを正しく反転できないため、グレースケールを反転するといくつかのエラーが発生することがわかります。

次の視覚化は、IWM が画像変換のための強力な世界モデルを学習できるという事実を裏付けるのに役立ちます。

世界モデルを活用して下流のタスクを達成する

この論文では、ワールドモデルを使用して下流のタスクを完了する方法についても説明します。

画像で学習された世界モデルの制限は、それらが解決するタスクがほとんどの下流タスクと一致しないことです。

研究者らは、IWM はカラーディザリングを適用したり画像をカラー化したりすることが示されているが、これらはコンピュータービジョンアプリケーションを駆動するタスクではないと述べている。これは、次のトークンを予測することがそのようなモデルの主な用途の 1 つである LLM とはまったく対照的です。

そのため、研究者たちは、画像分類や画像セグメンテーションなどの識別タスクに焦点を当て、変換の適用を超えたタスクを達成するために視覚における世界モデルを活用する方法を研究してきました。

まず、識別タスクを解決するために予測子を微調整する必要があります。我々はHe et al. (2021)のアプローチに従い、微調整プロトコルとの比較に焦点を当てました。研究されたすべての方法は、ImageNet で事前トレーニングおよび評価されており、エンコーダーとして ViT-B/16 を使用しています。

表 3 は、予測タスクを定義するさまざまな方法と、それらがパフォーマンスに与える影響を示しています。

表 4 は、予測子とエンコーダの微調整と、予測子とエンコーダのエンドツーエンドの微調整を比較したものです。エンコーダには ViTB/16 が使用されています。

表 5 に示すように、すべてのプロトコルのパフォーマンスを集約すると、IWM を使用するとエンコーダーを固定した状態で最高のパフォーマンスが得られ、事前トレーニングのすべての部分を活用できるようになります。

表6は、ADE20k画像セグメンテーションタスクにおけるI-JEPAとIWMのパフォーマンスを示しています。

図 3 では、エンコーダの微調整と比較した予測子の微調整の効率を示しています。

表現学習の主な目標の 1 つは、さまざまなタスクに使用できる表現を取得することです。予測子がさまざまなタスク (カラー化、修復、色の変更) を解決するようにトレーニングされるのと同様に、各タスクにはタスクトークンと、タスク固有のヘッドおよび/または損失関数が存在します。次に、すべてのタスク損失がマージされ、予測子とタスク固有のヘッドが更新されます。ここでは、バッチがタスク間で均等に分割される単純なケースを検討しますが、他のサンプリング戦略によってパフォーマンスがさらに向上する可能性があることにも注目します。

要約すると、優れた世界モデルを学習したら、微調整を通じて下流のタスクに再利用できます。これにより、大幅に低いコストでエンコーダの微調整に匹敵するパフォーマンスを実現できます。また、複数のタスクを微調整することで効率性も高まり、このアプローチの汎用性がさらに高まります。

画像世界モデルは表現をより柔軟にする

表現学習における IWM の分析を完了するために、自己教師学習で一般的に使用される軽量評価プロトコルでのパフォーマンスを調査します。この論文では、線形検出と注意検出に焦点を当てています。

表 8 に示すように、IWM が不変世界モデルを学習すると、MoCov3 などの対照学習方法と同様のパフォーマンスを発揮し、線形検出では MIM や他の JEPA ベースの方法よりも大幅なパフォーマンスの向上を実現します。同様に、IWM が等変世界モデルを学習する場合、MAE などの MIM 方式と同様のパフォーマンスを発揮し、線形検出のパフォーマンスは低くなりますが、注意検出のパフォーマンスはより競争力があります。

これは、方法間の大きな違いは必ずしも表現の質にあるのではなく、抽象化のレベル、つまりそこから情報を抽出するのがどれだけ簡単かにあることを示唆しています。線形プロービングは評価が最も簡単なものの 1 つですが、注意プロービングはやや複雑で、微調整はより複雑なプロトコルです。

図 4 からわかるように、評価プロトコルの適合性と世界モデルの同等性の間には明確な関係があります。不変性が高いワールドモデルは線形検出で優れたパフォーマンスを発揮しますが、等価ワールドモデルは予測子の微調整など、より大きな評価ヘッドを使用する場合に優れたパフォーマンスを発揮する可能性があります。研究者らはまた、等変世界モデルによって生成されたより豊富な表現が、クロスドメイン OOD データセットでより優れたパフォーマンスを発揮することにも気付きました。

図 5 は、表現の抽象化のレベルに応じて手法を分類しています。対照的な学習方法は、単純なプロトコルで情報を簡単に抽出できる、抽象度の高い領域を占めます。ただし、表 5 に示すように、調整コストを無視すると、これらの方法のピークパフォーマンスは低くなります。対照的に、マスク画像モデリング (MIM) は、微調整などの複雑な評価では優れたパフォーマンスを発揮しますが、情報の取得が難しいため、線形検出ではパフォーマンスが低下します。世界モデルの等価性を変更することで、IWM は対照的な学習方法と MIM の間に独自の位置を見つけることができます (図 4 と表 8 を参照)。とは、 IWM スペクトルの両極端です。

このスペクトルは、自己教師あり学習 (SSL) の考え方、「予測可能なものを学習する」によって要約できます。弱い世界モデルで学習するということは、世界を正しくモデル化できないことを意味し、エンコーダーは予測できない情報を削除します。逆に、世界モデルが非常に強力であれば、どのような状況でも表現を予測する方法を見つけることができるため、表現はそれほど抽象的または意味的である必要はありません。つまり、世界モデルを学習することで、表現の抽象化レベルを制御する測定可能な方法が提供されるということです。

より技術的な詳細については、元の記事を参照してください。

<<: 0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

>>: GPT-4 の時代は終わったのでしょうか?世界中のネットユーザーがクロード3を試し衝撃を受けた