ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」と呼び、世界モデルという言葉が再び登場したが、世界モデルを紹介する記事はほとんどなかった。ここでは、世界モデルとは何かを確認し、Sora が世界シミュレーターであるかどうかについて説明します。

世界モデルとは何ですか?

AIの分野で「世界」や「環境」という言葉が使われる場合、通常は「エージェント」と区別するために使われます。インテリジェントエージェントを最も研究している分野は、強化学習とロボット工学です。したがって、世界モデルと世界モデリングは、ロボット工学の分野の論文に最初に、そして最も頻繁に登場することがわかります。現在、「世界モデル」という言葉が最も大きな影響力を持っているのは、ユルゲンが 2018 年に arxiv に投稿した「世界モデル」という記事かもしれません。この記事は最終的に、「Recurrent World Models Facilitate Policy Evolution」というタイトルで NeurIPS'18 に掲載されました。

この論文では、ワールドモデルが何であるかを定義していませんが、認知科学における人間の脳のメンタルモデルとの類似性を引き出し、1971 年の論文を引用しています。

メンタルモデルは人間の脳が周囲の世界を映し出す鏡像である

Wikipedia で紹介されているメンタルモデルは、それが認知、推論、意思決定のプロセスに関与している可能性があることを明確に指摘しています。メンタルモデルには、主に「メンタル表現」と「メンタルシミュレーション」という 2 つの部分が含まれます。

外部現実の内部表現であり、主要な役割を果たすと仮定されている。  認知、推論、意思決定。この用語は 1943 年にケネス・クレイクによって造られ、脳は出来事を予測するために使用する現実の「小規模モデル」を構築すると提唱されました。

今のところ、まだ少し混乱しています。論文の構造図では、世界モデルが何であるかが明確に説明されています。

図の垂直方向の V->z は観測値の低次元表現で、VAE によって実装されています。水平方向の M->h->M->h は、次の瞬間に予測されるシーケンスの表現で、RNN によって実装されています。これら 2 つの部分を合わせて世界モデルといいます。

つまり、ワールド モデルには主に状態表現と遷移モデルが含まれており、これらは精神的表現と精神的シミュレーションにも対応しています。

上の図を見ると、これはすべてのシーケンス予測のための世界モデルではないのかと疑問に思うかもしれません。実は、強化学習に詳しい学生なら、この図の構造が間違っている(不完全である)ことが一目でわかります。実際の構造は下の図のようになります。RNNの入力はzだけでなく、アクションアクションでもあります。これは通常のシーケンス予測ではありません(アクションを追加すると大きく異なりますか?はい、アクションを追加するとデータ分布が自由に変更できるため、大きな課題が生じます)。

Jurgen によるこの論文は強化学習の分野に属します。さて、強化学習にはモデルベースのRLがたくさんあるのではないでしょうか?モデルと世界モデルの違いは何でしょうか?答えはノーです。同じことです。ユルゲンは最初に一節を述べた

基本的な意味は、モデルベースの強化学習の作業がどれだけあっても、私は RNN の先駆者だということです。モデルとして RNN を使用することを発明したのは私であり、それをやりたいだけなのです。

Jurgen 氏の以前の記事では、モデルベースの RL についても詳しく説明しました。モデルは学習しましたが、そのモデルで RL を完全にトレーニングしたわけではありません。

RL がモデル内で完全にトレーニングされない理由は、実際にはモデルベース RL のモデルに何らかの違いがあるためではなく、むしろモデルベース RL の方向性に対する長年の不満、つまりモデルの精度が十分でなく、モデル内で完全にトレーニングされた RL 効果が非常に低いためです。この問題は近年まで解決されていませんでした。

賢明なサットンは、モデルの不正確さの問題をずっと以前に認識していました。 1990 年に、Dyna フレームワークを提案した論文「Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming」(ワークショップから変遷した最初の会議である ICML で発表) では、このモデルをアクション モデルと呼び、アクション実行の結果の予測を強調しました。 RL は、不正確なモデルが原因で戦略が適切に学習されないことを防ぐために、モデルから学習しながら (行 5)、実際のデータから学習します。

ご覧のとおり、世界モデルは意思決定にとって非常に重要です。正確な世界モデルを入手できれば、世界モデル内で試行錯誤することで、現実に最適な決定を見つけることができます。

これが世界モデルの中核的な役割である。反事実的推論 つまり、データでは確認されていない決定であっても、その決定の結果を世界モデルで推測することができます。

因果推論を理解している学生は、反事実的推論という用語に馴染みがあるでしょう。チューリング賞受賞者のジュディア・パールによる人気科学書「The Book of Why」では、因果関係の階段が描かれています。最下層は「関連付け」で、これは今日のほとんどの予測モデルが行っていることです。中間層は「介入」で、強化学習における探索は典型的な介入です。最上層は反事実で、これは想像を通じて「もし~だったら」という質問に答えます。ジュデアが反事実的推論のために描いた図は、科学者が心の中で想像するものであり、ユルゲンが論文で使用した図に似ています。

左: ユルゲンの論文における世界モデルの概略図。右: ユダヤ書の因果律。

ここで結論づけられるのは、AI 研究者の世界モデルの追求は、データを超えて反事実的推論を行い、「もしも」の質問に答えようとする試みであるということです。これは人間が本来持っている能力ですが、現在の AI はまだそれが苦手です。ブレークスルーが達成されれば、AI の意思決定能力が大幅に強化され、完全自動運転などのシナリオへの応用が可能になります。

ソラは世界シミュレーターですか?

シミュレーターという言葉はエンジニアリング分野でより頻繁に登場しますが、その機能は世界モデルと同じであり、ユーザーは現実世界では実装が難しい高コストで高リスクの試行錯誤を行うことができます。 OpenAI は意味を変えずにフレーズを言い換えたいようです。

Sora によって生成されたビデオは、漠然としたプロンプトによってのみガイドされ、正確に制御することは困難です。したがって、これはビデオ ツールに近いものであり、「もしも」の質問に正確に答えるための反事実的推論のツールとして使用することはできません。

デモ ビデオがトレーニング データとどの程度異なるかが明確ではないため、Sora の生成能力がどれほど強力であるかを評価することさえ困難です。

さらに残念なのは、これらのデモではソラが物理法則を正確に学習していないことが示されていることです。 Sora によって生成されたビデオは物理法則に準拠していないと指摘する人もいます [OpenAI が Wensheng ビデオ モデル Sora をリリース。AI は物理世界の動きを理解できます。これは世界モデルですか?それはどういう意味ですか? ]

OpenAI は、CG 生成データも含め、十分なトレーニング データに基づいてこれらのデモをリリースしたと思います。しかし、それでも、いくつかの変数を持つ方程式で記述できる物理法則はまだ習得されていません。 OpenAI は、Sora が物理世界のシミュレーターへの道筋を示していると考えていますが、単にデータを蓄積するだけでは、より高度なインテリジェント テクノロジーへの道筋にはならないようです。

<<:  視覚慣性走行距離計のIMU事前統合モデルについてお話しましょう

>>:  人工知能が不動産業界にもたらす変化

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

PHPソートアルゴリズムの完全実装

PHP を学習しているときに、PHP のソート問題に遭遇することがあります。ここでは、PHP のソー...

世界を理解する、最新のレビューは自動運転の新しい時代を開く

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

この記事は、著者が長年にわたり蓄積し収集してきた知識とスキルのマップです。編集者は、これを周囲の技術...

インタープリタパターンを使用して、要素のXPathパスを取得するためのアルゴリズムを実装します。

[[432233]]文章1. 通訳モード言語に対して、その文法表現(言語のルールを定義するために使...

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: ...

...

AIの将来はどうなるのでしょうか?

人間のような知能を実現するという永遠の夢を超えて、AI の将来は消費者市場と商業市場の両方で極めて重...

...

...

...

Alibaba DAMO Academyは、勾配を直接ターゲットとし、既存のオプティマイザーを1行のコードで置き換えることができる新しい最適化手法を提案しています。

最適化テクニックはたくさんあります!たとえば、バッチ正規化、重み標準化などです。しかし、既存の最適化...

...