NTU Yu Yangによる徹底分析:「世界モデル」とは何か?

NTU Yu Yangによる徹底分析:「世界モデル」とは何か?

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」と呼び、世界モデルという言葉が再び目につきましたが、世界モデルを紹介する記事はほとんどありませんでした。

ここでは、世界モデルとは何かを確認し、Sora が世界シミュレーターであるかどうかについて説明します。

世界モデルとは何ですか?

AI の分野で「世界」や「環境」という言葉が使われる場合、それは通常、それをインテリジェントエージェントと区別するためです。

インテリジェントエージェントを最も研究している分野は、強化学習とロボット工学です。

したがって、世界モデルと世界モデリングは、ロボット工学の分野の論文に最初に、そして最も頻繁に登場することがわかります。

現在、「世界モデル」という用語は、Jurgen が 2018 年に arxiv に投稿した「世界モデル」という記事に最も大きな影響を与えている可能性があります。この記事は最終的に、「Recurrent World Models Facilitate Policy Evolution」というタイトルで NeurIPS'18 に掲載されました。

この論文では、ワールドモデルが何であるかを定義していませんが、認知科学における人間の脳のメンタルモデルとの類似性を引き出し、1971 年の論文を引用しています。

メンタルモデルは人間の脳が周囲の世界を映し出す鏡像である

Wikipedia で紹介されているメンタルモデルは、それが認知、推論、意思決定のプロセスに関与している可能性があることを明確に指摘しています。メンタルモデルには、主に「メンタル表現」と「メンタルシミュレーション」という 2 つの部分が含まれます。

外部現実の内部表現であり、認知、推論、意思決定に大きな役割を果たすと仮定されています。この用語は、1943 年にケネス クレイクによって造られ、脳は出来事を予測するために使用する現実の「小規模モデル」を構築すると提唱されました。

これまでの議論はまだ漠然としていますが、論文の構造図では世界モデルが何であるかが明確に説明されています。

図の垂直方向の V->z は観測値の低次元表現で、VAE によって実装されています。水平方向の M->h->M->h は、次の瞬間に予測されるシーケンスの表現で、RNN によって実装されています。これら 2 つの部分を合わせて世界モデルといいます。

つまり、ワールド モデルには主に状態表現と遷移モデルが含まれており、これらは精神的表現と精神的シミュレーションにも対応しています。

上の図を見ると、これはすべてのシーケンス予測のための世界モデルではないのかと疑問に思うかもしれません。

実は、強化学習に詳しい学生なら、この図の構造が間違っている(不完全である)ことが一目でわかります。実際の構造は下の図のようになります。RNNの入力はzだけでなく、アクションアクションでもあります。これは通常のシーケンス予測ではありません(アクションを追加すると大きく異なりますか?はい、アクションを追加するとデータ分布が自由に変更できるため、大きな課題が生じます)。

Jurgen によるこの論文は強化学習の分野に属します。

さて、強化学習にはモデルベースのRLがたくさんあるのではないでしょうか?モデルと世界モデルの違いは何でしょうか?答えはノーです。同じことです。ユルゲンは最初に一節を述べた

基本的な意味は、モデルベースの強化学習の作業がどれだけあっても、私は RNN の先駆者だということです。モデルとして RNN を使用することを発明したのは私であり、それをやりたいだけなのです。

Jurgen 氏の以前の記事では、モデルベースの RL についても詳しく説明しました。モデルは学習しましたが、そのモデルで RL を完全にトレーニングしたわけではありません。

RL がモデル内で完全にトレーニングされない理由は、実際にはモデルベース RL のモデルに何らかの違いがあるためではなく、むしろモデルベース RL の方向性に対する長年の不満、つまりモデルの精度が十分でなく、モデル内で完全にトレーニングされた RL 効果が非常に低いためです。この問題は近年まで解決されていませんでした。

賢明なサットンは、モデルの不正確さの問題をずっと以前に認識していました。 1990 年に、Dyna フレームワークを提案した論文「Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming」(ワークショップから変遷した最初の会議である ICML で発表) では、このモデルをアクション モデルと呼び、アクション実行の結果の予測を強調しました。

RL は、不正確なモデルが原因で戦略が適切に学習されないことを防ぐために、モデルから学習しながら (行 5)、実際のデータから学習します。

ご覧のとおり、世界モデルは意思決定にとって非常に重要です。正確な世界モデルを入手できれば、世界モデル内で試行錯誤することで、現実に最適な決定を見つけることができます。

これが世界モデルの中核機能、つまり反事実的推論です。つまり、データでは確認されていない決定であっても、その決定の結果を世界モデルで推測することができます。

因果推論を理解している学生は、反事実的推論という用語に馴染みがあるでしょう。チューリング賞受賞者のジュディア・パールによる人気科学書「The Book of Why」では、因果関係の階段が描かれています。最下層は「関連付け」で、これは今日のほとんどの予測モデルが行っていることです。中間層は「介入」で、強化学習における探索は典型的な介入です。最上層は反事実で、これは想像を通じて「もし~だったら」という質問に答えます。ジュデアが反事実的推論のために描いた図は、科学者が心の中で想像するものであり、ユルゲンが論文で使用した図に似ています。

左: ユルゲンの論文における世界モデルの概略図。右: ユダヤ書の因果律。

ここで結論づけられるのは、AI 研究者の世界モデルの追求は、データを超えて反事実的推論を行い、「もしも」の質問に答えようとする試みであるということです。これは人間が本来持っている能力ですが、現在の AI はまだそれが苦手です。ブレークスルーが達成されれば、AI の意思決定能力が大幅に強化され、完全自動運転などのシナリオへの応用が可能になります。

ソラは世界シミュレーターですか?

シミュレーターという言葉はエンジニアリング分野でより頻繁に登場しますが、その機能は世界モデルと同じであり、ユーザーは現実世界では実装が難しい高コストで高リスクの試行錯誤を行うことができます。 OpenAI は意味を変えずにフレーズを言い換えたいようです。

Sora によって生成されたビデオは、漠然としたプロンプトによってのみガイドされ、正確に制御することは困難です。したがって、これはビデオ ツールに近いものであり、「もしも」の質問に正確に答えるための反事実的推論のツールとして使用することはできません。

デモ ビデオがトレーニング データとどの程度異なるかが明確ではないため、Sora の生成能力がどれほど強力であるかを評価することさえ困難です。

さらに残念なのは、これらのデモではソラが物理法則を正確に学習していないことが示されていることです。 Sora によって生成されたビデオは物理法則に準拠していないと指摘する人もいます [OpenAI が Wensheng ビデオ モデル Sora をリリース。AI は物理世界の動きを理解できます。これは世界モデルですか?それはどういう意味ですか? ]

OpenAI は、CG 生成データも含め、十分なトレーニング データに基づいてこれらのデモをリリースしたと思います。しかし、それでも、いくつかの変数を持つ方程式で記述できる物理法則はまだ習得されていません。

OpenAI は、Sora が物理世界のシミュレーターへの道筋を示していると考えていますが、単にデータを蓄積するだけでは、より高度なインテリジェント テクノロジーへの道筋にはならないようです。

<<:  自動運転と軌道予測についてはこちらの記事をお読みください。

>>:  Microsoft が OpenAI のライバルと提携!ミストラルの最新のトップレベルモデルはオープンソースではなくなった

ブログ    
ブログ    
ブログ    

推薦する

我が国の自動販売機の現状と展望はどうなっているのでしょうか? Pinshi Intelligentは新たな戦略を持っています

セルフサービス自動販売機自体は目新しいものではないが、販売品目が普通のボトル入り飲料から絞りたてジュ...

...

適切な場所で機械学習は革命をもたらすだろう

[[194517]]機械学習に代表される人工知能の分野は、現在、科学技術分野で最もホットな分野の一つ...

人工知能とビッグデータとは何ですか?彼らの間にはどのような関係があるのでしょうか?

ビッグデータとは、従来のソフトウェアツールでは一定期間内に収集、管理、処理できないデータの集合を指し...

...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

...

機械学習は科学プロジェクトからビジネスプランまで3段階の戦略を完了します

【51CTO.com クイック翻訳】 2015年は機械学習技術が学術分野で形を成した年でした。具体的...

Facebook Cityは楽しいです!ドローンで遠隔地の山岳地帯にモバイルネットワークを提供

[51CTO.comからのオリジナル記事] Facebookは、インド政府および通信会社と協議し、太...

人種問題で顔認識技術はどうなるのか?

米国では、白人警官による黒人市民に対する過剰な法執行が日常茶飯事である。最近、白人警官が黒人男性を膝...

アリババのダブル11は記録破りであるだけでなく、AIショーでもある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

高校生のアルゴリズム「y-cruncher」が円周率の精度の世界記録を更新した

最近、スイスのグラウビュンデン応用科学大学のチームが、円周率の62.8兆桁の計算を101日と9時間で...

実践編 | アポロレーンチェンジの詳しい説明

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...