近年、ソラは世界中の注目を集めています。それに関連するすべてのものが極端に拡大されます。 Sora が人気なのは、高品質のビデオを出力できるだけでなく、OpenAI が「世界シミュレーター」と定義しているからです。 Nvidia の上級研究科学者 Jim Fan 氏は、「Sora はデータ駆動型の物理エンジンであり、学習可能なシミュレーター、つまり『世界モデル』です」とさえ主張しています。 「ソラは世界モデルである」という見解は、常に「世界モデル」を研究の中心に据えてきたチューリング賞受賞者のヤン・ルカン氏を少々不安にさせた。 LeCun 氏の見解では、プロンプトに基づいて単にリアルなビデオを生成するだけでは、モデルが物理世界を理解しているということにはなりません。ビデオを生成するプロセスは、世界モデルに基づく因果予測とはまったく異なります。 画像出典: https://twitter.com/ylecun/status/1758740106955952191 Sora のリリースは AI コミュニティ全体を熱狂させたが、LeCun 氏は楽観視していなかった。彼は自己回帰とLLMに対する批判を何度も公に表明しています。自己回帰モデルは、Soraを含むGPTシリーズのLLMモデルが依存している学習パラダイムです。言い換えれば、ChatGPTからSoraまで、OpenAIは自己回帰生成ルートを採用しています。 しかし、LeCun 氏はこの技術的な方法を何度も批判してきました。彼は、「5 年後には、正気な人なら誰も自己回帰モデルを使用しなくなるだろう」「自己回帰生成モデルは最悪だ!」「LLM の世界に対する理解は非常に表面的だ」など、不満を表明しています。 世界モデルと自己回帰 LLM はどのように定義されるべきでしょうか?世界的に有名なAI研究者であるルカン氏は、当然ながら完全な批判者ではない。最近、同氏は世界モデルの新たな定義を提示した。彼の見解では、自己回帰生成モデルは世界モデルの単純化された特殊なケースに過ぎません。インターネットでよく見かける長い科学講義とは異なり、ルカンは世界モデルをシンプルかつわかりやすい方法で定義しています。 画像出典: https://twitter.com/ylecun/status/1759933365241921817 与えられた条件:
世界モデルでは次のことを計算する必要があります。
で、
秘訣は、エンコーダーが崩壊するのを防ぎながら、トリプレット (x(t),a(t),x(t+1)) を観察してモデル全体をトレーニングすることです。 自己回帰生成モデル (LLM、Sora はこのルートなど) は、次の理由により簡略化の特殊なケースです。 1. エンコーダは恒等関数です: h (t) = x (t); 2. 状態は過去の入力を確認するための窓です。 3. アクション変数a(t)は存在しない。 4. x(t)は離散的である。 5. 予測子は結果x(t+1)の分布を計算し、潜在変数z(t)を使用してその分布から値を選択します。 式は次のように簡略化されます。 s ( t ) = [x ( t ), x ( t - 1 ), ... x ( t k )] x (t+1) = 予測値 ( s (t), z (t), a (t) ) この場合、崩壊の問題はありません。 これは、ソラが世界モデルであるという見解に LeCun が強く反対する重要な理由かもしれません。ソラは世界モデルの単純化された特殊なケースにすぎないからです。 しかし、ジム・ファンはルカンのツイートの下に別のコメントを残し、次のように主張した。「ソラは本質的にはノーオペレーションの世界モデルです。世界の初期状態を設定し、潜在空間でシミュレーションを実行し、何が起こるかを受動的に観察することができます。現時点では、積極的に介入する方法はありません。」 ソラが世界モデルであるかどうかについては、今は議論しません。長い間皆を混乱させてきた「世界モデル」の定義が、ついにLeCunによって明らかにされました。 |
<<: クアルコムとインテルはAIをデータセンターから移行したいと考えている
>>: Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能
[[312225]]テキスト | 梁玉山1月7日、教育省の公式サイトによると、国家教科書委員会はこ...
2018年3月18日、アメリカ・アリゾナ州で、セーフティドライバーを乗せたUberの自動運転車が道...
今日では、かつてないほど多くのデータが生成されています。データ分析ツールの発達により、あらゆる分野の...
導入ノートパソコン、スマートフォン、センサーはすべて、モノのインターネット向けに大量のデータを生成し...
Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...
柔らかくてかわいい猫は、いつも私たちに「猫を撫でたい」「猫を抱きしめたい」という衝動を掻き立てます。...
[[435915]] K回の反転後の配列の最大合計LeetCode の問題へのリンク: https:...
GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
12月15日、OpenAIは設立当初から、たとえ人工知能が開発者よりも賢くなっても、全人類に利益をも...
2021年、研究者たちは一連のマイクロモデルを訓練しているときに驚くべき発見をしました。それは、長期...
近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規...
競争で優位に立つために、ますます多くの企業が自社のアプリケーション、製品、サービス、ビッグデータ分析...