翻訳者 |ブガッティ レビュー | Chonglou 先週、 OpenAIチームは、物理世界の基本的な側面をシミュレートする新しい機能を実証した大規模なビデオ生成モデルであるSoraを発表しました。私は長い間テキストからビデオへの生成の分野を追ってきましたが、このモデルは品質の飛躍的な向上を表していると思います。 RedditやTwitterでは、このモデルがどのように機能するかについて、型破りな理論( SoraはUnrealというゲーム エンジンで実行されているのか?)も含めて多くの人が推測しているのを見ました。この画期的なAI ツールがリリースされたとき、多くの人がその仕組みを理解したように見せかけたり、あるいは、公開されたいくつかのビデオサンプルに基づく微妙なヒントから仕組みを理解できると思い込もうとしたりした。私が見つけた最悪の例は、ジム・ファン博士が「 Soraはデータ駆動型物理エンジンである」と主張する投稿で、 Twitterで約400万回閲覧されています(Sora はまったくデータ駆動型物理エンジンではありません) 。 幸いなことに、OpenAI はモデルのアーキテクチャを説明する研究論文を発表しました。この記事を読めば、実は推測する必要はありません。以下では、 Sora がどのように動作するかを理解できるように、 OpenAI チームが提供するテクノロジーを紹介します。 ソラはなぜすごいのか?現実世界に内在する複雑さをモデル化し、理解し、シミュレートできる AI を作成することは、人工知能分野の出現以来、非常に困難な課題となっています。静止画像とは異なり、ビデオは本質的に、時間の経過による変化、 3D空間、物理的な相互作用、オブジェクトの連続性などを提示することを伴います。これまでのビデオ生成モデルでは、さまざまなビデオの長さ、解像度、カメラアングルを処理するのが困難でした。さらに重要なことは、これらのシステムには、現実の高精度シミュレーションに必要な物理学、因果関係、およびオブジェクトの永続性に関する本質的な「理解」が欠けていることです。 OpenAIが公開したビデオでは、これらの分野でこれまで見てきたものよりも優れたパフォーマンスを発揮するモデルが紹介されています。率直に言って、これらのビデオは本物のように見えます。たとえば、人の頭が標識を遮った後、その上を通過しても、標識の文字はそのまま残ります。動物たちは「遊んでいる」ときでもリアルに羽ばたきます。風に吹かれた花びらは風とともに揺れるでしょう。ほとんどのビデオモデルは、この課題に対して無力であり、その結果、視聴者が判別しにくいちらつきや揺れのある画像が生成されることがよくありますが、Sora にはこの問題はありません。これはどうやって実現するのでしょうか? モデルアーキテクチャとトレーニングに関する技術的な詳細モデルと既存の投稿を見たときに私が最初に気づいたのは、この研究がOpenAIの GPTのような言語モデルに関する以前の研究に基づいているということでした。
研究者らが導入した重要な革新は、 Sora がトレーニング プロセス中にビデオを表現する方法です。各フレームは、 GPT-4などの大規模言語モデルで単語がトークンに分割される方法と同様に、多数の小さなパッチ( Patch )に分割されます。このパッチベースのアプローチにより、さまざまな長さ、解像度、方向、アスペクト比のビデオを使用してSora をトレーニングできます。ソース ビデオの元の形状に関係なく、フレームから抽出されたパッチはまったく同じ方法で処理されます。 図 1. OpenAI の研究論文より:「大まかに言えば、まずビデオを低次元の潜在空間に圧縮し、次にビデオ表現を時空間パッチに分解することで、ビデオをパッチに分割します。」
Sora は、 GPTモデルに密接に関連する Transformer アーキテクチャを使用して、これらのビデオチャンクの長いシーケンスを処理します。 Transformerには時空間自己注意レイヤーが含まれており、テキスト、オーディオ、ビデオなどのシーケンス内の長距離依存関係をモデル化する際に大きなメリットがあることがわかっています。 トレーニング中、 SoraのTransformerモデルは、拡散プロセスの初期段階から一連のビデオチャンク トークンを入力として受け取り、元の「ノイズ除去された」トークンを予測します。何百万ものさまざまなビデオでトレーニングすることで、 Sora は自然なビデオ フレームのパターンとセマンティクスをゆっくりと学習します。 図2. OpenAIの研究論文からのノイズ除去プロセス図
Sora は条件付きでもあり、テキストプロンプトに基づいてビデオを制御的に生成できます。テキストプロンプトは、現在のビデオフレームに対応するパッチとともに、追加のコンテキストとして埋め込まれ、モデルに提供されます。 テキストの説明を実際のビデオコンテンツにうまく結び付けるために、研究者は各トレーニングビデオに、別のキャプションモデルから生成された非常に説明的なキャプションを使用しました。このテクノロジーにより、 Sora はテキストの指示にさらに忠実に従うことができるようになります。
推論中、Sora は純粋なノイズパッチから開始し、一貫性のある滑らかなビデオが生成されるまで、50 を超える拡散ステップで繰り返しノイズ除去を行います。さまざまなテキストプロンプトを提供することで、Sora は字幕と適切に一致するさまざまなビデオを生成できます。 ビデオのパッチベースの表現により、拡散プロセスを開始する前にパッチを目的の形状に配置するだけで、Sora はテスト時にあらゆる解像度、期間、方向を処理できます。 機能と制限OpenAI チームは、トレーニング データを数百万のビデオ クリップに拡大し、膨大な計算リソースを使用することで、非常に興味深い新たな動作を発見しました。
しかし、ソラにはまだ明らかな欠陥と限界があります。
今後の開発の方向性これらの根深い欠陥にもかかわらず、研究者がビデオ生成モデルのスケールアップを続けるにつれて、 Sora は将来の可能性を予見させます。十分なデータと計算能力があれば、ビデオトランスフォーマーは現実世界の物理学、因果関係、物体の永続性についてより深い理解を深め始めるかもしれません。言語理解機能と組み合わせることで、現実世界のビデオベースのシミュレーションを通じてAIシステムをトレーニングするための新しいアイデアが生まれることが期待されます。 ソラはこの目標に向けて最初の一歩を踏み出しました。多くの弱点を克服するにはさらなる作業が必要ですが、それが示す新たな能力は、この研究方向の将来性を浮き彫りにしています。大規模かつ多様なビデオデータセットを使用してトレーニングされた巨大トランスフォーマーは、最終的には、私たちの物理的環境に内在する複雑さ、豊かさ、深さとインテリジェントに対話し、理解できる AI システムを生み出す可能性があります。 結論はしたがって、根拠のない主張に反して、Sora はゲーム エンジンや「データ駆動型物理エンジン」上で実行されるのではなく、 GPT-4 がテキストトークン上で実行されるのと同じように、ビデオ「タイル」上で実行されるトランスフォーマーアーキテクチャ上で実行されます。理解の深さ、オブジェクトの持続性、自然なダイナミクスを示すビデオの作成に優れています。 このモデルの主な革新点は、言語モデルの単語トークンと同様に、ビデオフレームをパッチのシーケンスとして処理し、さまざまなビデオの側面を効果的に管理できるようにすることです。このアプローチとテキスト条件付き生成を組み合わせることで、Sora はテキストの手がかりに基づいて、文脈的に関連性があり視覚的に一貫性のあるビデオを生成できます。 画期的な機能にもかかわらず、Sora には、複雑なインタラクションのモデリングや動的シーンの一貫性の維持など、依然として制限があります。これらの制限はさらなる研究の必要性を浮き彫りにしますが、ビデオ生成技術の進歩における重要な成果を損なうものではありません。 Sora がすぐにリリースされ、皆さんに試してもらえることを願っています。このテクノロジーには、新しくてエキサイティングな用途がたくさんあると思うので、楽しみに待ちましょう。 ソラの仕組み(実際) |
>>: オープンソースの大規模モデルの王座が交代しました! Google Gemmaが市場に参入、ノートパソコンは動作可能でビジネスにも使用可能
[[353997]]人工知能は誕生以来、成功と失敗の時期を経験し、技術の進歩も限界と放棄に直面してき...
OpenAI ChatGPT Plus サブスクリプション支払いには強力な機能があり、高度な「データ...
近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...
序文ご存知のとおり、TiDB バージョン 5.1 では多くの新機能が追加されましたが、その 1 つが...
米国のスティーブンス工科大学は、ユーザーが使用するパスワードを4分の1の精度で適切に推測できる、いわ...
外国為替市場または外国為替市場は世界最大の金融市場です。それは株式市場よりもさらに大きいです。さらに...
IT Homeは11月16日、MicrosoftがIgniteカンファレンスでAzure AI Sp...
[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...
先週、私たちは PaddlePaddle と Tensorflow を使用して画像分類を実装し、自分...
この記事では、機械学習に最適なソフトウェアについて説明します。これらのソフトウェアは、ML コードを...