Soraはどのように機能しますか?

Soraはどのように機能しますか?

翻訳者 |ブガッティ

レビュー | Chonglou

先週、 OpenAIチームは、物理世界の基本的な側面をシミュレートする新しい機能を実証した大規模なビデオ生成モデルであるSoraを発表しました私は長いテキストからビデオへの生成の分野を追ってきましたが、このモデルは品質の飛躍的な向上を表していると思います

RedditTwitterでは、このモデルがどのように機能するについて型破りな理論( SoraUnrealというゲーム エンジンで実行されているのか?)も含めて多くの人が推測しているのをましたこの画期的なAI ツールがリリースされたとき、多くの人がその仕組みを理解したように見せかけたり、あるいは、公開されたいくつかのビデオサンプルに基づく微妙なヒントから仕組みを理解できると思い込もうとしたりした。私が見つけた最悪の例ジム・ファン博士が Soraはデータ駆動型物理エンジンであると主張する投稿で Twitter400閲覧されています(Sora はまったくデータ駆動型物理エンジンではありません)

幸いなことに、OpenAI はモデルのアーキテクチャを説明する研究論文を発表しました。この記事を読めば、実は推測する必要はありません。以下では、 Sora がどのように動作するかを理解できるように、 OpenAI チームが提供するテクノロジーを紹介します

ソラはなぜすごいのか?

現実世界に内在する複雑さをモデル化し、理解し、シミュレートできる AI を作成することは、人工知能分野の出現以来、非常に困難な課題となっています静止画像とは異なり、ビデオは本質的に、時間の経過による変化3D空間、物理的な相互作用オブジェクトの連続性などを提示することを伴います。これまでのビデオ生成モデルでは、さまざまなビデオの長さ、解像度、カメラアングルを処理するのが困難でした。さらに重要なことは、これらのシステムには、現実高精度シミュレーションに必要物理学、因果関係およびオブジェクトの永続性に関する本質的な理解が欠けていることです

OpenAIが公開したビデオでは、これらの分野でこれまで見てきたものよりも優れたパフォーマンスを発揮するモデルが紹介されています。率直に言って、これらのビデオは本物のように見えますたとえば、人の頭標識を遮った後、その上を通過して標識の文字はそのまま残ります動物たちは「遊んでいる」ときでもリアルに羽ばたきます風に吹かれた花びらは風とともに揺れるでしょう。ほとんどのビデオモデルはこの課題に対して無力であり、その結果、視聴者が判別しにくいちらつきや揺れのある画像が生成されることがよくありますが、Sora にはこの問題はありません。これはどうやって実現するのでしょうか?

モデルアーキテクチャとトレーニングに関する技術的な詳細

モデルと既存の投稿を見たときに私が最初に気づいたのは、この研究がOpenAIの GPTのような言語モデルに関する以前の研究に基づいているということでした

  • ビデオの特性評価

研究者らが導入した重要な革新は、 Sora がトレーニング プロセス中にビデオを表現する方法です。各フレームはGPT-4などの大規模言語モデル単語がトークンに分割される方法と同様に多数の小さなパッチ( Patch )に分割されます。このパッチベースのアプローチにより、さまざまな長さ、解像度、方向、アスペクト比のビデオを使用してSora をトレーニングできますソース ビデオの元の形状に関係なく、フレームから抽出されたパッチはまったく同じ方法処理されます

図 1. OpenAI の研究論文より:「大まかに言えばまずビデオを低次元の潜在空間に圧縮し、次にビデオ表現を時空間パッチに分解することで、ビデオパッチ分割ます。」

  • モデルアーキテクチャ

Sora はGPTモデルに密接に関連する Transformer アーキテクチャを使用して、これらのビデオチャンク長いシーケンスを処理します Transformerには時空間自己注意レイヤーが含まれておりテキスト、オーディオ、ビデオなどのシーケンス内の長距離依存関係をモデル化する際に大きなメリットあることがわかっています

トレーニングSoraTransformerモデルは、拡散プロセスの初期段階から一連のビデオチャンク トークンを入力として受け取り、ノイズ除去されたトークンを予測します何百万ものさまざまなビデオトレーニングすることで Sora は自然なビデオ フレームのパターンとセマンティクスをゆっくりと学習します。

図2. OpenAIの研究論文からのノイズ除去プロセス図

  • テキスト調整

Sora は条件付きでもあり、テキストプロンプトに基づいてビデオを制御的に生成できます。テキストプロンプトは、現在のビデオフレームに対応するパッチとともに、追加のコンテキストとして埋め込まれモデルに提供されます

テキストの説明を実際のビデオコンテンツにうまく結び付けるために、研究者は各トレーニングビデオに、別のキャプションモデルから生成された非常に説明的なキャプションを使用しました。このテクノロジーにより、 Sora はテキストの指示にさらに忠実に従うことができるようになります。

  • 推論プロセス

推論中、Sora は純粋なノイズパッチから開始し、一貫性のある滑らかなビデオが生成されるまで、50 を超える拡散ステップで繰り返しノイズ除去を行います。さまざまなテキストプロンプトを提供することで、Sora は字幕適切に一致するさまざまなビデオを生成できます

ビデオパッチベースの表現により、拡散プロセスを開始する前にパッチを目的の形状配置するだけで、Sora はテスト時にあらゆる解像度、期間、方向を処理できます

機能と制限

OpenAI チームはトレーニング データを数百万のビデオ クリップに拡大し、膨大な計算リソースを使用することで、非常に興味深い新たな動作を発見しました

  • Sora はテキストからビデオを生成するだけでなく、入力画像や他のビデオからビデオを生成することもできます。
  • ソラは、キャラクターやオブジェクトリアル連続的に動いており、シーンを3D で理解ているように見えます。これは純粋にデータのサイズによるもので明示的な3D モデリングやグラフィック コードは必要ありません
  • このモデルはオブジェクトの持続性を示し、エンティティやオブジェクトが一時的にフレームから外れたり遮蔽されたりした場合でも、多くの場合、それらを追跡します
  • Sora は、デジタル画家のキャンバス上の筆遣いが時間の経過とともに正確に保存されるなどいくつかの基本的な現実世界のインタラクションをシミュレートする能力を実証しました
  • また、Minecraft のような複雑な仮想世界やゲームを説得力を持って生成することもできます。 Sora は、生成された環境内で移動するエージェントを制御しながらシーンをレンダリングできます。
  • 追加の計算能力とデータにより、ビデオ品質、一貫性、キューのコンプライアンスが大幅に向上し、スケールによるさらなるメリットが実証されました

しかし、ソラにはまだ明らかな欠陥と限界があります

  • 現実世界のより複雑な物理的な相互作用、ダイナミクス、因果関係を正確にモデル化することは、多くの場合困難です。単純な物理学とオブジェクトのプロパティは、依然として難しいままです。たとえば、グラスが倒れて液体がこぼれると、グラスがテーブルの上に溶け、液体がグラスの側面を伝って流れ落ちますが、グラスは粉々砕けません。
  • モデルは特に混雑したシーンや雑然としたシーンでは、予期しないオブジェクトやエンティティを自発的に生成することがよくあります
  • ソラは簡単に左右を混同したり、多くの動作が行われているときに、一定期間にわたるイベントやアクティビティの正確な順序が簡単に乱れたりすることがあります
  • 複数のキャラクターと環境間の自然な相互作用をリアルにシミュレートすることは依然として困難ですたとえばトレッドミル上で逆方向に歩いている人のビデオを生成できます

今後の開発の方向性

これらの根深い欠陥にもかかわらず研究者がビデオ生成モデルのスケールアップを続けるにつれて、 Sora は将来の可能性を予見させます十分なデータと計算能力があれば、ビデオトランスフォーマーは現実世界の物理学、因果関係、物体の永続性についてより深い理解を深め始めるかもしれません。言語理解機能と組み合わせることで現実世界ビデオベースのシミュレーションを通じてAIシステムをトレーニングするための新しいアイデアが生まれることが期待されます

ソラはこの目標に向けて最初の一歩を踏み出しました多くの弱点を克服するにはさらなる作業が必要ですがそれが示す新たな能力は、この研究方向の将来性を浮き彫りにしています。大規模かつ多様なビデオデータセットを使用してトレーニングされた巨大トランスフォーマーは、最終的には、私たちの物理的環境に内在する複雑さ、豊かさ、深さインテリジェントに対話し、理解できる AI システムを生み出す可能性があります

結論は

したがって、根拠のない主張に反して、Sora はゲーム エンジンやデータ駆動型物理エンジン上で実行されるのではなく GPT-4 がテキストトークン上で実行されるのと同じように、ビデオ「タイル」上で実行されるトランスフォーマーアーキテクチャ上で実行されます理解の深さオブジェクトの持続性、自然なダイナミクスを示すビデオの作成に優れています

このモデルの主な革新点は、言語モデルの単語トークン同様に、ビデオフレームをパッチのシーケンスとして処理しさまざまなビデオの側面を効果的に管理できるようにすることです。このアプローチテキスト条件付き生成を組み合わせることで、Sora はテキストの手がかりに基づいて、文脈的に関連性があり視覚的に一貫性のあるビデオを生成できます。

画期的な機能にもかかわらず、Sora には、複雑なインタラクションのモデリング動的シーンの一貫性の維持など、依然として制限がありますこれらの制限はさらなる研究の必要性を浮き彫りにしますが、ビデオ生成技術の進歩における重要な成果損なうものではありません

Sora がすぐにリリースされ、皆さんに試してもらえることを願っています。このテクノロジーには、新しくてエキサイティングな用途がたくさんあると思うので楽しみに待ちましょう。

ソラの仕組み(実際

<<: 

>>:  オープンソースの大規模モデルの王座が交代しました! Google Gemmaが市場に参入、ノートパソコンは動作可能でビジネスにも使用可能

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIがビジネスにどのように役立つか

[[353997]]人工知能は誕生以来、成功と失敗の時期を経験し、技術の進歩も限界と放棄に直面してき...

...

顔認識情報セキュリティは大きな注目を集めており、専門家の代表者らは多くの提案を行っている。

近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...

...

TiDB v5.1 体験: TiDB で機械学習モデルをトレーニングしました

序文ご存知のとおり、TiDB バージョン 5.1 では多くの新機能が追加されましたが、その 1 つが...

人工知能は実際に最大25%の精度でパスワードを推測できる

米国のスティーブンス工科大学は、ユーザーが使用するパスワードを4分の1の精度で適切に推測できる、いわ...

...

...

AIがFX市場に、私たちが気づかないうちに革命を起こしている

外国為替市場または外国為替市場は世界最大の金融市場です。それは株式市場よりもさらに大きいです。さらに...

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...

...

[ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク AlexNet の実装

先週、私たちは PaddlePaddle と Tensorflow を使用して画像分類を実装し、自分...

初心者からプロまでが使用する機械学習ソフトウェア トップ 10

この記事では、機械学習に最適なソフトウェアについて説明します。これらのソフトウェアは、ML コードを...