ソラを解剖：技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか？！

リーハイ大学とマイクロソフトリサーチの中国チームが初めてソラ関連の研究のレビューは37ページにわたります。

Soraの公開技術レポートとリバースエンジニアリングに基づいて、テキストからビデオへのAIモデルのモデル背景、関連技術、アプリケーション、既存の課題、将来の開発方向について包括的な分析を実施しました。

コンピュータビジョン分野におけるAI生成モデルの開発履歴や、過去2年間の代表的なビデオ生成モデルも記載されています。

ネットユーザーは、わずか半月が経過しただけで、Sora がまだ一般公開されておらず、限られた人数しか利用できないことをまったく予想していなかったが、学術界での関連研究がこんなに早く登場した。

多くのネットユーザーは、このレビューは非常に包括的かつ体系的であり、全文を読むことを勧めているとコメントした。

それで、このレビューでは具体的に何について語っているのでしょうか?

Quantum位では、本来の意味を変えずに内容の一部を再編しました。

ソラの技術詳細をリバースエンジニアリングする

全体的なアーキテクチャ
多様な視覚データの前処理
指導の調整: ビデオ要約
ビデオのヒントエンジニアリング

ソラはマイルストーン

ソラの5つの主な応用の可能性と限界

ソラの技術詳細をリバースエンジニアリングする

周知のとおり、OpenAIはSoraのリリース後、すぐに技術レポートを発表しましたが、詳細な技術内容は明らかにしませんでした。一部のネットユーザーは、OpenAIはまだ「近い」と不満を述べています。

学術界でもさまざまな憶測が飛び交っている。ResNeXtの第一著者である謝彩寧氏、NVIDIAのAI科学者ジム・ファン氏をはじめとする大物たちが熱く語っている。 Jim Fan 氏はまた、Sora をビデオ生成における GPT-3 の瞬間と呼びました。

しかし、OpenAI の研究者 Jason Wei 氏による最近の Sora のレビューは、ビデオ生成における GPT-2 の瞬間でした。

有力者たちの間でもさまざまな意見があるが、誰の推測がより正確であるかは分からない。

この研究レビューでは、研究者らはリバースエンジニアリングを使用してSoraの技術的詳細を推測および分析し、一連の関連研究についても議論しました。一般的には次のような問題が関係します。

全体的なアーキテクチャ

OpenAIが発表した技術レポートによると、Soraは長さや解像度、アスペクト比が異なる動画や画像でトレーニングされた拡散モデルであり、 「拡散Transformer」であるTransformerアーキテクチャも採用しているとのこと。

研究者たちは、既存の研究を検討し、リバースエンジニアリングを適用することで、以下の追加情報について推測しました。

Sora フレームワーク全体は、次の 3 つの部分で構成されます。

まず、時空間コンプレッサーは元のビデオを潜在空間にマッピングします。
その後、ViT はこれらのトークン化された潜在表現を処理し、ノイズ除去された潜在表現を出力します。
CLIP のような条件付きメカニズムは、LLM によって拡張されたユーザー指示と潜在的な視覚的手がかりを受け取り、特定のスタイルテーマを持つビデオを生成します。複数回のノイズ除去の反復の後、生成されたビデオの潜在表現が最終的に取得され、対応するデコーダーを介してピクセル空間にマッピングされます。

△ リバースエンジニアリング：Sora Frameworkの概要

さらに詳しくは、リバースエンジニアリングにより、Sora は基本モデルと複数の時空間改良モデルを組み合わせたカスケード拡散モデルアーキテクチャを使用していると推測されます。

高解像度で注意メカニズムを使用すると計算コストが高く、パフォーマンスの向上が限られているため、基本拡散モデルと低解像度拡散モデルで注意モジュールが広範に使用される可能性は低いです。

同時に、ビデオ/シーン生成においては時間的一貫性が空間的一貫性よりも重要であることを考慮して、Sora は空間的および時間的一貫性を確保するために、長いビデオ(時間的一貫性のため)と低解像度の効率的なトレーニング戦略を採用する可能性があります。

△拡散トランスフォーマー、DiT（左）、U-ViT（右）の全体アーキテクチャ

あるいは、Sora は、元の潜在変数 x またはノイズ ϵ を予測する他のバリエーションと比較して優れたパフォーマンスを発揮する v パラメータ化拡散モデルを使用する場合もあります。

潜在エンコーダーに関しては、既存のほとんどの研究では、トレーニング効率を向上させるために、Stable Diffusion の事前トレーニング済み VAE エンコーダーを初期化されたモデルチェックポイントとして使用しています。

ただし、エンコーダには時間圧縮機能がありません。いくつかの研究では、時間情報を処理するためにデコーダーを微調整することのみを提案していますが、圧縮された潜在空間でビデオの時間データを処理する際のデコーダーのパフォーマンスは依然として最適ではありません。

技術レポートに基づいて、研究者らは、Sora は既存の事前トレーニング済み VAE エンコーダーを使用せず、代わりにビデオデータでゼロからトレーニングされた時空間 VAE エンコーダーを使用する可能性があると推測しています。このエンコーダーは、ビデオコンテンツに最適化された圧縮潜在空間で、既存のエンコーダーよりも優れたパフォーマンスを発揮します。

多様な視覚データの前処理

統一された標準サイズに合わせてビデオサイズをトリミングしたり、アスペクト比を調整したりする必要がある従来の方法とは異なり、Sora はネイティブサイズのビデオと画像でビデオをトレーニング、理解、生成できます。

つまり、元のサイズのサンプルを失うことなく多様な視覚データを処理できるため、Sora のビデオ構成とフレームワークが大幅に改善され、生成されたビデオがより自然で一貫性のあるものになります。

たとえば、従来の方法でトレーニングした場合、左の写真に示すように、ビデオの本体は正方形に切り取られているため切り取られていますが、右の写真は元のサンプルを使用してトレーニングされており、ビデオの本体は完全にキャプチャされています。

OpenAI は技術レポートでこの部分の技術的な詳細を強調しましたが、高レベルのアイデアのみを提示しました。

さまざまな解像度、アスペクト比、長さの画像やビデオを処理するために、Sora は統一された視覚表現を使用します。具体的には、モデルはまずビデオを低次元の潜在空間に圧縮し、次にその表現を時空間パッチに分解して、ビデオの「パッチング」を実現します。

このレビューでは、研究者らは次のような分析を行った。

Sora のビデオ圧縮ネットワーク(ビジュアルエンコーダー)は、入力データ(生のビデオ)の次元を削減し、時間と空間の両方で圧縮された潜在表現を出力することを目的としています。

Sora の技術レポートの参照によると、圧縮ネットワークは VAE または VQ-VAE 上に構築されます。技術レポートに記載されているように、サイズ変更と切り取りを行わないと、VAE が視覚データを均一で固定サイズの潜在空間にマッピングすることは困難です。

ただし、この問題を解決する方法は 2 つあります。

1 つのアプローチは、ViT および MAE で採用されているアプローチに似た空間パッチ圧縮であり、ビデオフレームを固定サイズのパッチに分割し、それらを潜在空間にエンコードします。

注目すべき重要な問題がいくつかあります。

時間次元における変動性。ビデオの長さはそれぞれ異なり、潜在空間の次元も固定されていないため、固定数のフレームをサンプリングするか、非常に長い入力長を設定することで時間情報を統合する必要があります。
事前にトレーニングされたビジュアルエンコーダーを活用します。ほとんどの研究者は、Stable Diffusion の VAE などの事前トレーニング済みのエンコーダーを使用する傾向がありますが、Sora チームは、大規模なパッチデータを効率的に処理するために、エンコーダーとデコーダー自体をトレーニングする可能性があります。
時間情報の統合。このアプローチは主に空間パッチ圧縮に焦点を当てているため、動的な変化を捉えるために重要な時間情報を集約するためにモデル内の追加メカニズムが必要になります。

もう 1 つのアプローチは、3D 畳み込みを使用して時間情報を抽出する空間-時間-パッチ圧縮です。

このアプローチは、ビデオデータの空間的次元と時間的次元を同時にカプセル化し、フレーム間の動きと変化を考慮した包括的なビデオ表現を提供し、ビデオの動的な性質を捉えます。

空間パッチ圧縮と同様に、空間時間パッチ圧縮は、特定の畳み込みカーネルパラメータを設定してビデオを処理します。ビデオ入力の特徴の違いにより、潜在空間次元が変化します。ここでも、上記の空間パッチ法が適用可能で効果的です。

圧縮ネットワークのこの部分には、重要な疑問が 1 つあります。それは、さまざまなビデオタイプ内の潜在的な機能ブロックまたはパッチの数をどのように処理し、そのパッチを Diffusion Transformer の入力層に入力するかということです。

研究者たちは、Sora の技術レポートと関連する参考文献に基づいて、patch n' pack (PNP) が解決策になる可能性があると考えています。

PNP は、NLP の例のパッキングと同様に、異なる画像からの複数のパッチをシーケンスにパックし、トークンを破棄することで可変長入力の効率的なトレーニングに適応します。

パッケージ化プロセスでは、これらのパッチをコンパクトにパッケージ化する方法と、どのパッチを破棄するかを制御する方法を考慮する必要があります。

最初の問題について、研究者らは、十分なスペースが残っている場合に例を追加し、シーケンスをトークンで埋めて、バッチ操作に必要な固定シーケンス長を取得する単純なアルゴリズムについて言及しました。

2 番目の問題に対する直感的なアプローチは、類似のトークンを破棄するか、PNP のような破棄レートスケジューラを適用することです。

ただし、トークンを破棄すると、トレーニング中に一部の詳細が失われる可能性があります。そのため、研究者たちは、OpenAI がビデオ内のすべてのトークンをパックするために非常に長いコンテキストウィンドウを使用している可能性があると考えています。

長いビデオの空間的および時間的な潜在パッチは 1 つのシーケンスにまとめることができますが、複数の短いビデオの潜在パッチは別のシーケンスに連結されます。

一般的に、データの前処理部分では、研究者らは、Sora が最初に視覚パッチを低次元の潜在表現に圧縮し、次にそのような潜在パッチまたはさらにパッチされた潜在パッチをシーケンスに配置し、次にこれらの潜在パッチを Diffusion Transformer の入力層に入力する前にノイズを注入すると推測しています。

Sora は、実装が容易で、情報密度の高いトークンのコンテキスト長を効果的に短縮し、その後の時間情報のモデリングの複雑さを軽減できるため、時空間パッチングを採用しています。

指示の調整: ビデオ説明ジェネレーター

モデル指示のチューニングは、AI モデルのプロンプトに従う能力を強化し、モデルがより幅広いユーザー要求に適応できるようにし、指示の細部にまで細心の注意を払い、ユーザーのニーズを正確に満たすビデオを生成することを目的としています。

この点では、Sora は DALL·E 3 と同様のアプローチを採用しています。

まず、ビデオを詳細に説明できるビデオキャプション作成者をトレーニングします。次に、トレーニングデータ内のすべてのビデオに適用され、高品質のビデオとテキストのペアが生成されます。これを使用して、Sora を微調整し、指示に従う能力が向上します。

Sora の技術論文では、ビデオ要約ツールのトレーニングの詳細は明らかにされていません。ビデオサマライザーはビデオからテキストへのモデルであるため、それを構築する方法は複数あります。

アプローチの 1 つは、ビデオの複数のフレームを取得し、各フレームを画像エンコーダー VideoCoCa に入力することで、CoCa アーキテクチャをビデオ要約に使用することです。

VideoCoCa は CoCa に基づいており、サンプリングされたビデオフレームに個別に適用される、事前トレーニング済みの画像エンコーダーの重みを再利用します。結果として得られるフレームトークンの埋め込みは平坦化され、長いビデオ表現シーケンスに連結されます。これらの平坦化されたフレームトークンは、次に、対照損失と要約生成損失を使用して共同でトレーニングされる生成プーラーと対照プーラーによって処理されます。

ビデオ説明ジェネレーターを構築するための他のオプションとしては、mPLUG-2、GIT、FrozenBiLM などがあります。

最後に、ユーザープロンプトがトレーニングデータの説明要約形式と一致するように、Sora は追加のプロンプト拡張ステップを実行し、GPT-4V を使用してユーザー入力を詳細な説明プロンプトに拡張します。

ビデオのヒントエンジニアリング

プロンプトエンジニアリングは、ユーザーが AI モデルを誘導して、自分の意図と一致するコンテンツを生成できるように設計されています。

プロンプトエンジニアリングに関するこれまでの研究は、LLM のプロンプトとテキスト生成画像に焦点を当てていましたが、研究者らは、ビデオ生成モデル用のビデオプロンプトが今後ますます注目されるようになると推測しています。

プロンプトエンジニアリングの有効性は、慎重な言葉の選択、明確な詳細、およびそれらの詳細がモデル出力にどのように影響するかについての深い理解に依存します。たとえば、以下の例では、プロンプトでアクション、環境、キャラクターのモデリング、さらには望ましい感情やシーンの雰囲気まで詳細に説明されています。

Sora は、視覚情報とテキスト情報を同時に活用して、静止画像をダイナミックで物語主導のビデオに変換することもできます。

さらに、Sora はビデオを前方または後方に拡大することもでき、プロンプトを通じて拡大の方向や主題などを指定することもできます。

下の図(a)では、ビデオプロンプトがソラにビデオを後方に延長するように指示しています。下の図（b）では、ビデオシーンを切り替える際に、モデルはプロンプトを通じて、必要なビデオスタイル、雰囲気、明暗の変化などの詳細を明確に理解する必要があります。図 (c) では、Sora がビデオを接続し、異なるシーン内のオブジェクト間をスムーズに遷移するように誘導するためにも、プロンプトエンジニアリングの取り組みが必要です。

ソラはマイルストーン

これは業界内外で大きな話題となり、ビデオ生成における GPT-3 と GPT-2 の瞬間と呼ばれています。Sora がマイルストーンと見なされる理由は何でしょうか?

Sora の画期的な進歩は、コンピュータービジョン(CV)分野における AI 生成モデルの開発の歴史を振り返ると、より明らかになるかもしれません。

過去 10 年間、生成 CV モデルの開発ではさまざまなアプローチが採用されてきました。

ディープラーニング革命以前は、従来の画像生成は、手作業で作成された特徴に基づくテクスチャ合成やテクスチャマッピングなどの方法に依存していました。
その後、生成的敵対的ネットワーク（GAN）、変分オートエンコーダ（VAE）、フローモデル、拡散モデルなどが次々と登場しました。
Transformer アーキテクチャは劇的な変化を遂げ、最初は NLP 分野で成功裏に適用され、その後 CV 分野のビジュアルコンポーネントと組み合わされ、ViT、Swin Transformer などが誕生しました。
同時に、拡散モデルは画像やビデオの生成の分野でも大きな進歩を遂げました。
2021年以降、AIマルチモダリティは変革を遂げました。 CLIPやStable Diffusionが次々と人気を博しました。

重要な点は、大規模言語モデルの分野では徐々にスケールの法則が現れ始めており、ChatGPT、GPT-4などが一定の新たな能力を発揮している点です。

しかし、視覚モデルもスケーリングの法則に従うかどうかは明らかではありません。

大規模視覚モデル(LVM)としての Sora はスケールの原則と一致しており、テキストからビデオへの生成におけるいくつかの新しい機能を明らかにします。この進歩は、LVM が LLM と同様の進歩を達成する可能性を浮き彫りにしています。

Sora の技術レポートによると、これは創発的な機能を発揮することが確認された最初の視覚モデルであり、コンピュータービジョンの分野における重要なマイルストーンとなります。

前述のように、Sora は新たな機能に加えて、コマンドの追従、視覚的な手がかりのエンジニアリング、ビデオの理解といった機能においても大きな進歩を遂げています。

たとえば、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成でき、ユーザーがプロンプトで何を求めているかを理解するだけでなく、単純なオブジェクトが物理世界にどのように存在するかを理解しているようです。また、1 つのビデオに複数のショットを作成し、言語に対する深い理解を活用してヒントを正確に解釈し、キャラクターと視覚的なスタイルを維持することもできます...

ソラの5つの主な応用の可能性と限界

研究者らは、Sora にはシミュレーション機能の向上、創造性の促進、教育革新の推進、アクセシビリティの向上、新しいアプリケーションの促進という 5 つの主要な特徴があると結論付けました。

最後に、Sora の 5 つのアプリケーションシナリオをまとめます。

1.映画制作：Sora のアプリケーションは映画制作の分野において革命的です。テキストスクリプトを映画風のビデオに変換できるため、映画制作のハードルが下がり、個人のクリエイターが映画コンテンツを制作できるようになります。

2.教育: 教育分野では、Sora はシラバスやテキストの説明を動的なビデオコンテンツに変換し、学生の関与と理解を向上させ、教育資料をカスタマイズしてアクティブ化する前例のない機会を提供します。

3.ゲーム: 従来のゲーム開発は、事前にレンダリングされた環境とスクリプト化されたイベントに限定されることがよくあります。拡散モデルは、ダイナミックで忠実度の高いビデオコンテンツとリアルなサウンドをリアルタイムで生成できるため、既存の制限を克服し、プレイヤーのアクションやゲームイベントに有機的に反応する進化するゲーム環境を作成するためのツールを開発者に提供します。

4.ヘルスケア：医療分野では、早期アポトーシス、皮膚病変の進行、不規則な人体の動きなど、体内の動的な異常を特定するのに特に適しており、病気の早期発見や介入戦略に不可欠です。

5.ロボット工学: ロボット工学では、Sora はロボットの視覚認識と意思決定能力を強化することができます。環境と対話し、これまでにない複雑さと精度でタスクを実行できるようになります。

しかし、Sora は AI ビデオ生成の分野で大きな進歩を遂げているにもかかわらず、依然としていくつかの課題に直面しています。

生成されたコンテンツの偏りに対処し、有害な視覚コンテンツの作成を防ぎ、Sora の出力が安全で偏りのないものであることを保証することは、大きな課題です。

さらに、次のような制限もあります。

物理的なリアリズムの課題: Sora は複雑なシーンの物理法則の処理に一貫性がありません。たとえば、クッキーを食べても必ずしも噛み跡が残るわけではありません。
空間的および時間的な複雑さ: ソラは、空間レイアウトや時間的順序に関する指示を正確に理解することが困難な場合があり、その結果、オブジェクトやキャラクターの配置や配列に関して混乱が生じます。
人間とコンピュータの相互作用の制限: 生成されたコンテンツに対してユーザーが詳細な変更や最適化を行うことは困難です。
使用制限: OpenAI はまだ Sora を一般に公開しておらず、セキュリティ、プライバシー保護、コンテンツレビューの面で Sora にさらなる改善とテストが必要になる可能性があります。現在、Sora は最長 1 分間のビデオしか生成できないため、より長いコンテンツの表示が必要なアプリケーションシナリオでの使用は制限されます。

詳細については、興味のある家族は原著論文を参照してください。