現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興味を持っているのは、OpenAI がどのようにして Sora を発見したかということです。今後の進化と応用の方向性は何でしょうか? Sora の技術レポートではいくつかの技術的な詳細が明らかにされていますが、全体像を示すにはまだまだ不十分です。 最近の論文では、Microsoft Research と Lehigh 大学の研究者が、公開された技術レポートとリバース エンジニアリングに基づいて、Sora の背景、関連テクノロジ、新しいアプリケーション、現在の制限、将来の可能性について初めて包括的なレビューを行っています。
背景Sora を分析する前に、研究者たちはまずビジュアル コンテンツ生成技術の系譜を評価しました。 ディープラーニング革命以前は、従来の画像生成技術は、手作業で作成された特徴に基づくテクスチャ合成やテクスチャ マッピングなどの方法に依存していました。これらの方法では、複雑で鮮明な画像を生成する能力が限られています。 図 3 に示すように、視覚の生成モデルは過去 10 年間で多様な開発の道筋を経てきました。 敵対的生成ネットワーク (GAN) と変分オートエンコーダー (VAE) の導入は、さまざまなアプリケーションで並外れた能力を発揮し、重要な転換点となりました。フロー モデルや拡散モデルなどのその後の開発により、生成される画像の詳細と品質がさらに向上しました。人工知能生成コンテンツ (AIGC) 技術の最近の進歩により、コンテンツ作成が民主化され、ユーザーは簡単なテキスト指示で必要なコンテンツを生成できるようになりました。 BERT と GPT が Transformer アーキテクチャを NLP に適用することに成功した後、研究者たちは、Transformer アーキテクチャを視覚コンポーネントと組み合わせて下流の CV タスクに適用できるようにするなど、それを CV 分野に移行しようと試みました。これには、この概念をさらに発展させた Vision Transformer (ViT) や Swin Transformer が含まれます。 Transformer は成功しましたが、拡散モデルも画像やビデオの生成において大きな進歩を遂げました。拡散モデルは、U-Net を使用してノイズを画像に変換するための数学的に健全なフレームワークを提供し、各ステップでノイズを予測して軽減することを学習することでこのプロセスを容易にします。 2021年以降、人間の指示を解釈できる生成言語や視覚モデル、いわゆるマルチモーダルモデルが人工知能の分野で話題になっています。 CLIP は、Transformer アーキテクチャと視覚要素を組み合わせた画期的な視覚言語モデルであり、大規模なテキストおよび画像データセットでのトレーニングを容易にします。 CLIP は、最初から視覚と言語の知識を統合することにより、マルチモーダル生成フレームワーク内で画像エンコーダーとして機能します。 もう 1 つの注目すべき例は、適応性と使いやすさで知られる多目的のテキストから画像への AI モデルである Stable Diffusion です。 Transformer アーキテクチャと潜在拡散技術を採用し、テキスト入力をデコードしてさまざまなスタイルの画像を生成し、マルチモーダル AI の進歩をさらに示しています。 2022年11月にChatGPTがリリースされた後、2023年にはStable Diffusion、Midjourney、DALL-E 3など、多数の商用テキスト画像変換製品が登場しました。これらのツールにより、ユーザーは簡単なテキストプロンプトを通じて高解像度かつ高品質の新しい画像を生成できるようになり、クリエイティブな画像生成における AI の可能性を実証します。 ただし、ビデオの時間的な複雑さのため、テキストから画像、テキストからビデオへの移行は困難です。産業界と学界の多くの努力にもかかわらず、Pika や Gen-2 などの既存のビデオ生成ツールのほとんどは、数秒の短いビデオ クリップの生成に限定されています。 この文脈において、Sora は、ChatGPT が NLP の分野に与えた影響と同様に、大きなブレークスルーです。 Sora は、最初のフレームから最後のフレームまで連続性と視覚的な一貫性を保ちながら、高画質と説得力のある視覚的一貫性を維持しながら、人間の指示から最大 1 分間のビデオを生成できる初のモデルです。 これは、生成 AI の研究開発に広範囲にわたる影響を与えるマイルストーンです。 図 2 に示すように、Sora は複雑な人間の指示を正確に解釈して実行する優れた能力を発揮します。このモデルは、複雑な背景に対して複数のキャラクターが特定のアクションを実行する詳細なシーンを生成できます。研究者たちは、Sora はユーザーが生成したテキストプロンプトの処理に優れているだけでなく、シーン内のさまざまな要素間の複雑な相互作用を識別することもできると考えています。 Sora の進歩は、以前のビデオ生成モデルの特徴である短いクリップや単純な視覚的レンダリングの制限を克服し、微妙な動きとインタラクティブな描写を備えた拡張ビデオ シーケンスを生成できる点にもあります。この機能は AI を活用したクリエイティブ ツールの飛躍的な進歩を表し、ユーザーは書かれた物語を豊かな視覚的ストーリーに変換できるようになります。 これらの進歩は、描写されたシーンの物理的性質と文脈的ダイナミクスに関する微妙な洞察を提供できる世界シミュレーターとしての Sora の可能性を示しています。 読者が視覚生成モデルの最新の進歩を確認しやすいように、研究者らは論文の付録に最近の代表的な研究結果をまとめました。 テクノロジー控除Sora のコアは、事前にトレーニングされた拡散型トランスフォーマーです。 Transformer モデルは、多くの自然言語タスクにおいてスケーラブルかつ効果的であることが証明されています。 GPT-4 などの強力な大規模言語モデル (LLM) と同様に、Sora はテキストを解析し、複雑なユーザー指示を理解することができます。ビデオ生成の計算効率を向上させるために、Sora は時空間潜在パッチを構成要素として採用しています。 具体的には、Sora は生の入力ビデオを潜在的な時空間表現に圧縮します。次に、圧縮されたビデオから一連の潜在的な時空間パッチを抽出し、短時間間隔内の視覚的な外観と動きのダイナミクスをキャプチャします。これらのスニペットは言語モデルの単語トークンに似ており、Sora にビデオの構築に使用できる詳細な視覚フレーズを提供します。 Sora のテキストからビデオへの生成は、拡散型 Transformer モデルによって行われます。モデルは、視覚的なノイズがいっぱいのフレームから始めて、画像のノイズを反復的に除去し、提供されたテキストの手がかりに基づいて特定の詳細を導入します。基本的に、結果として得られるビデオは、複数のステップから成る改良プロセスを経て作成され、各ステップでビデオが改良されて、希望するコンテンツと品質との一貫性が高まります。 図 4 に示すように、Sora の中核となるのは、柔軟なサンプリング次元を備えた拡散トランスフォーマーです。これは3つの部分から構成されます: (1) 時空間コンプレッサーはまず元のビデオを潜在空間にマッピングします。 (2)次に、ViTはトークン化された潜在表現を処理し、ノイズ除去された潜在表現を出力する。 (3)CLIPのような調節機構は、LLM強化されたユーザー指示と潜在的な視覚的手がかりを受け取り、拡散モデルを誘導して様式化された、またはテーマ化されたビデオを生成します。多くのノイズ除去ステップの後、生成されたビデオの潜在表現が取得され、対応するデコーダーを通じてピクセル空間にマッピングされます。 このセクションでは、Sora で使用される手法をリバース エンジニアリングし、関連するさまざまな作業について説明します。 データ前処理 Sora の注目すべき機能は、図 5 に示すように、ビデオや画像を元のサイズでトレーニング、理解、生成できることです。従来の方法では、通常、均一なビデオや画像に合わせてビデオのサイズ変更、トリミング、またはアスペクト比の調整が行われます。 Diffused Transformer アーキテクチャを活用した Sora は、視覚データの多様性を取り入れた初のモデルであり、ワイドスクリーンの 1920x1080p ビデオから垂直の 1080x1920p ビデオまで、さまざまなビデオおよび画像形式にわたってサンプリングを行い、元の寸法に影響を与えません。 図 6 に示すように、Sora によって生成されたビデオは被写体をより適切に表現でき、被写体がシーン内に完全に収まっていることが保証されます。一方、他のビデオではビューが切り取られたり切り取られたりして、被写体がフレームから外れてしまうことがあります。 統一された視覚的表現。さまざまな期間、解像度、アスペクト比の画像やビデオを効率的に処理するには、あらゆる形式の視覚データを統一された表現に変換することが重要です。 Sora は、まずビデオを低次元の潜在空間に圧縮し、次に表現を時空間パッチに分解してビデオをパッチ化することで機能します。しかし、Sora の技術レポートを振り返ってみると、彼らは高レベルのアイデアしか提案しておらず、それを再現するには研究コミュニティにとって課題がありました。以下のセクションでは、Sora の技術的パスをリバース エンジニアリングし、既存の文献を参考にして Sora を再現するための実行可能な代替案について説明します。 1 つ目はビデオ圧縮ネットワークです。 Sora のビデオ圧縮ネットワーク (またはビジュアル エンコーダー) は、入力データ (特に生のビデオ) の次元を削減し、図 7 に示すように、時間と空間で圧縮された潜在表現を出力することを目的としています。技術レポートの参照によると、Sora 圧縮ネットワークは VAE または VQ-VAE テクノロジに基づいています。 しかし、技術論文で説明されているようにビデオや画像のサイズ変更やトリミングを行わないと、VAE が任意のサイズの視覚データを均一で固定サイズの潜在空間にマッピングするのは非常に困難です。この記事では、この問題を解決するための 2 つの異なる実装をまとめます。 空間パッチ圧縮では、ViT や MAE で使用されるアプローチと同様に、ビデオ フレームを固定サイズのパッチに変換し (図 8 を参照)、潜在空間にエンコードします。このアプローチは、さまざまな解像度やアスペクト比のビデオに適応するのに特に効果的です。これらの空間トークンは、時間的な順序に従って整理され、時間的および空間的な潜在的表現が作成されます。 時間的空間的パッチ圧縮: この技術は、ビデオ データの空間的次元と時間的次元の両方をカプセル化し、包括的な表現を提供することを目的としています。この技術は、静的なフレームを分析するだけでなく、フレーム間の動きや変化も考慮し、ビデオの動的な情報をキャプチャします。 3D 畳み込みの利用は、このような統合を実現するためのシンプルで効果的な方法になります。 図 9 は、さまざまなビデオ圧縮方法の比較を示しています。空間パッチ圧縮と同様に、事前に決定された畳み込みカーネル パラメータ (固定カーネル サイズ、ストライド、出力チャネルなど) を使用して時間空間パッチ圧縮を使用すると、異なる潜在空間次元が生成されます。この課題を軽減するために、空間パッチ化によって採用されたアプローチも適用可能であり、この場合にも効果的です。 要約すると、本論文では、パッチの方がさまざまな種類のビデオを処理できる柔軟性が高いため、VAE またはそのバリエーションである VQ-VQE に基づく 2 つのパッチ レベル圧縮方式をリバース エンジニアリングします。 Sora は高忠実度のビデオを生成することを目的としているため、効率的な圧縮のために、より大きなパッチまたはカーネル サイズが使用されます。ここでは、操作、スケーラビリティ、トレーニングの安定性を簡素化するために、固定サイズのパッチを使用する予定です。ただし、フレームまたはビデオ全体の寸法が潜在空間内で一定に保たれるように、異なるサイズのパッチを使用することも可能です。ただし、これにより位置のエンコーディングが無効になり、デコーダーが異なるサイズの潜在パッチを持つビデオを生成するのに課題が生じる可能性があります。 圧縮ネットワーク部分には、もう 1 つの重要な問題があります。それは、パッチを拡散トランスフォーマーの入力層に送る前に、潜在空間の次元の変化 (つまり、さまざまなビデオ タイプの潜在的な特徴ブロックまたはパッチの数) をどのように処理するかということです。ここではいくつかの解決策について説明します。 Sora の技術レポートと関連資料によると、patch n' pack (PNP) が適切な解決策です。図 10 に示すように、PNP は異なる画像からの複数のパッチを 1 つのシーケンスにパックします。このアプローチは、自然言語処理で使用されるサンプル パッキングにヒントを得たもので、トークンを破棄することでさまざまな長さの入力に対する効率的なトレーニングを可能にします。ここでは、パッチ適用とトークンの埋め込み手順を圧縮ネットワークで実行する必要がありますが、Sora は Diffusion Transformer のように Transformer トークンをさらにパッチ適用する場合があります。 2 回目のパッチがあるかどうかにかかわらず、これらのトークンをコンパクトにまとめる方法と、破棄するトークンを制御する方法という 2 つの問題を解決する必要があります。 最初の問題に対して、研究者らは、最初のシーケンスに十分なスペースを残してサンプルを追加するという単純な「貪欲」アルゴリズムを使用しました。サンプルが収まらなくなると、シーケンスはパディング トークンで埋められ、バッチ操作に必要な固定シーケンス長になります。この単純なパッキング アルゴリズムでは、入力長の分布に応じて、大量のパディングが発生する可能性があります。一方、シーケンスの長さを調整し、パディングを制限することで、サンプリング解像度とフレーム数を制御し、効率的なパッキングを実現できます。 2 番目の問題に対する直感的なアプローチは、同様のトークンを破棄するか、PNP のような破棄レート スケジューラを使用することです。しかし、3次元の一貫性はSoraの優れた特性の1つであることは注目に値します。トレーニング中にトークンをドロップすると、細かい詳細が見落とされる可能性があります。そのため、研究者たちは、OpenAI は計算コストが高くなるにもかかわらず、超長いコンテキスト ウィンドウを使用してビデオ内のすべてのトークンをパックする可能性が高いと考えています。たとえば、マルチヘッド アテンション オペレーターは、シーケンスの長さに 2 次コストを示します。具体的には、長いビデオ内の時空間潜在パッチを 1 つのシーケンスにまとめることができ、複数の短いビデオ内の時空間潜在パッチを別のシーケンスに連結することができます。 モデリング
従来の拡散モデルでは、主に、ノイズ除去ネットワークのバックボーンとして、ダウンサンプリング ブロックとアップサンプリング ブロックを含む畳み込み U-Net が利用されます。しかし、最近の研究では、U-Net アーキテクチャは拡散モデルの良好なパフォーマンスにとって重要ではないことが示されています。 より柔軟な Transformer アーキテクチャを採用することで、Transformer ベースの拡散モデルは、より多くのトレーニング データとより大きなモデル パラメータを使用できるようになります。この考え方に沿って、DiT と U-ViT は、潜在拡散モデルに視覚トランスフォーマーを使用する最初の研究です。 ViT と同様に、DiT も、マルチヘッド自己注意層とインターリーブ層ノルムおよびスケーリング層を備えたポイント単位のフィードフォワード ネットワークを使用します。図 11 に示すように、DiT も AdaLN によって調整され、ゼロ初期化用の MLP レイヤーを追加して各残差ブロックを恒等関数に初期化し、トレーニング プロセスを大幅に安定化します。 DiT のスケーラビリティと柔軟性は経験的に検証されています。 U-ViT では、図 11 に示すように、時間的、条件付き、ノイズの多い画像フラグメントを含むすべての入力がトークンとして考慮され、浅い Transformer レイヤーと深い Transformer レイヤーの間に長いスキップ接続が提案されます。結果は、CNN ベースの U-Net のダウンサンプリングおよびアップサンプリング演算子が必ずしも必要ではなく、U-ViT が画像およびテキストから画像への生成において記録破りの FID スコアを達成することを示しています。 マスクオートエンコーダー (MAE) と同様に、マスク拡散トランスフォーマー (MDT) も拡散プロセスにマスク潜在モデルを組み込んで、画像合成におけるオブジェクトの意味部分間のコンテキスト関係の学習を明示的に強化します。 具体的には、図 12 に示すように、MDT はトレーニング中に追加のマスクされたトークン再構築タスクにサイド補間学習を使用して、トレーニング効率を向上させ、推論のための強力なコンテキスト認識位置埋め込みを学習します。 DiT と比較して、MDT はより優れたパフォーマンスとより速い学習速度を実現します。 Hatamizadeh らは、AdaLN (シフトとスケール) を使用して時間的条件をモデル化する代わりに、時間依存自己注意 (TMSA) モジュールを使用してサンプリング時間ステップ内の動的なノイズ除去動作をモデル化する Diffusion Vision Transformers (DiffiT) を導入しました。さらに、DiffiT は、ピクセル空間と潜在空間でそれぞれ効率的なノイズ除去を行う 2 つのハイブリッド階層アーキテクチャを採用し、さまざまな生成タスクで新しい高度な結果を実現します。要約すると、これらの研究は、視覚トランスフォーマーを使用した画像の潜在的拡散が有望な結果を達成し、他のモダリティの研究への道を開いたことを示しています。
テキストから画像への (T2I) 拡散モデルを基にして、最近のいくつかの研究では、テキストからビデオへの (T2V) 生成タスクにおける拡散トランスフォーマーの可能性を活用することに焦点を当てています。ビデオの時空間特性のため、ビデオ領域に DiT を適用する際の主な課題は、i) 効率的なノイズ除去のためにビデオを空間的および時間的に潜在空間に圧縮する方法、ii) 圧縮された潜在空間をパッチに変換して Transformer に入力する方法、iii) 長いシーケンスの時空間依存性を処理してコンテンツの一貫性を確保する方法です。 ここでは、Transformer ベースのノイズ除去ネットワーク アーキテクチャ (時間的に圧縮された潜在空間で動作するように設計) について説明します。以下は、OpenAI Sora 技術レポートの参考文献リストで紹介されている 2 つの重要な研究 (Imagen Video と Video LDM) の詳細なレビューです。 Imagen Video は、Google Research が開発したテキストからビデオへの生成システムで、カスケード拡散モデル (それぞれテキスト条件付きビデオ生成、空間的超解像、時間的超解像を実行する 7 つのサブモデルで構成) を使用してテキスト キューを高解像度ビデオに変換します。 図 13 に示すように、まず、凍結された T5 テキスト エンコーダーは、入力テキスト プロンプトに基づいてコンテキスト埋め込みを生成します。これらの埋め込みは、生成されたビデオをテキストプロンプトと一致させるために重要であり、ベースモデルを除くカスケード内のすべてのモデルに挿入されます。その後、埋め込み情報がベースモデルに注入され、低解像度のビデオが生成されます。その後、カスケード拡散モデルによってビデオが精製され、解像度が向上します。基本ビデオおよび超解像度モデルは、時空間的に分離可能な 3D U-Net アーキテクチャを採用しています。このアーキテクチャは、時間的注意層と畳み込み層を空間対応層と組み合わせて、フレーム間の依存関係を効果的にキャプチャします。数値安定性と条件強化のための v-predict パラメータ化を採用し、モデル間の並列トレーニングを容易にします。 このプロセスには、画像とビデオを共同でトレーニングし、各画像をフレームとして扱ってより大きなデータセットを活用し、分類器を使用しないブートストラップを使用してキューの忠実度を向上させることが含まれます。プログレッシブ蒸留はサンプリング プロセスを簡素化するために使用され、知覚品質を維持しながら計算負荷を大幅に削減します。これらの方法とテクノロジーを組み合わせることで、Imagen Video は高忠実度のビデオを生成するだけでなく、優れた制御性も備えており、多様なビデオ、テキストアニメーション、さまざまな芸術的なスタイルのコンテンツを生成する能力に反映されています。 Blattmann らは、2D 潜在拡散モデルをビデオ潜在拡散モデル (ビデオ LDM) に変換することを提案しました。これを実現するために、研究者らは、U-Net バックボーンおよび VAE デコーダーの既存の空間レイヤーにいくつかの時間レイヤーを追加し、個々のフレームを整列させる方法を学習しました。これらの時間レイヤーはエンコードされたビデオ データでトレーニングされ、空間レイヤーは固定されたままなので、モデルを大規模な画像データセットで事前トレーニングできます。 LDM のデコーダーは、ピクセル空間での時間的一貫性を実現するために微調整でき、時間整合された拡散モデル アップサンプラーによって空間解像度が向上します。 非常に長いビデオを生成するために、著者らは将来のフレームのコンテキスト フレームの数を予測するようにモデルをトレーニングし、それによってサンプリング プロセスで分類器のガイダンスを実現しませんでした。高い時間解像度を実現するために、著者らはビデオ合成プロセスをキーフレーム生成とキーフレーム間の補間に分割しました。 LDM をカスケード接続した後、ビデオ LDM 出力は DM を使用してさらに 4 倍にアップスケールされ、時間的な一貫性を維持しながら高い空間解像度が確保されます。このアプローチにより、計算効率の高い方法で、全体的に一貫性のある長いビデオを生成できます。さらに、著者らは、安定拡散などの事前トレーニング済みの画像 LDM をテキストからビデオへのモデルに転送する能力を実証し、時間的アライメント層をトレーニングするだけで最大 1280 × 2048 解像度のビデオ合成を可能にします。 言語指導の続き テキストからビデオへのモデルがテキストの指示に従う能力を向上させるために、Sora は DALL・E 3 と同様のアプローチを使用します。 DALL・E 3 の指示追従は、モデルがトレーニングされるテキストと画像のペアの品質が最終的なテキストと画像モデルのパフォーマンスを決定するという仮定に基づく記述改善アプローチによって対処されます。データの品質が低い場合、特に、いたるところに見られるノイズの多いデータや、多くの視覚情報を省略した短いタイトルは、キーワードや語順の無視、ユーザーの意図の誤解など、多くの問題を引き起こす可能性があります。説明改善方法は、既存の画像に詳細な説明を再度追加することでこれらの問題に対処します。このアプローチでは、まず画像キャプション作成者(視覚言語モデル)をトレーニングして、正確でわかりやすい画像の説明を生成します。記述子によって生成された説明的な画像キャプションは、テキストから画像へのモデルを微調整するために使用されます。 具体的には、DALL・E 3 は、コントラスト記述子 (CoCa) を採用し、CLIP アーキテクチャと言語モデルの目的を備えた画像記述子を共同でトレーニングします。画像記述子は、画像エンコーダー、言語情報を抽出するためのユニモーダル テキスト エンコーダー、およびマルチモーダル テキスト デコーダーで構成されます。まず、単峰性画像とテキスト埋め込み間の対照損失を採用し、次にマルチモーダルデコーダーの出力に記述損失を適用します。結果として得られる画像記述子は、主なオブジェクト、周囲、背景、テキスト、スタイル、色など、画像の非常に詳細な説明に基づいてさらに微調整されます。このステップを通じて、画像記述子は画像の詳細な説明を生成することができます。テキストから画像へのモデルのトレーニング データセットは、画像キャプション ジェネレーターによって生成された再記述データセットと、モデルがユーザー入力を確実にキャプチャできるようにするための実際の人間が書いたデータの組み合わせです。 画像キャプションの改善に対するこのアプローチには、実際のユーザープロンプトがトレーニングデータ内の説明的な画像キャプションと一致しないという潜在的な問題があります。 DALL・E 3 はアップサンプリング、つまり LLM を使用して短いユーザープロンプトを詳細で長い指示に書き換えることでこの問題を解決します。これにより、推論時にモデルが受信したテキスト入力が、モデルのトレーニングに使用されたテキスト入力と一致することが保証されます。 命令トレース機能を改善するために、Sora は同様の記述改善アプローチを使用します。このアプローチは、まずビデオの詳細な説明を作成できるビデオキャプション作成者をトレーニングすることによって機能します。このビデオ キャプション作成ツールは、トレーニング データ内のすべてのビデオに適用され、高品質の (ビデオ、キャプション) ペアを生成し、Sora を微調整してコマンド追従能力を向上させるために使用されます。 Sora の技術論文では、ビデオキャプション作成者がどのようにトレーニングされたかについての詳細は明らかにされていません。ビデオ キャプション作成ツールはビデオからテキストへのモデルであるため、それを構築する方法は多数あります。 最も簡単な方法は、CoCa アーキテクチャを活用して、ビデオの複数のフレームを取得し、各フレームを画像エンコーダー (VideoCoCa) に入力することで、ビデオの説明を作成することです。 VideoCoCa は、画像エンコーダーの事前トレーニング済みの重みを再利用して CoCa を構築し、サンプリングされたビデオ フレームにそれらを個別に適用します。結果として得られるフレーム トークンの埋め込みは平坦化され、長い一連のビデオ表現に連結されます。これらの平坦化されたフレーム トークンは、生成プーリング層と対照プーリング層によって処理され、対照損失と記述損失を使用して共同でトレーニングされます。 ビデオの説明を作成するために使用できる他の方法には、mPLUG-2、GIT、FrozenBiLM などがあります。 最後に、ユーザープロンプトがトレーニングデータの説明と同じ形式であることを確認するために、Sora は追加のプロンプト拡張ステップも実行します。このステップでは、GPT-4V を使用してユーザー入力を詳細な説明プロンプトに拡張します。 しかし、Sora の記述子をトレーニングするためのデータ収集プロセスは不明瞭であり、ビデオの詳細な説明が必要になるため、労力がかかる可能性があります。さらに、説明的なビデオの説明は、ビデオの重要な詳細について誤解を生む可能性があります。この論文の著者は、ビデオの説明を改善する方法についてはさらなる研究が必要であり、それがテキストから画像へのモデルの指示追跡機能を改善するために重要であると考えています。 ヒントエンジニアリング
テキストヒントエンジニアリングは、テキストからビデオへのモデルをガイドして、視覚的に魅力的で、ユーザーの仕様を正確に満たすビデオを作成するために重要です。これには、人間の創造性と AI 実行能力のギャップを効果的に埋めるためのモデルを導く詳細な説明を作成する必要があります。 ソラのヒントは幅広いシナリオをカバーしています。 VoP、Make-A-Video、Tune-A-Video などの最近の研究は、プロンプト エンジニアリングがモデルの自然言語理解機能を活用して複雑な指示を解読し、首尾一貫した鮮明で高品質のビデオ ナレーションとして提示する方法を示しています。 図 15 に示すように、「おしゃれな女性がネオンに照らされた東京の通りを歩いています…」は、非常に慎重に作成されたテキスト プロンプトであり、これにより、Sora によって生成されたビデオが意図した視覚効果と非常に一致することが保証されます。プロンプト エンジニアリングの品質は、言葉の慎重な選択、提供される詳細の具体性、およびそれらがモデル出力に与える影響の理解によって決まります。たとえば、図 15 のプロンプトでは、アクション、設定、キャラクターの外観、さらにはシーンの望ましいムードや雰囲気まで詳細に示されています。
画像キューは、これから再生されるビデオ コンテンツや、登場人物、シーン、感情などの他の要素の視覚的なアンカーを提供します。さらに、テキスト キューを使用してモデルにこれらの要素をアニメーション化するように指示することもできます。たとえば、動き、インタラクティブ性、物語の進行のレイヤーを追加して、静止画像に命を吹き込むことができます。 Sora は、画像キューを使用することで、視覚情報とテキスト情報を活用して、静的な画像をダイナミックで物語主導のビデオに変換できます。 図16は、「ベレー帽とタートルネックをかぶった柴犬」、「ユニークなモンスターの家族」、「SORAという文字を形成する雲」、「歴史的なホールで潮に乗るサーファー」のAI生成ビデオを示しています。これらの例は、DALL·E によって生成された画像を使用して Sora が何ができるかを示しています。
ビデオプロンプトはビデオ生成にも使用できます。最近の研究 (Moonshot や Fast-Vid2Vid など) では、優れたビデオ キューは具体的かつ柔軟である必要があることが示されています。これにより、モデルは特定の目標(特定のオブジェクトや視覚テーマの描写など)について明確なガイダンスを受け取ることができ、最終的な出力に想像力豊かなバリエーションを加えることも可能になります。 たとえば、ビデオ拡張タスクでは、プロンプトで拡張の方向 (時間の前方または後方) とコンテキストまたは主題を指定できます。図 17 (a) では、ビデオ キューは Sora にビデオの一部を後方に拡張して、元の開始点につながったイベントを探索するように指示します。図17(b)に示すように、ビデオキューを介してビデオ間の編集を実行する場合、モデルは、ビデオのスタイル、シーン、雰囲気の変更や、照明やムードなどの微妙な側面の変更など、目的の変換を明確に理解する必要があります。図 17 (c) では、プロンプトは Sora に、ビデオ内の異なるシーンのオブジェクト間のスムーズな遷移を確保しながらビデオを接続するように指示します。 プロンプトエンジニアリングに関するこれまでの研究は、主に LLM および LVM のテキストおよび画像プロンプトに焦点を当ててきましたが、ビデオ生成モデルのビデオプロンプトに対する研究者の関心が高まることが予想されます。 応用Soraに代表されるビデオ拡散モデル技術の進歩により、さまざまな研究分野や産業への応用が急速に加速しています。 著者らは、この技術の影響は単なるビデオ作成をはるかに超えており、自動コンテンツ生成から複雑な意思決定プロセスまで、幅広いタスクに変革をもたらす可能性を秘めていると指摘している。 この論文の第 4 章では、ビデオ拡散モデルの現在のアプリケーションを包括的に検討し、実際の展開シナリオに幅広い視点を提供することを目的としています (図 18)。
具体的には、以下の業界が変化に直面するでしょう。 映画とテレビ 伝統的に、映画の制作は困難で費用のかかるプロセスであり、多くの場合、何十年もの労力、最先端の設備、そして莫大な資金投資が必要になります。高度なビデオ生成技術の登場により、映画制作における新しい時代の到来が告げられ、単純なテキスト入力から映画を自動的に生成するという夢が現実になりつつあります。実際、研究者たちはすでに映画生成の分野に進出し、ビデオ生成モデルを映画制作に拡張しています。 Moviefactoryは、拡散モデルを適用して、ChatGptが作成した慎重に作成されたスクリプトから映画スタイルのビデオを生成することにより、大きな飛躍を遂げます。その後の調査では、MobileVidFactoryは、ユーザーが提供する単純なテキストのみを使用して、垂直モバイルビデオを自動的に生成できます。 Vloggerを使用すると、ユーザーは最大1分間のブログを作成できます。 魅力的な映画のコンテンツを簡単に生成するソラの能力は、これらの開発を象徴し、映画制作の民主化における極めて重要な瞬間をマークします。彼らは、誰もが映画製作者になることができる未来を垣間見ることができ、業界への参入に対する障壁を大幅に下げ、伝統的なストーリーテリングとAI主導の創造性を融合させる映画製作に新しい次元を導入します。これらのテクノロジーの影響は、単純化を超えています。彼らは、映画制作の風景を再構築することを約束し、視聴者の好みと流通チャネルの変化に直面して、よりアクセスしやすく、より多用途なものにします。 ゲーム ゲーム業界は、リアリズムと没入の境界を押し広げる方法を常に探していますが、従来のゲーム開発は、事前にレンダリングされた環境とスクリプトイベントによって制限されることがよくあります。拡散モデル効果を通じて、ダイナミックで忠実なビデオコンテンツとリアルタイムでリアルなサウンドエフェクトを生成することは、既存の制限を克服し、開発者にプレーヤーの行動やゲームイベントに有機的に反応する絶えず変化するゲーム環境を作成するツールを提供することが期待されます。これには、変化する気象条件の生成、風景の変更、さらにはその場でまったく新しい設定を作成することが含まれ、ゲームの世界をより没入した応答性を高めることが含まれます。一部の方法では、ゲームのオーディオエクスペリエンスを向上させるために、ビデオ入力からの現実的な影響音を合成することもできます。 SORAがゲームの状況に統合されると、プレイヤーを引き付けて魅了する比類のない没入型体験が生まれます。ゲームの開発、プレイ、経験の方法が革新され、ストーリーテリング、インタラクティブ性、没入感のある体験の新しい可能性がもたらされます。 医学 その生成能力にもかかわらず、ビデオ拡散モデルは複雑なビデオシーケンスの理解と生成に優れているため、初期のアポトーシス、皮膚病変の進行、および初期疾患の検出と介入戦略に重要な不規則なヒトの動きなど、人体の動的異常を特定するのに特に適しています。さらに、Medsegdiffv2などのモデルは、変圧器の力を活用して、前例のない精度で医療画像をセグメント化し、臨床医が精度を向上させてさまざまなイメージングモダリティに関心のある領域を特定できるようにします。 SORAを臨床診療に統合することは、診断プロセスを改善するだけでなく、患者ケアをパーソナライズするための正確な医療イメージング分析に基づいて調整された治療計画を提供することが期待されています。ただし、この技術統合は、強力なデータプライバシー対策を採用し、ヘルスケアの倫理的問題に対処する必要性など、多くの課題をもたらします。 ロボット ビデオ拡散モデルは現在、ロボット工学で重要な役割を果たしており、ロボットが認識と意思決定を強化するために複雑なビデオシーケンスを生成および解釈できる新しい時代を示しています。これらのモデルは、ロボットの新しい機能のロックを解除し、環境と対話し、前例のない複雑さと精度でタスクを実行できるようにします。ネットワーク規模の拡散モデルをロボットに導入することは、ロボットの視力と理解の能力を高めるために大規模モデルを使用する可能性を示しています。潜在的な拡散モデルは、言語誘導ビデオ予測に使用され、ビデオ形式のアクションの結果を予測することにより、ロボットがタスクを理解および実行できるようにします。さらに、ビデオ拡散モデルは非常に現実的なビデオシーケンスを作成し、シミュレートされた環境に依存するロボット研究の問題を革新的に解決することができます。これにより、ロボットの多様なトレーニングシナリオが生成され、実際のデータの不足によって引き起こされる制限が軽減されます。 SORAなどのテクノロジーをロボット工学に統合すると、画期的な開発が約束されます。ソラの力を活用することにより、将来のロボット工学は前例のない進歩を見ることができ、ロボットは周囲とシームレスにナビゲートしてやり取りできるようになります。 制限最後に、研究者は、ソラの新しい技術のリスクと制限を指摘しました。 ChatGPT、GPT4-V、SORAなどの複雑なモデルが急速に発展することで、これらのモデルの機能は大幅に改善されています。これらの開発は、仕事の効率を改善し、技術の進歩を促進することに大きく貢献しています。しかし、これらの進歩は、偽のニュースの作成、プライバシー侵害、倫理的ジレンマの作成など、これらの技術の潜在的な誤用についての懸念も提起しています。したがって、大規模なモデルの信頼性の問題は、学界や産業から広範囲にわたる注目を集めており、現在の研究と議論の焦点となっています。 ソラの成果は人工知能の大きな進歩を強調していますが、課題は残っています。モデルは、複雑な動きを描写したり、微妙な表情を捕まえたりすることになると、改善する必要があります。さらに、生成されたコンテンツのバイアスを減らしたり、有害な視覚出力を防ぐなどの倫理的考慮事項は、開発者、研究者、より広いコミュニティによる責任ある使用の重要性を強調しています。 SORAの出力が常に安全であり、公平でないことを保証することは大きな課題です。 しかし、ビデオ生成の開発により、学術および産業部門の研究チームは大きな進歩を遂げています。テキスト間競争モデルの出現は、ソラがすぐに動的なエコシステムの一部になる可能性があることを示唆しています。この協力的で競争の激しい環境は、イノベーションを促進し、ビデオ品質を改善し、新しいアプリケーションを開発することで、労働者の仕事の効率を改善し、人々の生活をより面白くします。 |
>>: ホワイトハウスは開発者にCとC++を放棄するよう求める声明を発表した。メモリの安全性のためにRustが「選ばれた」
[[411678]]人工知能は現在、多くの CEO にとって最重要課題となっています。この話題は目新...
問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...
今日では、コンピュータ技術は人々の生活のあらゆる側面に浸透しており、仕事や勉強に大いに役立つものとい...
現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じているのではないかと思...
[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...
接続デバイスと AI 言語モデルの急速な成長により、私たちの生活、仕事、コミュニケーションの方法が変...
[[409182]] 1. K番目に大きいものを見つけるタイトル順序付けられていない整数配列がありま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
暗号通貨と規制の必要性暗号通貨は、デジタル世界に存在する交換手段(別の支払い形式)であり、取引を安全...
現状では、人工知能業界は消費者からの需要が大きく、投資家からの関心も高く、非常に活況を呈しているよう...
[[211063]]現在、ディープラーニングは人工知能の旗印を掲げており、将来、インテリジェントマシ...
[[405478]]このチュートリアルでは、TensorFlow (Keras API) を使用して...