真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

昨日、OpenAI は初のテキスト生成ビデオ モデル Sora をリリースし、コミュニティに衝撃を与えました。このモデルが生成した最長 1 分間の高解像度で滑らかなビデオは人々を驚かせ、「ハリウッドの時代は終わった」と叫びました。

わずか 1 年で、テキスト生成ビデオの効果は質的に飛躍的に向上しました。

もちろん、Sora がビデオ生成分野の戦いに加わることで、最も大きな影響は、Runway、Pika、SDV、Google、Meta などの同様の競合モデルに及ぶでしょう。

Sora の生成効果を見て、多くの人は Sora がこれらの「前任者」に対して次元削減攻撃を開始したと考えています。本当にそうなのでしょうか?すでに何人かのTwitterブロガーが比較を行っています。

ブロガーは、Sora、Pika、Runway、Stable Video の 4 人のモデルに同じプロンプトを出しました。

美しい雪景色の東京は人々で賑わい、カメラはにぎやかな街の通りを移動しながら、美しい雪の日を楽しんだり、近くの屋台で買い物をしたりする人々を追い、雪の結晶とともに美しい桜の花びらが風に吹かれています。

他の 3 つのビデオ生成モデルと比較すると、Sora は生成時間、一貫性などの点で大きな利点があることがわかります。

画像出典: https://twitter.com/gabor/status/1758282791547232482

このような比較は他にもたくさんあります。たとえば、「ゴールデン レトリバーの子犬の群れが雪の中で遊んでいます。頭は雪から出ていて、雪に覆われています。」という同じプロンプトを入力するなどです。

画像出典: https://twitter.com/DailyUpdatesNet/status/1758646902751670355

別の例として、同じプロンプト「数頭の巨大なマンモスが雪の草原を歩き、長い毛が風になびき、遠くには雪をかぶった木々と雄大な雪を頂いた山々が広がり、午後の太陽、雲の切れ間、遠くの高い太陽が暖かい輝きを生み出し、低いカメラの視野が、美しい写真と被写界深度で、大型のマンモスを驚くほど捉えています。」と入力します。

Runway と Pika はどちらもパフォーマンスが良かったのですが、Sora のスポーン品質は圧倒的でした。

画像出典: https://twitter.com/keitowebai/status/1758384152670577136

Pika 1.0(昨年4月)とSoraを比較し、1年も経たないうちにAI生成動画が大きく変化したことを嘆く人もいました。

オリジナル動画: https://twitter.com/QuintinAu/status/1758536835595124910

同時に、より多くのクリエイターがSoraを使用して生成したビデオを投稿し、Soraの優れたビデオ生成能力がさらに実証されました。

たとえば、「巨大な大聖堂には猫がたくさんいます。どこを見ても猫がいます。ある男性が大聖堂に入り、玉座に座っている巨大なエルビスにお辞儀をします。」というプロンプトを入力します。

画像出典: https://twitter.com/billpeeb/status/1758650919430848991

たとえば、プロンプト「フレンドリーなジャック・オー・ランタンと幽霊のキャラクターが飾られた不気味なお化け屋敷。入り口でトリック・オア・トリートの子供たちを迎える。ティルトシフト写真。」と入力します。

画像出典: https://twitter.com/billpeeb/status/1758658884582142310

たとえば、「水でできた男が歩きながら、さまざまなスタイルの美しい芸術作品が多数展示されているアート ギャラリーを訪れます。」という入力プロンプトがあります。

画像出典: https://twitter.com/_tim_brooks/status/1758666264032280683

たとえば、「ビーチでくつろいでいる人々の実際のビデオ。水中からサメが現れて、みんなを驚かせます。」のようなプロンプトを入力するとします。

画像出典: https://twitter.com/_tim_brooks/status/1758655323576164830

Sora の衝撃的な効果の背後には、OpenAI も昨日詳細な技術レポートを公開した。

技術レポートのアドレス: https://openai.com/research/video-generation-models-as-world-simulators

Soraの背後にあるテクノロジー

OpenAIは技術レポートの中で、(1)あらゆる種類の視覚データを統一された表現に変換し、生成モデルの大規模なトレーニングを可能にする方法、(2)Soraの機能と限界の定性評価を強調しています。

残念ながら、OpenAI のレポートにはモデルとトレーニングの詳細は含まれていません。

近年、ビデオ生成は AI の分野で重要な方向となっています。これまでの多くの研究では、再帰ネットワーク、生成的敵対ネットワーク、自己回帰トランスフォーマー、拡散モデルなど、ビデオデータの生成モデリングが研究されてきました。これらの作品は通常、小規模な視覚データ、短いビデオ、または固定サイズのビデオに焦点を当てています。

対照的に、OpenAI の Sora は、さまざまな長さ、アスペクト比、解像度のビデオや画像を生成し、最大 1 分間の高解像度ビデオを出力できる視覚データの汎用モデルです。

視覚データをパッチに

OpenAI は、インターネット規模のデータでトレーニングすることによって達成された大規模言語モデルの驚くべき一般化可能性からインスピレーションを得ました。 LLM は、トークンの使用に対する革新的なアプローチのおかげで、新しいパラダイムを確立することができました。研究者たちは、コード、数学、さまざまな自然言語など、テキストの複数のモダリティを巧みに統合しました。

この研究で、OpenAI は、視覚データを生成するモデルがこのアプローチの利点をどのように継承できるかを検討します。大規模言語モデルにはテキスト トークンがありますが、Sora には視覚的なパッチがあります。これまでの研究では、パッチは視覚データ モデルの効果的な表現であることが実証されています。 OpenAI は、パッチがさまざまな種類のビデオや画像を生成するためのモデルのトレーニングにスケーラブルかつ効果的な表現であることを発見しました。


大まかに言えば、OpenAI は、まずビデオを低次元の潜在空間に圧縮し、次にその表現を時空間パッチに分解することで、ビデオをパッチに変換します。

ビデオ圧縮ネットワーク

OpenAI は視覚データの次元を削減するネットワークをトレーニングしました。ネットワークは生のビデオを入力として受け取り、時間と空間が圧縮された潜在表現を出力します。 Sora はこの圧縮された潜在空間でトレーニングされ、ビデオを生成します。 OpenAI は、生成された潜在表現をピクセル空間にマッピングするための対応するデコーダー モデルもトレーニングしました。

時空間潜在パッチ

圧縮された入力ビデオが与えられると、OpenAI は Transformer のトークンとして機能する一連の時空間パッチを抽出します。この方式は画像にも適用できます。画像は単一フレームのビデオとして表示できるためです。 OpenAI のパッチベースの表現により、Sora はさまざまな解像度、期間、アスペクト比のビデオや画像でトレーニングできます。推論時に、OpenAI はランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成されるビデオのサイズを制御できます。

ビデオ生成のためのスケーリングトランスフォーマー

Sora は拡散モデルです。入力ノイズ パッチ (およびテキスト プロンプトなどの条件付け情報) が与えられると、モデルは元の「クリーンな」パッチを予測するようにトレーニングされます。重要なのは、ソラは拡散トランスフォーマーだということです。トランスフォーマーは、言語モデリング、コンピューター ビジョン、画像生成など、さまざまな分野で優れたスケーリング特性を実証しています。

この研究で、OpenAI は Diffusion Transformers をビデオ モデルにも効果的に拡張できることを発見しました。以下に、OpenAI がトレーニング中に固定シードと入力を使用したビデオ サンプルの比較を示します。トレーニング計算が増加すると、サンプルの品質が大幅に向上します。

可変期間、解像度、アスペクト比

これまでの画像やビデオ生成のアプローチでは、4 秒のビデオの場合は 256 x 256 の解像度など、ビデオを標準サイズにサイズ変更、トリミング、またはカットする必要がありました。対照的に、この研究では、元のデータサイズでトレーニングすると、次のような利点が得られることがわかりました。

1 つ目は、サンプリングの柔軟性です。Sora は、ワイドスクリーン ビデオ 1920x1080p、縦型ビデオ 1920x1080p、およびその間のあらゆるビデオをサンプリングできます。これにより、Sora はさまざまなデバイス向けのコンテンツをネイティブのアスペクト比で直接作成できるようになります。 Sora では、フル解像度のコンテンツを生成する前に、すべて同じモデルを使用して、小さいサイズでコンテンツの迅速なプロトタイピングを行うこともできます。

2 つ目は、フレームとコンテンツの構成を改善することです。研究者は、トレーニングにビデオの元のアスペクト比を使用すると、コンテンツの構成とフレームの品質が向上することを経験的に発見しました。 Sora を他のモデルと比較すると、後者はすべてのトレーニング ビデオを正方形に切り取っていましたが、これは生成モデルのトレーニングでは一般的な方法です。正方形の切り抜きでトレーニングされたモデル (左) は、ビデオの主題が部分的にしか見えないビデオを生成します。対照的に、Sora によって生成されたビデオ (右) はフレーム コンテンツが改善されています。

言語理解

テキストからビデオへの生成システムをトレーニングするには、対応するテキストキャプションが付いた大量のビデオが必要です。研究チームは、DALL・E 3の再字幕化技術を動画に適用しました。

具体的には、研究チームはまず、非常に説明的なキャプション生成モデルをトレーニングし、それを使用してトレーニング セット内のすべてのビデオのテキスト キャプションを生成しました。研究チームは、非常に説明的なビデオキャプションをトレーニングすることで、テキストの忠実度とビデオ全体の品質が向上することを発見しました。

DALL・E 3と同様に、研究チームもGPTを使用して短いユーザープロンプトをより長く詳細な字幕に変換し、それをビデオモデルに送信しました。これにより、Sora はユーザーの指示に正確に従う高品質のビデオを生成できるようになります。

画像や動画をプロンプトとして使う

テキストからビデオを生成する例を数多く見てきました。実際、Sora は既存の画像やビデオなどの他の入力も使用できます。これにより、Sora は、完璧にループするビデオの作成、静止画像のアニメーション化、ビデオの時間的な前後への伸縮など、さまざまな画像およびビデオ編集タスクを実行できます。

DALL-E 画像のアニメーション化

画像とプロンプトを入力するだけで、Sora はビデオを生成できます。以下は、DALL-E 2 および DALL-E 3 画像から生成されたビデオの例です。

ベレー帽と黒のタートルネックを着た犬

ソラの雲画像

動画コンテンツの拡張

Sora には、ビデオ コンテンツの最初または最後に拡張する機能もあります。以下は、Sora が生成したビデオから拡張した 3 つの新しいビデオです。新しいビデオはすべて始まりが異なりますが、結末は同じです。

この方法を使えば、動画の内容を無限に拡張し、「動画制作の永久機関」を実現することもできるでしょう。

ビデオからビデオへの編集

拡散モデルは、テキストプロンプトに基づいて画像やビデオを編集するためのさまざまなアプローチに影響を与えました。 OpenAI の研究チームは、これらの方法の 1 つである SDEdit を Sora に適用し、Sora がゼロショットの条件下で入力ビデオのスタイルと環境を変更できるようにしました。

入力ビデオは次のとおりです。

出力:

ビデオを接続

また、Sora を使用すると、2 つの入力ビデオ間を徐々に切り替えて、主題やシーン構成がまったく異なるビデオ間のシームレスな切り替えを作成することもできます。

画像生成機能

Sora は画像を生成することもできます。これを実現するために、OpenAI は、1 フレームの時間範囲を持つ空間グリッドにガウス ノイズ パッチを配置します。このモデルは、最大 2048 x 2048 の解像度までのさまざまなサイズの画像を生成できます。

新たなシミュレーション機能

OpenAI は、ビデオ モデルを大規模にトレーニングすると、多くの興味深い新しい機能を発揮することを発見しました。これらの機能により、Sora は物理世界における人、動物、環境の特定の側面をシミュレートできます。これらの特性は、3 次元やオブジェクトなどに対する明確な誘導的偏りなしに現れます。つまり、純粋にスケールの現象なのです。

3次元の一貫性。 Sora は、ダイナミックなカメラモーションでビデオを生成できます。カメラが移動したり回転したりすると、キャラクターとシーン要素が 3D 空間内で連動して動きます。

長期シーケンスの一貫性と目標の持続性。ビデオ生成システムが直面している大きな課題は、長いビデオをサンプリングする際に時間的な一貫性を維持することです。 OpenAI は、Sora が必ずしも短期および長期の依存関係の両方を効果的にモデル化するわけではないものの、それでも多くの場合はそれを実現できることを発見しました。たとえば、Sora モデルは、人、動物、物体が隠れたりフレームから外れたりしても、それらの存在を維持します。同様に、単一のサンプルで同じキャラクターの複数のショットを生成し、ビデオ全体でその外観を維持することもできます。

世界と交流しましょう。ソラは時々、世界の状態に影響を与えるアクションを簡単な方法でシミュレートできます。たとえば、画家がキャンバスに新しい筆跡を残し、それが時間が経っても残ることがあります。また、人がハンバーガーを食べて噛み跡を残すこともあります。

アナログデジタルの世界。 Sora は、ビデオ ゲームなどの人工的なプロセスをシミュレートすることもできます。 Sora を使用すると、Minecraft のプレイヤーは、基本戦略を通じて同時に制御され、同時に世界とそのダイナミクスを高い忠実度でレンダリングできます。 Sora のツールチップで「Minecraft」と言及するだけで、サンプリングなしでこれらの機能がトリガーされます。

これらの機能は、ビデオ モデルの継続的な拡張が、物理世界とデジタル世界、およびその中の物体、動物、人々の高度なシミュレーターを開発するための有望な道であることを示唆しています。

限界についての議論

シミュレーターとしての Sora には現在多くの制限があります。たとえば、ガラスの粉砕など、多くの基本的な相互作用の物理現象を正確にシミュレートすることはできません。食べ物を食べるなどの他の操作では、必ずしも正しいオブジェクトの状態変化が生成されるとは限りません。公式ホームページには、長いサンプルの不一致やオブジェクトの自然発生など、モデルのその他の一般的な障害モードがリストされています。

しかし、Sora がこれまで実証してきた機能は、ビデオ モデルのスケーリングを継続することが有望な方向性であることを示しています。これは、物理世界とデジタル世界、そしてそこに存在する物体、動物、人間のより正確なシミュレーションを実現するのにも役立ちます。

詳細については、Sora のオリジナル技術レポートを参照してください。

<<:  RAG か微調整か?マイクロソフトは特定分野における大規模モデルアプリケーションの構築プロセスガイドを公開した

>>:  ベイジアンディープラーニングと大規模ベースモデルの融合: 効率的で説明可能な AI のための戦略

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

テンセント、初のAI+医療製品「テンセントミイン」の発売を発表

テンセントは本日、初のAI医療支援診断・治療オープンプラットフォーム(以下、AI支援診断オープンプラ...

脳コンピューターインターフェースと仮想世界: 頭の後ろにチューブを挿入することは、必ずしもマトリックスのようになるわけではない

人間の脳にチップを埋め込み、脳とコンピューターの統合によってそれを制御するという話は、SFの世界から...

...

...

...

...

ハードコア科学: たった一文で、話題の「ニューラル ネットワーク」とは何なのか説明できますか?

私の誠意を示すために、この短くて鋭い真実をここに述べます。ニューラル ネットワークは、 相互接続され...

世論調査によると、日本の男性の約60%が人工知能と交際する意向がある

[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...

...

機械学習専用サーバーの重要性の高まり

機械学習は、さまざまな方法で Web ホスティング業界を変えています。 AWS などの多くのサードパ...

疫病との戦いにおけるドローン:監視、空中管制、そして徹底的な説得

ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...

人工知能が自立して考えることができるようになると、機械生命体になるのでしょうか?必ずしも

人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...

...

あなたはまだこれらの仕事をしていますか?マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

[[216406]]新しい技術の出現は、それに関わる人々の仕事を常に変えていきます。メインフレームコ...