現在、この写真は AI コミュニティで広く流布されています。 さまざまな文化ビデオ モデルの誕生時期、構造、作成者の構成を一覧表示します。 驚くことではないが、Google は依然としてビデオ モデルにおける先駆的な研究の著者である。しかし、AI動画の注目は今やSoraに奪われてしまった。 同時に、996 の仕事スケジュールを公開した OpenAI の研究者 Jason Wei 氏は次のように述べた。 「Sora は、ビデオ生成における GPT-2 の瞬間を象徴するマイルストーンです。」 テキスト生成の分野にとって、GPT-2 は間違いなく画期的なものです。 2018 年の GPT-2 のリリースは、一貫性があり文法的に正しいテキストの段落を生成する能力において新しい時代の幕開けとなりました。 もちろん、GPT-2 が完全かつ正確な記事を完成させることは難しく、論理的な矛盾や捏造された事実が存在する可能性もあります。しかし、それはその後のモデル開発の基礎を築きました。 GPT-4 は、5 年足らずで、思考をつなげたり、長いエッセイを書いたりといった複雑なタスクを、その過程で事実を捏造することなく実行できるようになりました。 そして今日、ソラはそんな瞬間を表現するためにやって来ました。 芸術的かつリアルな短いビデオを作成できます。まだ 40 分のテレビシリーズを制作できるわけではありませんが、キャラクターとストーリーの一貫性はすでに非常に魅力的です。 Jason Wei 氏は、Sora と将来のビデオ生成モデルでは、長期的な一貫性、ほぼ完璧なリアリズムを維持し、奥深いストーリーラインを作成する能力が徐々に形作られるだろうと考えています。 ソラはハリウッドに革命を起こすだろうか?大ヒット映画からどれくらい遠いのでしょうか? 有名なハリウッド監督タイラー・ペリーは、ソラが生成したビデオを見て衝撃を受け、アトランタのスタジオの8億ドルの拡張計画をキャンセルすることを決意した。 なぜなら、将来の大ヒット映画では、撮影場所を探したり、実際のシーンを構築したりする必要がなくなるかもしれないからです。 それで、ソラは映画業界に革命を起こすのでしょうか? Jason Wei氏は、これは現在のGPT-4のように、作品の質を向上させるための補助ツールとして使用できるものであり、プロの映画制作にはまだ遠いと述べました。 さて、ビデオとテキストの最大の違いは、前者は情報密度が低いため、ビデオ推論などのスキルを学習するには大量の計算能力とデータが必要になることです。 そのため、高品質のビデオデータをめぐる競争は非常に激しくなります。今と同じように、誰もが高品質のテキスト データセットを求めて競争しています。 さらに、学習プロセスにおいて補助情報としてビデオを他の情報手段と組み合わせることが極めて重要になります。 そして今後は、映像処理の経験を持つAI研究者が非常に人気になるでしょう!しかし、従来の自然言語処理の研究者と同様に、新しい技術開発のトレンドに適応する必要もあります。 中間の物理モデルはないが、すでに革命的であるOpenAIのTikTokアカウントではソラの新作を続々公開中。 『ソラ』がハリウッド大ヒット作になるにはどれくらい時間がかかるのでしょうか?土砂降りの雨の中、夜中に車が市街地を猛スピードで走る、よく使われる映画のシーンを見てみましょう。
たとえば、Sora によって生成される建設現場のフォークリフト、掘削機、足場、建設作業員も非常にリアルです。 さらに、ミニチュア写真効果を生み出し、すべてがミニチュアのように見えます。 もちろん、よく見れば写真にいくつか問題があることに気づくでしょう。 たとえば、ある人が突然複数の人に分裂することがあります。 あるいは、ある人が突然別の人になることもあります。 AI企業の創設者であるSwyxは、根本的な理由はSoraが中間物理モデルを持たず、それがLeCunが提唱する世界モデルと完全に相反するものであると結論付けました。 しかし、それでも映画制作プロセスの質的飛躍がもたらされ、コストは大幅に削減されました。 Runway でも同様のことが実現できますが、Sora はすべてを次のレベルに引き上げます。 Sora and Pika、Runway Gen-2、AnimateDiff、LeonardoAI の比較を示します。 誰でも自分の映画を作ることができる近い将来、私たち一人一人がわずか数分で自分だけの映画を制作できるようになるかもしれません。 たとえば、ChatGPT を使用してスクリプトを作成し、Sora を使用してテキストをビデオに変換することができます。将来、ソラは間違いなく60秒のタイムリミットを破るでしょう。 これまで存在しなかった映画を頭の中で作っているところを想像してみてください。 あるいは、Dall-E または Midjourney を使用して画像を生成し、Sora を使用してビデオを生成することもできます。 D-ID を使用すると、キャラクターの口と体の動きをセリフと一致させることができます。 ネットで人気を博したバレンシアガのファッション大ヒット作「ハリー・ポッター」 ElevenLabs は、ビデオ内のキャラクターにナレーションを付けて、ビデオの感情的なインパクトを高め、視覚と聴覚によるストーリーテリングをシームレスに融合させることができます。 自分だけの映画を作るのはこんなに簡単です! 残念ながら、ソラのトレーニング費用はおそらく数千万ドルに上ります。 昨年ChatGPTがリリースされて以来、何千ものモデルによる競争が急増しました。今回、ソラが生まれて半月が経ちましたが、まだ企業側からの動きはありません。 中国企業はどのようにしてSoraを再現できるのでしょうか? 最近、中国のチームも非常に詳細な Sora 分析レポートを公開しており、この問題の解決に何らかのヒントを与える可能性があります。 中国チームがSORAをリバースエンジニアリング最近、リーハイ大学の中国チームとマイクロソフト副社長の高建鋒博士が共同で37ページの分析論文を発表した。 公開されている技術レポートやモデルのリバースエンジニアリング研究を分析し、Sora の開発背景、依存する技術、さまざまな業界での応用の見通し、現在直面している課題、テキストからビデオへの技術の将来の動向を総合的に調査しました。 その中で、本論文は主にSoraの開発プロセスとこの「仮想世界シミュレーター」を構築するための重要な技術を研究し、映画制作、教育、マーケティングなどの分野におけるSoraの応用可能性とその潜在的な影響を深く探究しています。 論文アドレス: https://arxiv.org/abs/2402.17177 プロジェクトアドレス: https://github.com/lichao-sun/SoraReview 図 2 に示すように、Sora は複雑な人間の指示を正確に理解して実行する能力を発揮できます。 また、Sora は、動きやインタラクションを詳細に表現できる長い動画の制作においても大きな進歩を遂げ、動画の長さや視覚表現における従来の動画生成技術の限界を打ち破りました。この機能は AI クリエイティブ ツールにとって大きな飛躍であり、ユーザーは書かれた物語を鮮やかな視覚的なストーリーに変換できるようになります。 研究者たちは、Sora がこの高いレベルのパフォーマンスを実現できるのは、ユーザーによるテキスト入力を処理できるだけでなく、シーン内のさまざまな要素間の複雑な関係を理解できるからであると考えています。 図 3 に示すように、生成コンピューター ビジョン (CV) テクノロジの開発経路は、特に Transformer アーキテクチャが自然言語処理 (NLP) にうまく適用されて以来、過去 10 年間で非常に多様化しています。 研究者たちは、画期的な Visual Transformer (ViT) や Swin Transformer などのビジョン コンポーネントと組み合わせることで、Transformer アーキテクチャのビジョン タスクへの応用を進化させてきました。 同時に、拡散モデルは画像やビデオ生成の分野でも画期的な進歩を遂げました。U-Net テクノロジーを通じてノイズを画像に変換し、革新的な数学的手法を実証しています。 2021年以降、AI分野の研究の焦点は、人間の命令を理解できる言語・視覚生成モデル、すなわちマルチモーダルモデルに移行しています。 ChatGPT のリリースにより、2023 年には Stable Diffusion、Midjourney、DALL-E 3 などの商用テキスト画像変換製品が登場すると予想されます。 ただし、ビデオ自体の時間的な複雑さにより、現在の世代のツールのほとんどは、数秒の短いビデオしか作成できません。 この文脈において、Sora の出現は大きな進歩を象徴しています。これは、人間の指示に基づいて最大 1 分間のビデオを生成できる最初のモデルであり、その重要性は NLP 分野における ChatGPT の影響に匹敵します。 図 4 に示すように、Sora の核となるのは、異なる次元のデータを柔軟に処理できる Diffusion Transformer です。主に次の 3 つの部分で構成されています。 1. まず、時空間コンプレッサーは元のビデオを潜在空間にマッピングします。 2. 次に、Visual Transformer (ViT) モデルはセグメント化された潜在表現を処理し、ノイズが除去された潜在表現を出力します。 3. 最後に、CLIP モデルに類似したシステムが、ユーザーの指示 (大規模な言語モデルによって強化されている) と潜在的な視覚的手がかりに基づいて、特定のスタイルまたはテーマのビデオを生成するように拡散モデルをガイドします。複数のノイズ除去プロセスの後、生成されたビデオの潜在表現が取得され、対応するデコーダーを介してピクセル空間にマッピングされます。 データ前処理- 可変の長さ、解像度、アスペクト比図 5 に示すように、Sora の主な機能の 1 つは、ワイドスクリーンの 1920x1080p ビデオから縦向きの 1080x1920p ビデオまで、さまざまなサイズのビデオや画像を処理、理解、生成できることです。 図 6 に示すように、均一にトリミングされた正方形のビデオのみでトレーニングされたモデルと比較すると、Sora によって生成されたビデオは、画像レイアウトが優れており、ビデオ シーン内の被写体が完全にキャプチャされ、正方形のトリミングによって時々画像が切り取られる問題を回避しています。 Sora のビデオと画像の特徴に対する高度な理解と保持は、生成モデルの分野における大きな進歩です。 これは、よりリアルで魅力的なビデオを生成できる可能性を実証するだけでなく、生成 AI で高品質の結果を達成するためにトレーニング データの多様性が重要であることも強調しています。 - 統一された視覚的表現長さ、解像度、アスペクト比が異なる画像やビデオなど、さまざまな視覚入力を効果的に処理するには、これらの視覚データを統一された表現に変換することが重要なアプローチです。これにより、生成モデルの大規模なトレーニングも容易になります。 具体的には、Sora はまずビデオを「低次元潜在空間」に圧縮し、次にその表現を「時空間パッチ」に分解します。 - ビデオ圧縮ネットワーク図 7 に示すように、Sora のビデオ圧縮ネットワーク (またはビジュアル エンコーダー) の目標は、入力データの次元を削減し、時間と空間で圧縮された潜在表現を出力することです。 技術レポートの参照によると、この圧縮技術は VAE またはベクトル量子化 VAE (VQ-VAE) に基づいていることがわかります。しかし、レポートによると、画像のサイズ変更と切り取りを行わないと、VAE はさまざまなサイズの視覚データを統一された固定サイズの潜在空間にマッピングすることが困難になります。 この問題に対処するために、研究者らは次の 2 つの技術的実装ソリューションを検討しました。 1. 空間パッチ圧縮 このプロセスでは、ViT モデルや MAE モデルで採用されているアプローチと同様に、ビデオ フレームを固定サイズのパッチに変換し、潜在空間にエンコードする必要があります (図 8 を参照)。 このように、モデルはこれらのパッチを分析することでビデオフレーム全体の内容を理解できるため、さまざまな解像度やアスペクト比のビデオを効率的に処理できます。次に、これらの空間トークンは時系列順に並べられ、空間的・時間的潜在表現を形成します。 2. 時空間パッチ圧縮 この技術には、ビデオデータの空間的および時間的次元が含まれます。ビデオ画像の静的な詳細を考慮するだけでなく、画像間の動きや変化にも注意を払い、ビデオの動的な特性を完全に捉えます。 3D 畳み込みを使用すると、この統合を直接的かつ効率的に実現できます。 - 潜在空間パッチ圧縮ネットワーク部分には、もう 1 つの重要な問題があります。それは、パッチを Diffusion Transformer の入力層に送る前に、潜在空間の次元の変化 (つまり、さまざまなビデオ タイプの潜在特徴ブロックまたはパッチの数) にどのように対処するかということです。 Sora の技術レポートと対応する参考文献によると、patch n' pack (PNP) が解決策になる可能性が高いようです。 図 10 に示すように、PNP は異なる画像からの複数のパッチを 1 つのシーケンスにパックします。 ここでは、パッチ適用とトークンの埋め込み手順を圧縮ネットワークで実行する必要がありますが、Sora は Diffusion Transformer のように潜在データを Transformer トークンにさらにパッチ適用する場合があります。 - 拡散変圧器モデリング- 画像拡散トランスフォーマーDiT と U-ViT は、潜在拡散モデルに視覚トランスフォーマーを使用した最も初期の研究の 1 つです。 ViT と同様に、DiT もマルチヘッド自己注意レイヤーとポイント単位の畳み込みフィードフォワード ネットワークを使用し、一部のレイヤー正規化レイヤーとスケーリング レイヤーをインターリーブします。 さらに、DiT は適応層正規化 (AdaLN) を使用し、ゼロ初期化用の追加の MLP 層を追加します。これにより、各残差ブロックが恒等関数に初期化され、トレーニング プロセスが大幅に安定化されます。 U-ViT は、時間的、条件付き、ノイズの多い画像パッチを含むすべての入力をトークンとして扱い、浅い Transformer レイヤーと深い Transformer レイヤーの間に長いスキップ接続を提案します。結果は、U-ViT が画像から画像への生成とテキストから画像への生成の両方で記録破りの FID スコアを達成したことを示しています。 マスクオートエンコーダ (MAE) メソッドと同様に、マスク拡散トランスフォーマー (MDT) も拡散プロセスにマスク潜在モデルを組み込んでおり、画像内のさまざまなオブジェクト部分間のコンテキスト関係を学習する能力を効果的に向上させます。 図 12 に示すように、MDT はトレーニング フェーズ中に追加のマスク トークン再構築タスクにサイド補間を使用して、トレーニング効率を向上させ、推論のための強力なコンテキスト認識位置埋め込みを学習します。 DiT と比較して、MDT はより優れたパフォーマンスとより速い学習速度を実現します。 もう 1 つの革新的な取り組みとして、Diffusion Vision Transformers (DiffiT) は、時間依存の自己注意 (TMSA) モジュールを採用し、サンプリング時間ステップにわたる動的なノイズ除去動作をモデル化しました。 さらに、DiffiT は、ピクセル空間と潜在空間でそれぞれ効率的なノイズ除去を行う 2 つのハイブリッド階層アーキテクチャを採用し、さまざまな生成タスクで新しい SOTA を実現します。 - ビデオ拡散トランスビデオの時空間特性により、この分野で DiT を適用する際の主な課題は次のとおりです。 (1)効率的なノイズ除去を実現するために、空間と時間の観点からビデオを潜在空間に圧縮する方法。 (2)圧縮された潜在空間をパッチに変換し、Transformerに入力する方法 (3)長距離の時空間依存性に対処し、コンテンツの一貫性を確保する方法。 Imagen Video は、Google Research が開発したテキストからビデオへの生成システムです。カスケード拡散モデル (それぞれテキスト条件付きビデオ生成、空間的超解像、時間的超解像を実行する 7 つのサブモデルで構成) を使用して、テキスト プロンプトを高解像度のビデオに変換します。 図 13 に示すように、まず、凍結された T5 テキスト エンコーダーは、入力テキスト プロンプトに基づいてコンテキスト埋め込みを生成します。次に、埋め込み情報がベースモデルに注入され、低解像度のビデオが生成されます。その後、カスケード拡散モデルによってビデオが精製され、解像度が向上します。 Blattmann らは、2D 潜在拡散モデル (LDM) をビデオ潜在拡散モデル (ビデオ LDM) に変換する革新的な方法を提案しました。 言語指導の続きモデル命令のチューニングは、AI モデルがプロンプトに正確に従う能力を強化することを目的としています。 テキストからビデオへのモデルがテキストの指示に従う能力を向上させるために、Sora は DALL-E 3 と同様のアプローチを採用しています。 このアプローチでは、説明的なキャプション生成モデルをトレーニングし、モデルによって生成されたデータを使用してさらに微調整を行います。 この指示の調整により、Sora はユーザーのさまざまな要件を満たすことができ、指示の細部にまで正確に注意を払うことができ、結果として得られるビデオはユーザーのニーズを満たすことができます。 ヒントエンジニアリング- テキストプロンプトテキストの手がかりは、Sora などのテキストからビデオへのモデルをガイドして、視覚的に魅力的で、作成者ユーザーのニーズを正確に満たすビデオを作成するために不可欠です。 これには、人間の創造性と AI 実行能力の間のギャップを効果的に埋めるために、モデルをガイドする詳細な指示の作成が必要です。 ソラのヒントは幅広いシナリオをカバーしています。 VoP、Make-A-Video、Tune-A-Video などの最近の研究では、プロンプト エンジニアリングがモデルの NLP 機能を活用して複雑な指示を解読し、首尾一貫した鮮明で高品質のビデオ ナレーションとして提示する方法が実証されています。 図 15 に示すように、古典的な Sora デモ「おしゃれな女性がネオンが輝く東京の街を歩いています...」 プロンプトには、キャラクターの行動、設定、キャラクターの外見、さらにはシーンの望ましい感情や雰囲気などが含まれます。 この慎重に作成されたテキスト キューにより、Sora が生成するビデオが意図したビジュアルとほぼ一致するようになります。 プロンプト エンジニアリングの品質は、言葉の慎重な選択、提供される詳細の具体性、およびそれらがモデル出力に与える影響の理解によって決まります。 - 画像のヒント画像キューの目的は、生成されたビデオ コンテンツやその他の要素 (キャラクター、シーン、感情など) に視覚的なアンカーを提供することです。 さらに、テキスト キューを使用してモデルにこれらの要素をアニメーション化するように指示することもできます。たとえば、動き、インタラクティブ性、物語の進行のレイヤーを追加して、静止画像に命を吹き込むことができます。 Sora は、画像キューを使用することで、視覚情報とテキスト情報を活用して、静的な画像をダイナミックで物語主導のビデオに変換できます。 図16には、「ベレー帽とタートルネックのセーターを着た柴犬」、「ユニークなモンスターの家族」、「SORAの文字を形成する雲」、「歴史あるホールで巨大な波に乗るサーファー」のAI生成動画が示されています。 これらの例は、DALL-E によって生成された画像を Sora に指示することで何が達成できるかを示しています。 - ビデオのヒントビデオプロンプトはビデオ生成にも使用できます。 Fast-Vid2Vid などの最近の研究では、優れたビデオ キューは具体的でありながら柔軟性も必要であることが示されています。 これにより、モデルは特定の目標(特定のオブジェクトや視覚的なテーマの説明など)に関する明確なガイダンスを受け取ると同時に、最終的な出力に想像力豊かなバリエーションを加えることができるようになります。 たとえば、ビデオ拡張タスクでは、プロンプトで拡張の方向 (時間の前方または後方) とコンテキストまたは主題を指定できます。 図17(a)では、ビデオキューはSoraにビデオの一部を後方に拡張して、元の開始点からイベントを探索するように指示します。 (b) に示すように、ビデオキューを介してビデオからビデオへの編集を実行する場合、モデルは、ビデオのスタイル、シーン、雰囲気の変更、照明やムードなどの微妙な側面の変更など、目的の変換を明確に理解する必要があります。 (c) では、プロンプトは、ビデオ内の異なるシーンのオブジェクト間のスムーズな遷移を確保しながら、ビデオを接続するように Sora に指示します。 ソラがさまざまな業界に与える影響最後に、研究チームは、ソラが映画、教育、ゲーム、ヘルスケア、ロボット工学の分野にどのような影響を与えるかについても予測しました。 Soraに代表される動画拡散モデルは最先端の技術となり、さまざまな研究分野や産業への応用が急速に加速しています。 このテクノロジーの影響は単なるビデオ作成をはるかに超えており、自動コンテンツ生成から複雑な意思決定プロセスに至るまで、さまざまなタスクに変革をもたらす可能性を提供します。 映画ビデオ生成技術の出現は映画制作における新しい時代の到来を告げ、単純なテキストから映画を自律的に作成するという夢が現実になりつつあります。 研究者たちは、ビデオ生成モデルを映画制作にまで拡張し、映画生成の分野に進出してきました。 たとえば、MovieFactory を使用すると、拡散モデルを使用して ChatGPT によって生成されたスクリプトから映画スタイルのビデオを生成し、ワークフロー全体を実行できます。 MobileVidFactory は、ユーザーが入力した簡単なテキストをいくつか入力するだけで、縦型のモバイル ビデオを自動的に生成できます。 ユーザーが簡単に素晴らしいムービークリップを生成できる Sora の機能は、誰でもムービーを作成できる時代を象徴しています。 これにより、映画業界への参入障壁が大幅に下がり、伝統的なストーリーテリングと AI 主導の創造性を融合した映画制作の新たな次元が導入されます。 これらの AI の影響は、映画制作を容易にするだけでなく、映画制作の状況を一新し、変化する観客の好みや配信チャネルに直面しても、映画制作をよりアクセスしやすく、より広く利用できるものにします。 ロボット2024年はロボットの年だと言われています。 大型モデルの爆発的な増加とビデオモデルの反復的なアップグレードにより、ロボットは新たな時代を迎えたのです。
特に、ビデオ拡散モデルはロボットに新たな機能をもたらし、ロボットが環境と対話し、これまでにない複雑さと精度でタスクを実行できるようにします。 ロボット工学に Web 規模の拡散モデルを導入することで、大規模な LLM を活用してロボットの視覚と理解能力を強化できる可能性が示されます。 たとえば、DALL-E を搭載したロボットは、ディナープレートを正確に配置できます。 もう一つの新しいビデオ予測技術は、潜在拡散モデルです。 言語によるガイドが可能で、ロボットはビデオ内のアクションの結果を予測することでタスクを理解して実行できます。 さらに、ロボット研究における環境シミュレーションへの依存は、非常にリアルなビデオシーケンスを作成できるビデオ拡散モデルを通じて解決できます。 このようにして、ロボット向けに多様なトレーニング シナリオを生成でき、現実世界のデータ不足によって生じる制限を打ち破ることができます。 研究者たちは、Sora のような技術をロボット工学の分野に統合することで、画期的な進歩につながる可能性があると考えています。 Sora の機能を活用することで、将来のロボット工学において前例のない進歩が可能になり、ロボットはシームレスに移動して周囲の環境とやり取りできるようになります。 さらに、AI ビデオ モデルは、ゲーム、教育、ヘルスケアなどの業界にも大きな変化をもたらすでしょう。 最後に、良いニュースとしては、Sora はまだ機能をオープンしていませんが、レッド チーム テストに申し込むことができます。 応募フォームからわかるように、OpenAI は認知科学、化学、生物学、物理学、コンピューターサイエンス、経済学などの分野の専門家を求めています。 条件を満たす学生は今すぐ応募できます! |
生成型 AI の破壊的な脅威から抜け出す方法を模索している IT リーダーは、LexisNexis ...
ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...
パンデミックによる職場の変化により、バックオフィス業務や生産活動を改善できるロボティック・プロセス・...
AI と ML テクノロジーが人気の話題になると、デジタル トランスフォーメーションの定義とビジネス...
2021 年は自然言語処理 (NLP) と機械学習 (ML) にとって非常に生産的な年でした。さて、...
ヘルスケア業界における人工知能と機械学習の価値と将来についての認識には大きな変化がありました。業界は...
[[422388]]画像ソース: https://pixabay.com/images/id-82...
学生たちの運命を決める2018年度大学入試が始まりました。多くの受験生が理想的な結果を得られることを...
企業マーケティングにおける人工知能の利点AI を取り巻くメディアの多くは否定的ですが、AI は企業の...
[[203224]]概要: 従来のモデルに別れを告げましょう。テクノロジー企業が機械学習に取り組む...
データの処理と分析は基本的かつ広範囲にわたります。アルゴリズムはデータの処理と分析において重要な役割...
5月21日、新人新市は北京で2021年新人新市ブランドアップグレード記者会見を開催した。今回の記者会...
[[275226]]コールドスタンバイとホットスタンバイコールドスタンバイとは、通常は稼働していな...