最近、AIビデオの分野は非常に活発になっており、OpenAIが立ち上げた大規模なビデオ生成モデルであるSoraがさらに人気を集めています。ビデオ編集の分野でも、AI、特に大規模モデルを搭載したエージェントがその能力を発揮し始めています。 ビデオ編集に関連するタスクの処理には自然言語が使用されるため、ユーザーは意図を直接伝えることができ、手動による介入が不要になります。しかし、現在、ほとんどのビデオ編集ツールは依然として手動操作に大きく依存しており、カスタマイズされたコンテキストヘルプが不足していることがよくあります。したがって、ユーザーは複雑なビデオ編集の問題を自分で対処することしかできません。 鍵となるのは、共同作業者として機能し、編集プロセスでユーザーを継続的に支援できるビデオ編集ツールをどのように設計するかということです。この記事では、トロント大学、Meta (Reality Labs Research)、カリフォルニア大学サンディエゴ校の研究者が、大規模言語モデル (LLM) の多目的言語機能をビデオ編集に使用することを提案し、手動のビデオ編集プロセスの障害を軽減するための将来のビデオ編集パラダイムを検討しました。
具体的には、研究者らは、LLM が提供する一連の言語強化機能を備えたビデオ編集ツール LAVE を紹介しました。 LAVE は、ユーザーの自由形式の言語コマンドを解釈し、ユーザーのクリップ目標を達成するための関連アクションを計画および実行できる LLM ベースの計画および実行エージェントを導入します。エージェントは、概念的な支援(クリエイティブなブレインストーミングやビデオ映像の概要など)と運用上の支援(セマンティックベースのビデオ検索、ストーリーボード作成、クリップのトリミングなど)を提供できます。 これらのエージェントのスムーズな操作を可能にするために、LAVE は視覚言語モデル (VLM) を使用して、ビデオ ビジュアルの言語記述を自動的に生成します。これらの視覚的なナレーションにより、LLM はビデオ コンテンツを理解し、言語能力を使用してユーザーが編集を完了できるように支援できます。さらに、LAVE は、エージェント支援モードと直接操作モードという 2 つのインタラクティブなビデオ編集モードを提供します。デュアル モードにより、ユーザーは柔軟性が得られ、必要に応じてエージェントの操作を改善できます。 LAVEの編集効果は?研究者らは、初心者と経験豊富な編集者を含む 8 人の参加者を対象にユーザー調査を実施し、その結果、参加者は LAVE を使用して満足のいく AI 共同ビデオを制作できることが示されました。 注目すべきは、この研究の著者6人のうち5人が中国人で、筆頭著者でトロント大学コンピューターサイエンスの博士課程の学生であるブライアン・ワン氏、メタ研究科学者のユリアン・リー氏、ザオヤン・ルヴ氏、ヤン・シュー氏、カリフォルニア大学サンディエゴ校の助教授であるハイジュン・シア氏が含まれていることだ。 LAVE ユーザーインターフェース (UI)まず、下の図 1 に示すように、LAVE のシステム設計を見てみましょう。 LAVE ユーザー インターフェイスは、次の 3 つの主要コンポーネントで構成されています。
設計ロジックは次のとおりです。ユーザーがエージェントと対話すると、メッセージ交換がチャット UI に表示されます。関連する操作を実行すると、エージェントはビデオ ライブラリとクリップ タイムラインに変更を加えます。さらに、ユーザーは従来の編集インターフェースと同様に、カーソルを使用してビデオライブラリとタイムラインを直接操作できます。 言語強化ビデオライブラリ 言語拡張ビデオ ライブラリの機能を以下の図 3 に示します。 この機能では、従来のツールと同様に、クリップを再生できるだけでなく、各ビデオのセマンティックタイトルや概要などのテキスト説明を自動的に生成する視覚的なナレーションも提供されます。これらのタイトルはクリップを理解して索引付けするのに役立ち、一方、概要は各クリップの視覚的なコンテンツの概要を提供し、ユーザーが独自の編集プロジェクトのストーリーラインを形成するのに役立ちます。各ビデオの下にタイトルと再生時間が表示されます。 さらに、LAVE では、ユーザーがセマンティック言語クエリを使用してビデオを検索することができ、検索されたビデオはビデオ ライブラリに表示され、関連性によって並べ替えられます。この機能は編集エージェントによって実行される必要があります。 ビデオ編集タイムライン ビデオ ライブラリからビデオを選択して編集タイムラインに追加すると、下の図 2 に示すように、インターフェイスの下部にあるビデオ編集タイムラインに表示されます。タイムライン上の各クリップはボックスで表され、開始フレーム、中間フレーム、終了フレームの 3 つのサムネイル フレームが表示されます。 LAVE システムでは、各サムネイル フレームはクリップ内の 1 秒間の素材を表します。ビデオ ギャラリーと同様に、各クリップにはタイトルと説明が表示されます。 LAVE のクリップ タイムラインには、クリップの順序付けとトリミングという 2 つの主要機能があります。 タイムライン上でクリップを並べ替えることは、ビデオ編集では一般的なタスクであり、一貫性のあるストーリーを作成するために重要です。 LAVE は 2 つのソート方法をサポートしています。LLM ベースのソートはビデオ クリップ エージェントのストーリーボード機能を使用して操作し、手動ソートはユーザーが直接操作して各ビデオ フレームをドラッグ アンド ドロップし、クリップの表示順序を設定することによって行われます。 重要なセグメントを強調表示し、余分なコンテンツを削除するには、ビデオ編集でトリミングも重要です。トリミングする場合、ユーザーはタイムライン内のクリップをダブルクリックします。すると、下の図 4 に示すように、1 秒のフレームを表示するポップアップ ウィンドウが開きます。 ビデオ編集エージェント LAVE のビデオ編集エージェントは、ユーザーと LLM ベースのエージェント間のやり取りを容易にするチャットベースのコンポーネントです。コマンドライン ツールとは異なり、ユーザーは自由形式の言語を使用してエージェントと対話できます。エージェントは、LLM の言語インテリジェンスを使用してビデオ編集支援を提供し、編集プロセス全体を通じてユーザーをガイドおよび支援するための具体的な応答を提供します。 LAVE のエージェント支援機能はエージェント操作を通じて提供され、各操作ではシステムでサポートされている編集機能を実行します。 全体として、LAVE が提供する機能は、構想や事前計画から実際の編集作業までのワークフロー全体をカバーしていますが、システムは厳密なワークフローを強制するものではありません。ユーザーは、編集の目的に合った機能のサブセットを柔軟に活用できます。たとえば、明確な編集ビジョンと明確に定義されたストーリーラインを持つユーザーは、アイデア創出段階を省略して、すぐに編集作業に進む可能性があります。 バックエンドシステムこの研究では、OpenAI の GPT-4 を使用して、LAVE バックエンド システムの設計を説明します。この設計には、主にエージェントの設計と、LLM によって駆動される編集機能の実装という 2 つの側面が含まれます。 インテリジェントエージェント設計 この研究では、推論、計画、ストーリーテリングを含む LLM (GPT-4) の複数の言語機能を活用して、LAVE エージェントを構築しました。 LAVE エージェントには、計画と実行の 2 つの状態があります。この設定には主に 2 つの利点があります。
下の図 6 に示すように、パイプラインはまずユーザー入力に基づいてアクション プランを作成します。次に、プランはテキスト記述から関数呼び出しに変換され、その後対応する関数が実行されます。 LLM駆動型編集機能の実装 ユーザーがビデオ編集タスクを完了できるように、LAVE は主に次の 5 つの LLM 駆動機能をサポートしています。
最初の 4 つはエージェントからアクセスできます (図 5)。一方、クリップ トリミング機能はタイムラインでクリップをダブルクリックするとアクセスでき、1 秒のフレームを表示するポップアップ ウィンドウが開きます (図 4)。 このうち、言語ベースのビデオ検索はベクトルストレージデータベースを通じて実装され、残りは LLM プロンプトエンジニアリングを通じて実装されます。すべての機能は、ビデオ ライブラリ内の各クリップのタイトルと概要を含む、自動的に生成された生の映像言語の説明に基づいて構築されています (図 3)。研究チームは、これらのビデオのテキストによる説明を「ビジュアルナレーション」と呼んでいます。 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: GPT-4 も使用している可能性がある推測的デコードとは何ですか?の過去、現在、応用をまとめた記事
私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...
最近、SingularityNETのCEOであるベン・ゲルツェル博士は、COVID-19サミットを開...
「まあまあ、今のところ需要はないんですが、ありがとうございます。」今週、子供向け番組を「販売」する...
[[416629]]セサミストリートには「One of These Things Is Not Li...
新しい建物では、利用可能なリソースの最適化を最大限にしながら、セキュリティと有用かつ重要なデータを豊...
最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...
[51CTO.comより引用] 本日、アリババクラウドカンファレンス南京サミットが正式に開催され、ま...
人工知能は進化における最も古い謎の 1 つを解くのに役立っていますが、新たな謎ももたらしています。 ...
2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...
新型コロナウイルスの感染力が高いため、防疫期間中、一般の人々は、インテリジェント消毒ロボットが医療産...
[51CTO.com クイック翻訳]ディープラーニングの愛好家であれば、強力なディープニューラルネッ...
[[429309]]分散機械学習が登場した理由は非常に単純です。一方では、トレーニングに利用できるデ...