ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

最近、AIビデオの分野は非常に活発になっており、OpenAIが立ち上げた大規模なビデオ生成モデルであるSoraがさらに人気を集めています。ビデオ編集の分野でも、AI、特に大規模モデルを搭載したエージェントがその能力を発揮し始めています。

ビデオ編集に関連するタスクの処理には自然言語が使用されるため、ユーザーは意図を直接伝えることができ、手動による介入が不要になります。しかし、現在、ほとんどのビデオ編集ツールは依然として手動操作に大きく依存しており、カスタマイズされたコンテキストヘルプが不足していることがよくあります。したがって、ユーザーは複雑なビデオ編集の問題を自分で対処することしかできません。

鍵となるのは、共同作業者として機能し、編集プロセスでユーザーを継続的に支援できるビデオ編集ツールをどのように設計するかということです。この記事では、トロント大学、Meta (Reality Labs Research)、カリフォルニア大学サンディエゴ校の研究者が、大規模言語モデル (LLM) の多目的言語機能をビデオ編集に使用することを提案し、手動のビデオ編集プロセスの障害を軽減するための将来のビデオ編集パラダイムを検討しました。

論文タイトル: LAVE: LLM を活用したビデオ編集のためのエージェント支援と言語拡張
論文アドレス: https://arxiv.org/pdf/2402.10294.pdf

具体的には、研究者らは、LLM が提供する一連の言語強化機能を備えたビデオ編集ツール LAVE を紹介しました。 LAVE は、ユーザーの自由形式の言語コマンドを解釈し、ユーザーのクリップ目標を達成するための関連アクションを計画および実行できる LLM ベースの計画および実行エージェントを導入します。エージェントは、概念的な支援（クリエイティブなブレインストーミングやビデオ映像の概要など）と運用上の支援（セマンティックベースのビデオ検索、ストーリーボード作成、クリップのトリミングなど）を提供できます。

これらのエージェントのスムーズな操作を可能にするために、LAVE は視覚言語モデル (VLM) を使用して、ビデオビジュアルの言語記述を自動的に生成します。これらの視覚的なナレーションにより、LLM はビデオコンテンツを理解し、言語能力を使用してユーザーが編集を完了できるように支援できます。さらに、LAVE は、エージェント支援モードと直接操作モードという 2 つのインタラクティブなビデオ編集モードを提供します。デュアルモードにより、ユーザーは柔軟性が得られ、必要に応じてエージェントの操作を改善できます。

LAVEの編集効果は？研究者らは、初心者と経験豊富な編集者を含む 8 人の参加者を対象にユーザー調査を実施し、その結果、参加者は LAVE を使用して満足のいく AI 共同ビデオを制作できることが示されました。

注目すべきは、この研究の著者6人のうち5人が中国人で、筆頭著者でトロント大学コンピューターサイエンスの博士課程の学生であるブライアン・ワン氏、メタ研究科学者のユリアン・リー氏、ザオヤン・ルヴ氏、ヤン・シュー氏、カリフォルニア大学サンディエゴ校の助教授であるハイジュン・シア氏が含まれていることだ。

LAVE ユーザーインターフェース (UI)

まず、下の図 1 に示すように、LAVE のシステム設計を見てみましょう。

LAVE ユーザーインターフェイスは、次の 3 つの主要コンポーネントで構成されています。

自動的に生成された言語の説明付きのビデオクリップを表示する言語拡張ビデオライブラリ。
編集用のメインタイムラインを含むビデオ編集タイムライン。
ビデオクリップエージェント。これにより、ユーザーは会話エージェントと対話してサポートを受けることができます。

設計ロジックは次のとおりです。ユーザーがエージェントと対話すると、メッセージ交換がチャット UI に表示されます。関連する操作を実行すると、エージェントはビデオライブラリとクリップタイムラインに変更を加えます。さらに、ユーザーは従来の編集インターフェースと同様に、カーソルを使用してビデオライブラリとタイムラインを直接操作できます。

言語強化ビデオライブラリ

言語拡張ビデオライブラリの機能を以下の図 3 に示します。

この機能では、従来のツールと同様に、クリップを再生できるだけでなく、各ビデオのセマンティックタイトルや概要などのテキスト説明を自動的に生成する視覚的なナレーションも提供されます。これらのタイトルはクリップを理解して索引付けするのに役立ち、一方、概要は各クリップの視覚的なコンテンツの概要を提供し、ユーザーが独自の編集プロジェクトのストーリーラインを形成するのに役立ちます。各ビデオの下にタイトルと再生時間が表示されます。

さらに、LAVE では、ユーザーがセマンティック言語クエリを使用してビデオを検索することができ、検索されたビデオはビデオライブラリに表示され、関連性によって並べ替えられます。この機能は編集エージェントによって実行される必要があります。

ビデオ編集タイムライン

ビデオライブラリからビデオを選択して編集タイムラインに追加すると、下の図 2 に示すように、インターフェイスの下部にあるビデオ編集タイムラインに表示されます。タイムライン上の各クリップはボックスで表され、開始フレーム、中間フレーム、終了フレームの 3 つのサムネイルフレームが表示されます。

LAVE システムでは、各サムネイルフレームはクリップ内の 1 秒間の素材を表します。ビデオギャラリーと同様に、各クリップにはタイトルと説明が表示されます。 LAVE のクリップタイムラインには、クリップの順序付けとトリミングという 2 つの主要機能があります。

タイムライン上でクリップを並べ替えることは、ビデオ編集では一般的なタスクであり、一貫性のあるストーリーを作成するために重要です。 LAVE は 2 つのソート方法をサポートしています。LLM ベースのソートはビデオクリップエージェントのストーリーボード機能を使用して操作し、手動ソートはユーザーが直接操作して各ビデオフレームをドラッグアンドドロップし、クリップの表示順序を設定することによって行われます。

重要なセグメントを強調表示し、余分なコンテンツを削除するには、ビデオ編集でトリミングも重要です。トリミングする場合、ユーザーはタイムライン内のクリップをダブルクリックします。すると、下の図 4 に示すように、1 秒のフレームを表示するポップアップウィンドウが開きます。

ビデオ編集エージェント

LAVE のビデオ編集エージェントは、ユーザーと LLM ベースのエージェント間のやり取りを容易にするチャットベースのコンポーネントです。コマンドラインツールとは異なり、ユーザーは自由形式の言語を使用してエージェントと対話できます。エージェントは、LLM の言語インテリジェンスを使用してビデオ編集支援を提供し、編集プロセス全体を通じてユーザーをガイドおよび支援するための具体的な応答を提供します。 LAVE のエージェント支援機能はエージェント操作を通じて提供され、各操作ではシステムでサポートされている編集機能を実行します。

全体として、LAVE が提供する機能は、構想や事前計画から実際の編集作業までのワークフロー全体をカバーしていますが、システムは厳密なワークフローを強制するものではありません。ユーザーは、編集の目的に合った機能のサブセットを柔軟に活用できます。たとえば、明確な編集ビジョンと明確に定義されたストーリーラインを持つユーザーは、アイデア創出段階を省略して、すぐに編集作業に進む可能性があります。

バックエンドシステム

この研究では、OpenAI の GPT-4 を使用して、LAVE バックエンドシステムの設計を説明します。この設計には、主にエージェントの設計と、LLM によって駆動される編集機能の実装という 2 つの側面が含まれます。

インテリジェントエージェント設計

この研究では、推論、計画、ストーリーテリングを含む LLM (GPT-4) の複数の言語機能を活用して、LAVE エージェントを構築しました。

LAVE エージェントには、計画と実行の 2 つの状態があります。この設定には主に 2 つの利点があります。

ユーザーは複数のアクションで構成される高レベルの目標を設定できるため、従来のコマンドラインツールで必要とされる個々のアクションの詳細を指定する必要がなくなります。
実行前に、エージェントはユーザーに計画を提示し、変更の機会を提供し、ユーザーがエージェントのアクションを完全に制御できるようにします。研究チームは、計画と実行のプロセスを完了するためのバックエンドパイプラインを設計しました。

下の図 6 に示すように、パイプラインはまずユーザー入力に基づいてアクションプランを作成します。次に、プランはテキスト記述から関数呼び出しに変換され、その後対応する関数が実行されます。

LLM駆動型編集機能の実装

ユーザーがビデオ編集タスクを完了できるように、LAVE は主に次の 5 つの LLM 駆動機能をサポートしています。

素材の概要
クリエイティブブレインストーミング
ビデオ検索
ストーリーボード
クリップトリミング

最初の 4 つはエージェントからアクセスできます (図 5)。一方、クリップトリミング機能はタイムラインでクリップをダブルクリックするとアクセスでき、1 秒のフレームを表示するポップアップウィンドウが開きます (図 4)。

このうち、言語ベースのビデオ検索はベクトルストレージデータベースを通じて実装され、残りは LLM プロンプトエンジニアリングを通じて実装されます。すべての機能は、ビデオライブラリ内の各クリップのタイトルと概要を含む、自動的に生成された生の映像言語の説明に基づいて構築されています (図 3)。研究チームは、これらのビデオのテキストによる説明を「ビジュアルナレーション」と呼んでいます。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: GPT-4 も使用している可能性がある推測的デコードとは何ですか?の過去、現在、応用をまとめた記事

>>: