ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

最近、AIビデオの分野は非常に活発になっており、OpenAIが立ち上げた大規模なビデオ生成モデルであるSoraがさらに人気を集めています。ビデオ編集の分野でも、AI、特に大規模モデルを搭載したエージェントがその能力を発揮し始めています。

ビデオ編集に関連するタスクの処理には自然言語が使用されるため、ユーザーは意図を直接伝えることができ、手動による介入が不要になります。しかし、現在、ほとんどのビデオ編集ツールは依然として手動操作に大きく依存しており、カスタマイズされたコンテキストヘルプが不足していることがよくあります。したがって、ユーザーは複雑なビデオ編集の問題を自分で対処することしかできません。

鍵となるのは、共同作業者として機能し、編集プロセスでユーザーを継続的に支援できるビデオ編集ツールをどのように設計するかということです。この記事では、トロント大学、Meta (Reality Labs Research)、カリフォルニア大学サンディエゴ校の研究者が、大規模言語モデル (LLM) の多目的言語機能をビデオ編集に使用することを提案し、手動のビデオ編集プロセスの障害を軽減するための将来のビデオ編集パラダイムを検討しました。

  • 論文タイトル: LAVE: LLM を活用したビデオ編集のためのエージェント支援と言語拡張
  • 論文アドレス: https://arxiv.org/pdf/2402.10294.pdf

具体的には、研究者らは、LLM が提供する一連の言語強化機能を備えたビデオ編集ツール LAVE を紹介しました。 LAVE は、ユーザーの自由形式の言語コマンドを解釈し、ユーザーのクリップ目標を達成するための関連アクションを計画および実行できる LLM ベースの計画および実行エージェントを導入します。エージェントは、概念的な支援(クリエイティブなブレインストーミングやビデオ映像の概要など)と運用上の支援(セマンティックベースのビデオ検索、ストーリーボード作成、クリップのトリミングなど)を提供できます。

これらのエージェントのスムーズな操作を可能にするために、LAVE は視覚言語モデル (VLM) を使用して、ビデオ ビジュアルの言語記述を自動的に生成します。これらの視覚的なナレーションにより、LLM はビデオ コンテンツを理解し、言語能力を使用してユーザーが編集を完了できるように支援できます。さらに、LAVE は、エージェント支援モードと直接操作モードという 2 つのインタラクティブなビデオ編集モードを提供します。デュアル モードにより、ユーザーは柔軟性が得られ、必要に応じてエージェントの操作を改善できます。

LAVEの編集効果は?研究者らは、初心者と経験豊富な編集者を含む 8 人の参加者を対象にユーザー調査を実施し、その結果、参加者は LAVE を使用して満足のいく AI 共同ビデオを制作できることが示されました。

注目すべきは、この研究の著者6人のうち5人が中国人で、筆頭著者でトロント大学コンピューターサイエンスの博士課程の学生であるブライアン・ワン氏、メタ研究科学者のユリアン・リー氏、ザオヤン・ルヴ氏、ヤン・シュー氏、カリフォルニア大学サンディエゴ校の助教授であるハイジュン・シア氏が含まれていることだ。

LAVE ユーザーインターフェース (UI)

まず、下の図 1 に示すように、LAVE のシステム設計を見てみましょう。

LAVE ユーザー インターフェイスは、次の 3 つの主要コンポーネントで構成されています。

  • 自動的に生成された言語の説明付きのビデオクリップを表示する言語拡張ビデオライブラリ。
  • 編集用のメインタイムラインを含むビデオ編集タイムライン。
  • ビデオ クリップ エージェント。これにより、ユーザーは会話エージェントと対話してサポートを受けることができます。

設計ロジックは次のとおりです。ユーザーがエージェントと対話すると、メッセージ交換がチャット UI に表示されます。関連する操作を実行すると、エージェントはビデオ ライブラリとクリップ タイムラインに変更を加えます。さらに、ユーザーは従来の編集インターフェースと同様に、カーソルを使用してビデオライブラリとタイムラインを直接操作できます。

言語強化ビデオライブラリ

言語拡張ビデオ ライブラリの機能を以下の図 3 に示します。

この機能では、従来のツールと同様に、クリップを再生できるだけでなく、各ビデオのセマンティックタイトルや概要などのテキスト説明を自動的に生成する視覚的なナレーションも提供されます。これらのタイトルはクリップを理解して索引付けするのに役立ち、一方、概要は各クリップの視覚的なコンテンツの概要を提供し、ユーザーが独自の編集プロジェクトのストーリーラインを形成するのに役立ちます。各ビデオの下にタイトルと再生時間が表示されます。

さらに、LAVE では、ユーザーがセマンティック言語クエリを使用してビデオを検索することができ、検索されたビデオはビデオ ライブラリに表示され、関連性によって並べ替えられます。この機能は編集エージェントによって実行される必要があります。

ビデオ編集タイムライン

ビデオ ライブラリからビデオを選択して編集タイムラインに追加すると、下の図 2 に示すように、インターフェイスの下部にあるビデオ編集タイムラインに表示されます。タイムライン上の各クリップはボックスで表され、開始フレーム、中間フレーム、終了フレームの 3 つのサムネイル フレームが表示されます。

LAVE システムでは、各サムネイル フレームはクリップ内の 1 秒間の素材を表します。ビデオ ギャラリーと同様に、各クリップにはタイトルと説明が表示されます。 LAVE のクリップ タイムラインには、クリップの順序付けとトリミングという 2 つの主要機能があります。

タイムライン上でクリップを並べ替えることは、ビデオ編集では一般的なタスクであり、一貫性のあるストーリーを作成するために重要です。 LAVE は 2 つのソート方法をサポートしています。LLM ベースのソートはビデオ クリップ エージェントのストーリーボード機能を使用して操作し、手動ソートはユーザーが直接操作して各ビデオ フレームをドラッグ アンド ドロップし、クリップの表示順序を設定することによって行われます。

重要なセグメントを強調表示し、余分なコンテンツを削除するには、ビデオ編集でトリミングも重要です。トリミングする場合、ユーザーはタイムライン内のクリップをダブルクリックします。すると、下の図 4 に示すように、1 秒のフレームを表示するポップアップ ウィンドウが開きます。

ビデオ編集エージェント

LAVE のビデオ編集エージェントは、ユーザーと LLM ベースのエージェント間のやり取りを容易にするチャットベースのコンポーネントです。コマンドライン ツールとは異なり、ユーザーは自由形式の言語を使用してエージェントと対話できます。エージェントは、LLM の言語インテリジェンスを使用してビデオ編集支援を提供し、編集プロセス全体を通じてユーザーをガイドおよび支援するための具体的な応答を提供します。 LAVE のエージェント支援機能はエージェント操作を通じて提供され、各操作ではシステムでサポートされている編集機能を実行します。

全体として、LAVE が提供する機能は、構想や事前計画から実際の編集作業までのワークフロー全体をカバーしていますが、システムは厳密なワークフローを強制するものではありません。ユーザーは、編集の目的に合った機能のサブセットを柔軟に活用できます。たとえば、明確な編集ビジョンと明確に定義されたストーリーラインを持つユーザーは、アイデア創出段階を省略して、すぐに編集作業に進む可能性があります。

バックエンドシステム

この研究では、OpenAI の GPT-4 を使用して、LAVE バックエンド システムの設計を説明します。この設計には、主にエージェントの設計と、LLM によって駆動される編集機能の実装という 2 つの側面が含まれます。

インテリジェントエージェント設計

この研究では、推論、計画、ストーリーテリングを含む LLM (GPT-4) の複数の言語機能を活用して、LAVE エージェントを構築しました。

LAVE エージェントには、計画と実行の 2 つの状態があります。この設定には主に 2 つの利点があります。

  • ユーザーは複数のアクションで構成される高レベルの目標を設定できるため、従来のコマンドライン ツールで必要とされる個々のアクションの詳細を指定する必要がなくなります。
  • 実行前に、エージェントはユーザーに計画を提示し、変更の機会を提供し、ユーザーがエージェントのアクションを完全に制御できるようにします。研究チームは、計画と実行のプロセスを完了するためのバックエンド パイプラインを設計しました。

下の図 6 に示すように、パイプラインはまずユーザー入力に基づいてアクション プランを作成します。次に、プランはテキスト記述から関数呼び出しに変換され、その後対応する関数が実行されます。

LLM駆動型編集機能の実装

ユーザーがビデオ編集タスクを完了できるように、LAVE は主に次の 5 つの LLM 駆動機能をサポートしています。

  • 素材の概要
  • クリエイティブブレインストーミング
  • ビデオ検索
  • ストーリーボード
  • クリップトリミング

最初の 4 つはエージェントからアクセスできます (図 5)。一方、クリップ トリミング機能はタイムラインでクリップをダブルクリックするとアクセスでき、1 秒のフレームを表示するポップアップ ウィンドウが開きます (図 4)。

このうち、言語ベースのビデオ検索はベクトルストレージデータベースを通じて実装され、残りは LLM プロンプトエンジニアリングを通じて実装されます。すべての機能は、ビデオ ライブラリ内の各クリップのタイトルと概要を含む、自動的に生成された生の映像言語の説明に基づいて構築されています (図 3)。研究チームは、これらのビデオのテキストによる説明を「ビジュアルナレーション」と呼んでいます。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  GPT-4 も使用している可能性がある推測的デコードとは何ですか?の過去、現在、応用をまとめた記事

>>: 

ブログ    

推薦する

春節祭でロボットが書道を行う。書道家は職を失うことになるのか?

毎年、春節の祝祭舞台ではさまざまな「ブラックテクノロジー」が必ず使われています。2021年の丑年春節...

成熟したAIは独自のコードを書くべきだ。IBMは55の言語で5億行のコードデータセットを公開

[[400902]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

Dynalang - 言語を使って世界のモデルを学習する新しいAIテクノロジー

翻訳者|朱 仙中レビュー | Chonglou導入この記事は、人工知能に関する最新の研究に関する当社...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

...

数独問題を解くには人工知能や量子コンピューティングを使うべきでしょうか?

楽しいボードゲームとして誕生してから 100 年経った今、数独はどのようにして計算研究の焦点となった...

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

今日のインターネット技術の急速な発展により、目に見えないAI技術は生活のあらゆる側面に浸透しています...

電子商取引検索アルゴリズム技術の進化

2018年9月28日、アリババの電子商取引検索部門は「未来を探して推奨する」をテーマにした技術サミッ...

...

初心者向けのオープンソース機械学習フレームワーク、Scikit-learnについて

Python 言語に精通している研究者は、オープンソースの Python ベースの科学計算ツールキッ...

ビッグデータに圧倒された米国の諜報機関は人工知能に期待をかけている

[[205975]]膨大な量のデータを精査する必要があるため、米国の諜報機関は人工知能に期待をかけて...

4 つの主要ビジネス分野における業界に関するインテルの詳細な洞察、アプリケーション事例、革新的な製品とソリューションの解釈 | Intel Vision

ポストパンデミックの時代において、在宅勤務によって従業員の生産性を最大限に引き出すにはどうすればいい...

日本の量子コンピューティング戦略:2030年までに量子技術ユーザー1000万人を目指す

量子時代が到来し、世界は安全・安心な暮らしとより良い社会の実現への期待が高まっています。 最近、日本...