130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。

論文アドレス: https://arxiv.org/pdf/2311.08046.pdf
GitHub アドレス: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイスアドレス: https://huggingface.co/Chat-UniVi
デモアドレス: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

図1 Chat-UniViは画像と動画の17のベンチマークで最先端のパフォーマンスを達成

具体的には、北京大学と中山大学の研究者らが、統一された視覚表現を通じて画像タスクとビデオタスクの両方を処理できる、 Chat-UniViと呼ばれる統一視覚言語ソリューションを提案しました。統合された視覚理解モデルとして、Chat-UniVi は、画像専用に設計されたマルチモーダル大規模モデルや、視覚トークンの少ないビデオ専用に設計されたマルチモーダル大規模モデルを上回ります。さらに注目すべきは、提案された統合視覚表現により、入力視覚トークンの数が大幅に削減され、モデルのトレーニングと推論のコストが大幅に削減され、130億のパラメータを持つ大規模なユニバーサル視覚言語モデルのトレーニングにわずか3日しかかからないことです。

この記事で方法を紹介する前に、デモ表示を見てみましょう。

方法の紹介

既存のマルチモーダル言語モデルは通常、画像またはビデオ入力のみに焦点を当てています。その中でも、画像理解に重点を置いた手法では、通常、より細かい空間解像度を得るために多数の視覚トークンを使用します。ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度が犠牲になることがよくあります。

これに対応して、研究者は、一連の動的なビジュアルトークンを使用して画像やビデオを均一に表現することを提案しました。図 2 に示すように、画像はさまざまなサイズの視覚トークンによってモデル化できます。たとえば、主なオブジェクト (図 2 の羊) を細かく表現するには、より多くの視覚トークンが必要ですが、背景 (雪山) は 1 つの視覚トークンのみを使用して適切にモデル化できます。ビデオの場合、ビデオは最初に複数の主要なイベントに分割され、次にイベント内でビジュアルトークンが展開されます。画像とビデオのこの統一された表現により、モデルの表現力を維持しながら、視覚的なトークンの数が大幅に削減されます。この方法では、長いビデオにはより多くのビジュアルトークンが割り当てられることに注意してください。そのため、既存の方法よりも長さが変化するビデオを理解するのに適しています。

図2. Chat-UniViが提案する統一された視覚表現

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。ビデオの場合、イベントのフレームセットを取得するために、最近傍密度ピーククラスタリングアルゴリズムも適用されます。モデルのパフォーマンスをさらに向上させるために、研究者らは LLM にマルチスケール表現を提供しました。マルチスケール表現の上位レベルの特徴は高レベルの意味概念を表し、下位レベルの特徴は視覚的な詳細の表現を強調します。

図3. Chat-UniViの全体フレームワーク

Chat-UniVi フレームワークには 2 つの魅力的な利点があります。まず、統合された画像とビデオのモデリングアプローチにより、混合画像とビデオのデータセットでトレーニングでき、変更を加えることなく画像とビデオのタスクに直接適用できます。第二に、マルチスケール表現により、画像や動画の包括的な理解が容易になり、Chat-UniVi は高レベルの特徴を使用した意味理解や低レベルの特徴を使用した詳細な説明の生成など、さまざまなタスクに適応できるようになります。

Chat-UniVi のトレーニングは 2 つの段階に分かれています。

（１）マルチモーダル事前トレーニング最初の段階では、研究者は LLM とビジュアルエンコーダーをフリーズし、投影行列のみをトレーニングします。このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

（２）共同指示の微調整第2段階では、研究者らは画像と動画が混在するデータセット上でモデル全体のすべてのパラメータを微調整しました。 Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

実験

絵の理解実験。 Chat-UniVi は、より少ないビジュアルトークンを使用しながら、優れたパフォーマンスを実現します。注目すべきは、70 億個のパラメータを持つ Chat-UniVi モデルでも、130 億個のパラメータを持つ LLaVA モデルと同等のパフォーマンスレベルを達成できることであり、これはこの方法の有効性を証明しています。

ビデオ理解実験。 Chat-UniVi は、統合された視覚言語モデルとして、VideoChat や Video-ChatGPT などのビデオ専用に設計された方法よりも優れています。

写真クイズ実験。 Chat-UniVi は、ScienceQA データセットで競争力のあるパフォーマンスを実現します。 Chat-UniVi が、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れていることは注目に値します。これは、この方法の優位性を完全に実証しています。

ビデオクイズ実験。 Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験。 Chat-UniVi は、幻覚評価に関して最近提案された最先端の方法よりも優れています。さらに研究者らは、マルチスケール表現が幻覚に対する抵抗力を向上させることを発見した。注目すべきは、7B モデルである Chat-UniVi が MiniGPT4 などの 13B モデルよりも優れていることです。研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験。同時に、研究者らは手動による評価実験も実施した。研究者たちは、Flamingo ベースのアプローチではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ専用に設計されたモデルよりも優れています。

視覚化。 Chat-UniVi が使用する動的なビジュアルトークンは、オブジェクトと背景を効果的に要約します。これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度と、ビデオ理解に必要なきめ細かい時間解像度の両方を構築できるようになります。

<<: GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

>>: 研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。