北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

130 億のパラメータを持つ一般的な視覚言語モデルのトレーニングには、わずか 3 日しかかかりません

北京大学と中山大学の研究チームは別の解決策を考案した。最新の研究では、研究チームは画像と動画の統一された表現を構築するためのフレームワークを提案した。

このフレームワークを使用すると、トレーニングおよび推論中のVLM (Visual Language Model) のオーバーヘッドを大幅に削減できます

具体的には、チームは提案された新しいフレームワークに従って、新しい VLM: Chat-UniViをトレーニングしました。

Chat-UniVi は、画像とビデオの混合データを使用してトレーニングすることができ、画像タスクとビデオ理解タスクを同時に処理できます。

これに基づいて、Chat-UniVi は画像とビデオに関する 17 のベンチマークで優れたパフォーマンスを発揮します。

現在、このプロジェクトは GitHub と Hugface でオープンソース化されています。

新しい方法とChat-UniViの詳細については、詳しく見てみましょう〜

Chat-UniViとは何ですか?

基本的な情報を理解した上で、Chat-UniViとは何かについて詳しくお話していきましょう。

簡単に言えば、Chat-UniVi は画像とビデオの両方を理解できる統合マルチモーダル大規模言語モデルです。

現在の VLM 手法は画像理解に偏っており、より細かい空間解像度を得るために多数の視覚トークンを使用することが多いです。

ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度を犠牲にすることがよくあります。

それらとは異なり、Chat-UniViは動的なビジュアルトークンを採用して画像や動画を均一に表現します。動的なトークンマージ方法はパラメータフリーで、追加のトレーニングは必要ありません。

動的トークンのソースは、視覚トークンの段階的なクラスタリングです。

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。

その中で、絵はさまざまなサイズの視覚トークンによってモデル化できます。

例えば:

写真の羊を細かく表現するには、比較的多くの視覚トークンが必要ですが、背景の雪をかぶった山々は、1 つの視覚トークンだけで完全にモデル化できます。

ビデオについては、ビデオを処理するときに、最近傍密度ピーククラスタリングアルゴリズムも使用して、イベントのフレームセットを取得します。

Chat-UniVi はそれを複数の主要なイベントに分割し、イベント内のビジュアル トークンを展開します。

もちろん、この方法を使用すると、長いビデオにはより多くのビジュアルトークンが割り当てられるため、可変長ビデオのコンテキストでは、この方法は既存の方法よりも多くの利点があります。

要約すると、画像とビデオのこの統一された表現により、モデルの表現力を維持しながら視覚的なトークンの数が削減されます。

同時に、ビジュアル トークンの数が減るため、この方法を使用してモデルをトレーニングし、推論を実行するコストが大幅に削減されます。130 億のパラメータを持つ VLM をトレーニングするには、わずか 3 日しかかかりません。

ちなみに、モデルのパフォーマンスをさらに向上させるために、チームは LLM のマルチスケール表現も提供しました。

マルチスケール表現の上位レベルの機能は高レベルの意味概念を表し、下位レベルの機能は視覚的な詳細の表現を強調します。

この時点で、Chat-UniVi の2 つの主要な機能をまとめることができます。

まず、独自のモデリング方法により、Chat-UniVi のトレーニング データセットは写真とビデオの混合バージョンにすることができ、変更を加えることなく写真とビデオのタスクに直接適用できます。

第二に、マルチスケール表現により、Chat-UniVi は画像やビデオをより徹底的かつ包括的に理解できるようになります。

これにより、意味理解のための高レベル機能の使用や詳細な説明の生成のための低レベル機能の使用など、Chat-UniVi のタスク適応性も強化されます。

2段階のトレーニング

Chat-UniViのトレーニングは2段階に分かれています。

最初のステップは、マルチモーダル事前トレーニングです。

この段階で、研究者は LLM とビジュアル エンコーダーを凍結し、投影行列のみをトレーニングしました。

このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

2 番目のステップは、共同指示を微調整することです。

第 2 フェーズでは、チームは画像とビデオの両方を含む混合データセットを使用して、モデル全体のすべてのパラメータを微調整しました。

Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

トレーニングの過程で、チームは以下の実験を実施しました。

画像理解実験

Chat-UniVi は、視覚マーカーを少なく使用しながらも優れたパフォーマンスを発揮します。

7B パラメータの Chat-UniVi モデルは、13B サイズの LLaVA モデルのパフォーマンス レベルを達成できます。これはこの方法の有効性を証明しています。

ビデオ理解実験

統合された VLM として、Chat-UniVi は、VideoChat や Video-ChatGPT など、ビデオ専用に設計された方法よりも優れています。

写真クイズ実験

Chat-UniVi は ScienceQA データセットで優れたパフォーマンスを発揮し、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れています。

ビデオ質問応答実験

Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験

幻覚評価の点では、Chat-UniVi は最近提案された最先端の方法よりも優れています。

7B モデルとして、Chat-UniVi は 13B のパラメータ サイズを持つ MiniGPT-4 よりも優れていることは注目に値します。

研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験

同時に、研究者らは手動による評価実験も実施した。

彼らは、Flamingo ベースの方法ではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。

対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ用に特別に設計されたモデルよりも優れています。

視覚化

Chat-UniVi が採用した動的なビジュアル トークンは、オブジェクトと背景を巧みに要約します。

これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度とビデオ理解に必要なきめ細かい時間解像度を同時にモデル化できるようになります。

チームについて

論文の筆頭著者は、北京大学情報工学学院博士課程3年生のJin Peng氏です。

責任著者は、北京大学情報工学学院の助教授兼博士課程指導者である Yuan Li です

彼の研究分野はマルチモーダルディープラーニングと AI4S であり、その中でも AI4S 分野では主に化学と生物学の主要な問題を解決するためのディープラーニングを研究しています。

ChatExcelやChatLawなど、これまで人気があったオンライン垂直分野の大規模モデルプロジェクトはすべてYuan Li氏のチームによるものでした。

arXiv: https://arxiv.org/pdf/2311.08046.pdf
デモ: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイス: https://huggingface.co/Chat-UniVi

<<: 

>>: 

ブログ    

推薦する

...

...

AIと機械学習がIoTと密接に関係する理由

モノのインターネット (IoT) の将来の可能性は無限です。 2025 年までに、世界中の IoT ...

Facebookは機械学習を使ってコンパイラを最適化

Facebook は最近、コンパイラ最適化タスクを実行するための高性能で使いやすい強化学習 (RL)...

RAG 上級スキル - ウィンドウ コンテキスト取得の実装方法

この記事では、RAG (Retrieval-Augmented Generation) モデルの検索...

...

...

再帰アルゴリズム: 不可解なスイッチ「ライトを引く」

[[411620]]タイトル出典:AcWing[1]。トピック「Pull the Light」とい...

人工知能がサービスと運用管理を改善する10の方法

ヨーロッパの多国籍通信会社は、BMC の Helix Chatbot を標準化して、全部門の 120...

...

連合転移学習の最新の進歩: 計算と転送はモデルのパフォーマンスをどのように「制限」するのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

行列の乗算は乗算を必要とせず、100倍高速化、MITが近似アルゴリズムをオープンソース化

[[421266]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能とメタバースの関係を探る

AI とメタバースのつながりは、新たなデジタルのフロンティアを開拓しています… Metaverse ...

AIは期待に応えられていない?これらの人為的ミスが発生した可能性がある

人工知能は、ほとんどのビジネス分野で必須のテクノロジーになりつつあります。顧客対応チャットボットとし...