北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

130 億のパラメータを持つ一般的な視覚言語モデルのトレーニングには、わずか 3 日しかかかりません。

北京大学と中山大学の研究チームは別の解決策を考案した。最新の研究では、研究チームは画像と動画の統一された表現を構築するためのフレームワークを提案した。

このフレームワークを使用すると、トレーニングおよび推論中のVLM (Visual Language Model) のオーバーヘッドを大幅に削減できます。

具体的には、チームは提案された新しいフレームワークに従って、新しい VLM: Chat-UniViをトレーニングしました。

Chat-UniVi は、画像とビデオの混合データを使用してトレーニングすることができ、画像タスクとビデオ理解タスクを同時に処理できます。

これに基づいて、Chat-UniVi は画像とビデオに関する 17 のベンチマークで優れたパフォーマンスを発揮します。

現在、このプロジェクトは GitHub と Hugface でオープンソース化されています。

新しい方法とChat-UniViの詳細については、詳しく見てみましょう〜

Chat-UniViとは何ですか？

基本的な情報を理解した上で、Chat-UniViとは何かについて詳しくお話していきましょう。

簡単に言えば、Chat-UniVi は画像とビデオの両方を理解できる統合マルチモーダル大規模言語モデルです。

現在の VLM 手法は画像理解に偏っており、より細かい空間解像度を得るために多数の視覚トークンを使用することが多いです。

ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度を犠牲にすることがよくあります。

それらとは異なり、Chat-UniViは動的なビジュアルトークンを採用して画像や動画を均一に表現します。動的なトークンマージ方法はパラメータフリーで、追加のトレーニングは必要ありません。

動的トークンのソースは、視覚トークンの段階的なクラスタリングです。

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。

その中で、絵はさまざまなサイズの視覚トークンによってモデル化できます。

例えば：

写真の羊を細かく表現するには、比較的多くの視覚トークンが必要ですが、背景の雪をかぶった山々は、1 つの視覚トークンだけで完全にモデル化できます。

ビデオについては、ビデオを処理するときに、最近傍密度ピーククラスタリングアルゴリズムも使用して、イベントのフレームセットを取得します。

Chat-UniVi はそれを複数の主要なイベントに分割し、イベント内のビジュアルトークンを展開します。

もちろん、この方法を使用すると、長いビデオにはより多くのビジュアルトークンが割り当てられるため、可変長ビデオのコンテキストでは、この方法は既存の方法よりも多くの利点があります。

要約すると、画像とビデオのこの統一された表現により、モデルの表現力を維持しながら視覚的なトークンの数が削減されます。

同時に、ビジュアルトークンの数が減るため、この方法を使用してモデルをトレーニングし、推論を実行するコストが大幅に削減されます。130 億のパラメータを持つ VLM をトレーニングするには、わずか 3 日しかかかりません。

ちなみに、モデルのパフォーマンスをさらに向上させるために、チームは LLM のマルチスケール表現も提供しました。

マルチスケール表現の上位レベルの機能は高レベルの意味概念を表し、下位レベルの機能は視覚的な詳細の表現を強調します。

この時点で、Chat-UniVi の2 つの主要な機能をまとめることができます。

まず、独自のモデリング方法により、Chat-UniVi のトレーニングデータセットは写真とビデオの混合バージョンにすることができ、変更を加えることなく写真とビデオのタスクに直接適用できます。

第二に、マルチスケール表現により、Chat-UniVi は画像やビデオをより徹底的かつ包括的に理解できるようになります。

これにより、意味理解のための高レベル機能の使用や詳細な説明の生成のための低レベル機能の使用など、Chat-UniVi のタスク適応性も強化されます。

2段階のトレーニング

Chat-UniViのトレーニングは2段階に分かれています。

最初のステップは、マルチモーダル事前トレーニングです。

この段階で、研究者は LLM とビジュアルエンコーダーを凍結し、投影行列のみをトレーニングしました。

このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

2 番目のステップは、共同指示を微調整することです。

第 2 フェーズでは、チームは画像とビデオの両方を含む混合データセットを使用して、モデル全体のすべてのパラメータを微調整しました。

Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

トレーニングの過程で、チームは以下の実験を実施しました。

画像理解実験

Chat-UniVi は、視覚マーカーを少なく使用しながらも優れたパフォーマンスを発揮します。

7B パラメータの Chat-UniVi モデルは、13B サイズの LLaVA モデルのパフォーマンスレベルを達成できます。これはこの方法の有効性を証明しています。

ビデオ理解実験

統合された VLM として、Chat-UniVi は、VideoChat や Video-ChatGPT など、ビデオ専用に設計された方法よりも優れています。

写真クイズ実験

Chat-UniVi は ScienceQA データセットで優れたパフォーマンスを発揮し、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れています。

ビデオ質問応答実験

Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験

幻覚評価の点では、Chat-UniVi は最近提案された最先端の方法よりも優れています。

7B モデルとして、Chat-UniVi は 13B のパラメータサイズを持つ MiniGPT-4 よりも優れていることは注目に値します。

研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験

同時に、研究者らは手動による評価実験も実施した。

彼らは、Flamingo ベースの方法ではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。

対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ用に特別に設計されたモデルよりも優れています。

視覚化

Chat-UniVi が採用した動的なビジュアルトークンは、オブジェクトと背景を巧みに要約します。

これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度とビデオ理解に必要なきめ細かい時間解像度を同時にモデル化できるようになります。

チームについて

論文の筆頭著者は、北京大学情報工学学院博士課程3年生のJin Peng氏です。

責任著者は、北京大学情報工学学院の助教授兼博士課程指導者である Yuan Li です。

彼の研究分野はマルチモーダルディープラーニングと AI4S であり、その中でも AI4S 分野では主に化学と生物学の主要な問題を解決するためのディープラーニングを研究しています。

ChatExcelやChatLawなど、これまで人気があったオンライン垂直分野の大規模モデルプロジェクトはすべてYuan Li氏のチームによるものでした。

arXiv: https://arxiv.org/pdf/2311.08046.pdf
デモ: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイス: https://huggingface.co/Chat-UniVi

<<:

>>:

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

Chat-UniViとは何ですか？

2段階のトレーニング

画像理解実験

ビデオ理解実験

写真クイズ実験

ビデオ質問応答実験

幻覚実験

手動評価実験

視覚化

チームについて

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

ビッグデータと機械学習は世界のエネルギー業界をどのように変えるのでしょうか?

GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

AIは人間のための単なるツールだということをご存知ですか?

インテリジェント運転ビッグデータの最先端の研究の進歩と典型的な応用

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか？

あなたが言う、私が描く、あなたが描く、私が言う：ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

ロボットはどのようにあなたに取って代わるのでしょうか?英国のスーパーマーケットのスマート倉庫では、1日50万個の商品を仕分けるのにたった3人しか要らない

推薦する

Baidu CTO 王海鋒氏のCNCC2019講演: ディープラーニングプラットフォームが産業インテリジェンスをサポート

機械学習が金融業界にもたらす破壊的変化

機械学習でよく使われる7つの線形次元削減手法の概要

自然言語処理必読本: 理論と実践のバランスが取れた 5 冊の本

インターネットミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

データサイエンスの初心者の場合は、まずはここにいくつかのアルゴリズムを紹介します。

ディープマインドは数人の大物を採用し、ニューヨークにAI研究チームを設立する予定だ

2024年のAIソフトウェアテストの主なトレンド

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

OpenAIの「コピー＆ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

この記事は人工知能について最も分かりやすく解説しています：原理、技術、そして将来

超便利！追加のコードを書かずに依存性注入の5つの原則をマスターする

スマート建設現場: 2021 年に注目すべき 5 つのスマート建設技術