北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

130 億のパラメータを持つ一般的な視覚言語モデルのトレーニングには、わずか 3 日しかかかりません

北京大学と中山大学の研究チームは別の解決策を考案した。最新の研究では、研究チームは画像と動画の統一された表現を構築するためのフレームワークを提案した。

このフレームワークを使用すると、トレーニングおよび推論中のVLM (Visual Language Model) のオーバーヘッドを大幅に削減できます

具体的には、チームは提案された新しいフレームワークに従って、新しい VLM: Chat-UniViをトレーニングしました。

Chat-UniVi は、画像とビデオの混合データを使用してトレーニングすることができ、画像タスクとビデオ理解タスクを同時に処理できます。

これに基づいて、Chat-UniVi は画像とビデオに関する 17 のベンチマークで優れたパフォーマンスを発揮します。

現在、このプロジェクトは GitHub と Hugface でオープンソース化されています。

新しい方法とChat-UniViの詳細については、詳しく見てみましょう〜

Chat-UniViとは何ですか?

基本的な情報を理解した上で、Chat-UniViとは何かについて詳しくお話していきましょう。

簡単に言えば、Chat-UniVi は画像とビデオの両方を理解できる統合マルチモーダル大規模言語モデルです。

現在の VLM 手法は画像理解に偏っており、より細かい空間解像度を得るために多数の視覚トークンを使用することが多いです。

ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度を犠牲にすることがよくあります。

それらとは異なり、Chat-UniViは動的なビジュアルトークンを採用して画像や動画を均一に表現します。動的なトークンマージ方法はパラメータフリーで、追加のトレーニングは必要ありません。

動的トークンのソースは、視覚トークンの段階的なクラスタリングです。

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。

その中で、絵はさまざまなサイズの視覚トークンによってモデル化できます。

例えば:

写真の羊を細かく表現するには、比較的多くの視覚トークンが必要ですが、背景の雪をかぶった山々は、1 つの視覚トークンだけで完全にモデル化できます。

ビデオについては、ビデオを処理するときに、最近傍密度ピーククラスタリングアルゴリズムも使用して、イベントのフレームセットを取得します。

Chat-UniVi はそれを複数の主要なイベントに分割し、イベント内のビジュアル トークンを展開します。

もちろん、この方法を使用すると、長いビデオにはより多くのビジュアルトークンが割り当てられるため、可変長ビデオのコンテキストでは、この方法は既存の方法よりも多くの利点があります。

要約すると、画像とビデオのこの統一された表現により、モデルの表現力を維持しながら視覚的なトークンの数が削減されます。

同時に、ビジュアル トークンの数が減るため、この方法を使用してモデルをトレーニングし、推論を実行するコストが大幅に削減されます。130 億のパラメータを持つ VLM をトレーニングするには、わずか 3 日しかかかりません。

ちなみに、モデルのパフォーマンスをさらに向上させるために、チームは LLM のマルチスケール表現も提供しました。

マルチスケール表現の上位レベルの機能は高レベルの意味概念を表し、下位レベルの機能は視覚的な詳細の表現を強調します。

この時点で、Chat-UniVi の2 つの主要な機能をまとめることができます。

まず、独自のモデリング方法により、Chat-UniVi のトレーニング データセットは写真とビデオの混合バージョンにすることができ、変更を加えることなく写真とビデオのタスクに直接適用できます。

第二に、マルチスケール表現により、Chat-UniVi は画像やビデオをより徹底的かつ包括的に理解できるようになります。

これにより、意味理解のための高レベル機能の使用や詳細な説明の生成のための低レベル機能の使用など、Chat-UniVi のタスク適応性も強化されます。

2段階のトレーニング

Chat-UniViのトレーニングは2段階に分かれています。

最初のステップは、マルチモーダル事前トレーニングです。

この段階で、研究者は LLM とビジュアル エンコーダーを凍結し、投影行列のみをトレーニングしました。

このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

2 番目のステップは、共同指示を微調整することです。

第 2 フェーズでは、チームは画像とビデオの両方を含む混合データセットを使用して、モデル全体のすべてのパラメータを微調整しました。

Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

トレーニングの過程で、チームは以下の実験を実施しました。

画像理解実験

Chat-UniVi は、視覚マーカーを少なく使用しながらも優れたパフォーマンスを発揮します。

7B パラメータの Chat-UniVi モデルは、13B サイズの LLaVA モデルのパフォーマンス レベルを達成できます。これはこの方法の有効性を証明しています。

ビデオ理解実験

統合された VLM として、Chat-UniVi は、VideoChat や Video-ChatGPT など、ビデオ専用に設計された方法よりも優れています。

写真クイズ実験

Chat-UniVi は ScienceQA データセットで優れたパフォーマンスを発揮し、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れています。

ビデオ質問応答実験

Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験

幻覚評価の点では、Chat-UniVi は最近提案された最先端の方法よりも優れています。

7B モデルとして、Chat-UniVi は 13B のパラメータ サイズを持つ MiniGPT-4 よりも優れていることは注目に値します。

研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験

同時に、研究者らは手動による評価実験も実施した。

彼らは、Flamingo ベースの方法ではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。

対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ用に特別に設計されたモデルよりも優れています。

視覚化

Chat-UniVi が採用した動的なビジュアル トークンは、オブジェクトと背景を巧みに要約します。

これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度とビデオ理解に必要なきめ細かい時間解像度を同時にモデル化できるようになります。

チームについて

論文の筆頭著者は、北京大学情報工学学院博士課程3年生のJin Peng氏です。

責任著者は、北京大学情報工学学院の助教授兼博士課程指導者である Yuan Li です

彼の研究分野はマルチモーダルディープラーニングと AI4S であり、その中でも AI4S 分野では主に化学と生物学の主要な問題を解決するためのディープラーニングを研究しています。

ChatExcelやChatLawなど、これまで人気があったオンライン垂直分野の大規模モデルプロジェクトはすべてYuan Li氏のチームによるものでした。

arXiv: https://arxiv.org/pdf/2311.08046.pdf
デモ: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイス: https://huggingface.co/Chat-UniVi

<<: 

>>: 

ブログ    
ブログ    

推薦する

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感...

AIツールは企業にデータ侵害のリスクをもたらす

2021年以降、企業内部者によるデータ侵害、損失、盗難は月平均28%増加しており、回答者の85%は今...

...

素晴らしい!ニューラルネットワークがフロントエンドコードを作成します

今後 3 年間で、ディープラーニングはフロントエンド開発の現状を変え、プロトタイピングの速度を向上さ...

機械学習エンジニアになる方法

[[376371]] [51CTO.com クイック翻訳] 人工知能や機械学習の技術を導入する企業が...

ビッグデータと機械学習は世界のエネルギー業界をどのように変えるのでしょうか?

機械学習、ビッグデータ、自動化は世界の産業システムに革命をもたらしており、エネルギー業界も例外ではあ...

...

ソラを解剖:技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか? !リーハイ大学とマイ...

OpenAIに大きな打撃!米政府がChatGPTを「オープンソース化」、アルトマン氏はパニックに陥り3つのツイートを投稿

ビッグニュース!連邦取引委員会の調査が始まります!調査の対象は、人気の OpenAI に他なりません...

科学者らがドローンを使って南極のペンギンの「国勢調査」を実施

最近、南極で初めて金色のペンギンが発見されました。このペンギンは「黄色いダイヤモンドを帯びている」と...

エージェントは迅速なエンジニアリングに使用されます

エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか...

AIによる顔の改造の一般的な手法の詳細な説明

最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...

...

Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

[[184558]] Gorgonia は、Go での機械学習を容易にし、多次元配列を含む数式の記述...