130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。

130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。


  • 論文アドレス: https://arxiv.org/pdf/2311.08046.pdf
  • GitHub アドレス: https://github.com/PKU-YuanGroup/Chat-UniVi
  • ハギングフェイスアドレス: https://huggingface.co/Chat-UniVi
  • デモアドレス: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

図1 Chat-UniViは画像と動画の17のベンチマークで最先端のパフォーマンスを達成

具体的には、北京大学と中山大学の研究者らが、統一された視覚表現を通じて画像タスクとビデオタスクの両方を処理できる、 Chat-UniViと呼ばれる統一視覚言語ソリューションを提案しました。統合された視覚理解モデルとして、Chat-UniVi は、画像専用に設計されたマルチモーダル大規模モデルや、視覚トークンの少ないビデオ専用に設計されたマルチモーダル大規模モデルを上回ります。さらに注目すべきは、提案された統合視覚表現により、入力視覚トークンの数が大幅に削減され、モデルのトレーニングと推論のコストが大幅に削減され、130億のパラメータを持つ大規模なユニバーサル視覚言語モデルのトレーニングにわずか3日しかかからないことです。

この記事で方法を紹介する前に、デモ表示を見てみましょう。

方法の紹介

既存のマルチモーダル言語モデルは通常、画像またはビデオ入力のみに焦点を当てています。その中でも、画像理解に重点を置いた手法では、通常、より細かい空間解像度を得るために多数の視覚トークンを使用します。ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度が犠牲になることがよくあります。

これに対応して、研究者は、一連の動的なビジュアルトークンを使用して画像やビデオを均一に表現することを提案しました。図 2 に示すように、画像はさまざまなサイズの視覚トークンによってモデル化できます。たとえば、主なオブジェクト (図 2 の羊) を細かく表現するには、より多くの視覚トークンが必要ですが、背景 (雪山) は 1 つの視覚トークンのみを使用して適切にモデル化できます。ビデオの場合、ビデオは最初に複数の主要なイベントに分割され、次にイベント内でビジュアル トークンが展開されます。画像とビデオのこの統一された表現により、モデルの表現力を維持しながら、視覚的なトークンの数が大幅に削減されます。この方法では、長いビデオにはより多くのビジュアルトークンが割り当てられることに注意してください。そのため、既存の方法よりも長さが変化するビデオを理解するのに適しています。

図2. Chat-UniViが提案する統一された視覚表現

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。ビデオの場合、イベントのフレーム セットを取得するために、最近傍密度ピーク クラスタリング アルゴリズムも適用されます。モデルのパフォーマンスをさらに向上させるために、研究者らは LLM にマルチスケール表現を提供しました。マルチスケール表現の上位レベルの特徴は高レベルの意味概念を表し、下位レベルの特徴は視覚的な詳細の表現を強調します。

図3. Chat-UniViの全体フレームワーク

Chat-UniVi フレームワークには 2 つの魅力的な利点があります。まず、統合された画像とビデオのモデリング アプローチにより、混合画像とビデオのデータセットでトレーニングでき、変更を加えることなく画像とビデオのタスクに直接適用できます。第二に、マルチスケール表現により、画像や動画の包括的な理解が容易になり、Chat-UniVi は高レベルの特徴を使用した意味理解や低レベルの特徴を使用した詳細な説明の生成など、さまざまなタスクに適応できるようになります。

Chat-UniVi のトレーニングは 2 つの段階に分かれています。

(1)マルチモーダル事前トレーニング最初の段階では、研究者は LLM とビジュアル エンコーダーをフリーズし、投影行列のみをトレーニングします。このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

(2)共同指示の微調整第2段階では、研究者らは画像と動画が混在するデータセット上でモデル全体のすべてのパラメータを微調整しました。 Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

実験

絵の理解実験。 Chat-UniVi は、より少ないビジュアルトークンを使用しながら、優れたパフォーマンスを実現します。注目すべきは、70 億個のパラメータを持つ Chat-UniVi モデルでも、130 億個のパラメータを持つ LLaVA モデルと同等のパフォーマンス レベルを達成できることであり、これはこの方法の有効性を証明しています。

ビデオ理解実験。 Chat-UniVi は、統合された視覚言語モデルとして、VideoChat や Video-ChatGPT などのビデオ専用に設計された方法よりも優れています。

写真クイズ実験。 Chat-UniVi は、ScienceQA データセットで競争力のあるパフォーマンスを実現します。 Chat-UniVi が、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れていることは注目に値します。これは、この方法の優位性を完全に実証しています。

ビデオクイズ実験。 Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験。 Chat-UniVi は、幻覚評価に関して最近提案された最先端の方法よりも優れています。さらに研究者らは、マルチスケール表現が幻覚に対する抵抗力を向上させることを発見した。注目すべきは、7B モデルである Chat-UniVi が MiniGPT4 などの 13B モデルよりも優れていることです。研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験。同時に、研究者らは手動による評価実験も実施した。研究者たちは、Flamingo ベースのアプローチではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ専用に設計されたモデルよりも優れています。

視覚化。 Chat-UniVi が使用する動的なビジュアル トークンは、オブジェクトと背景を効果的に要約します。これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度と、ビデオ理解に必要なきめ細かい時間解像度の両方を構築できるようになります。

<<:  GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

>>:  研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

ブログ    
ブログ    

推薦する

2021年に注目すべき人工知能のトレンド

ワクチン開発からオンラインショッピング、農作物の栽培まで、人工知能技術はますます活用されるようになり...

このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

CVPR 2021で発表された論文の中で、NetEase Fuxiとミシガン大学の研究者は、制御可能...

脳のようなデバイスを使用して神経信号を効率的に処理し、新しい脳コンピューターインターフェースを構築する

最近、清華大学マイクロナノエレクトロニクス学部および未来チップ技術先進イノベーションセンターのQia...

...

人工知能時代の機械の未来

この記事では、人間が持っているが機械がまだ獲得していないいくつかの必要な能力を列挙し、現在の開発動向...

...

人間を機械に置き換える流れはますます激しくなっており、この2つの発展点は無視できません。

近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

機械学習ガバナンスの5つの課題

ML モデル ガバナンスは、組織がアクセスを制御し、ポリシーを実装し、モデル アクティビティを追跡す...

WuDao 2.Oがリリースされ、中国語を中核とする大規模な事前学習済みモデルプラットフォームエコシステムを構築

【51CTO.comオリジナル記事】​​​ GPT-3は昨年5月にリリースされました。 OpenAI...

人と「人」の対立を実感する: よく使われるAIセキュリティツールのインベントリ

今日、サイバー犯罪者は機械学習や人工知能などの新しいテクノロジーを使用して、標的の行動をより深く理解...

データ中心主義と民主化を実践する方法

[[418617]]人工知能と人間の知能は互いに対立するものではなく、本質的に共生関係にあります。企...

...

人工知能が企業コミュニケーションに及ぼす10の影響

職場にソフトウェア ロボットや人工知能 (AI) が導入されると考えると、一部の労働者は不安を感じる...

Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソース...