Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

大規模モデルの時代では、視覚言語モデル (VLM) のパラメータは数百億、さらには数千億にまで拡大し、パフォーマンスが継続的に向上しています。同時に、より小型のモデルは、トレーニングや運用が容易で、環境に優しく、モデル設計の研究サイクルが速いため、依然として重要です。

この分野では、Google Research が昨年PaLI (Pathways Language and Image)と呼ばれるモデルを立ち上げました大規模なマルチモーダルモデルである PaLI の重要な構造の 1 つは、言語と視覚のモデリングに大規模なユニモーダルバックボーンを再利用することです。言語に関しては、13B パラメータ mT5-XXL を再利用し、視覚に関しては、2B パラメータ ViT-G と 4B パラメータ ViT-e を再利用します。当時、PaLI はほとんどの新旧モデルよりも優れたパフォーマンスを実現しました。

それ以来、Google は小規模モデリングに注力し続け、最近では PaLI シリーズの第 3 世代モデルである PaLI-3 を提案しました。わずか 50 億のパラメータを持つ事前トレーニング済みのベースライン モデルを使用して、トレーニング方法を最適化し、複数の VLM ベンチマークで競争力のある新しい SOTA 結果を達成しました。

この方法は主に、Web 規模の画像テキスト データに対する画像エンコーダーの比較事前トレーニング、PaLI マルチモーダル トレーニング用の改良されたハイブリッド データセット、および高解像度トレーニングの 3 つの部分で構成されます。

著者は、Google Research、Google DeepMind、Google Cloud に所属しています。

論文アドレス: https://arxiv.org/pdf/2310.09199.pdf

下の図は 5B PaLI-3 モデルの概要です。ここでは、画像は事前にトレーニングされた 2B SigLIP ビジョン モデルと比較して、個別にビジュアル トークンにエンコードされます。これらのビジュアル トークンは、クエリとともに 3B エンコーダー/デコーダー構造で UL2 トランスフォーマーに渡され、期待される回答が生成されます。この設定では、事前トレーニング済みモデルは、以前の PaLI モデルの単一分類事前トレーニング済みモデルと比較して、大幅に多くの有用なトークンを提供します。

効果は何ですか? PaLI-3 は、RefCOCO データセットでの 8 つの視覚的ローカリゼーション テキスト理解タスクと参照表現セグメンテーション タスクを含む、視覚的ローカリゼーション、テキスト理解、オブジェクト ローカリゼーションを必要とするタスクで新しい SOTA を達成しました。 PaLI-3 は、さまざまな分類視覚タスクでも優れたパフォーマンスを発揮します。

さらに、研究者らは、分類の事前トレーニング済み ViT ベースライン モデルと比較するためのアブレーション実験を実施し、ノイズの多い Web 規模の画像およびテキスト データに対する事前トレーニング済みビジュアル エンコーダーの実現可能性をさらに確認し、分類データのトレーニングに適した代替手段にしました。

研究者らは、5B PaLI-3 モデルに加えて、最近提案された SigLIP 法も使用して、パラメータを 2B に拡張した SOTA 多言語コントラスト視覚モデルを構築しました。

モデル紹介

建築

大まかに言えば、PaLI-3 のアーキテクチャは Chen ら (2023b;a) に従っています。ViT モデルは画像をトークンにエンコードし、質問、プロンプト、指示などのテキスト入力とともにエンコーダー/デコーダー トランスフォーマーに渡してテキスト出力を生成します。

まずは視覚的な要素を見てみましょう。研究者らは、SigLIP トレーニング法を使用して、事前トレーニング済みの ViT-G/14 モデル (約 20 億個のパラメータ) から PaLI-3 の視覚バックボーンを初期化しました。つまり、画像埋め込み ViT-G/14 モデルとテキスト埋め込みトランスフォーマー モデルをトレーニングして、それぞれ画像とテキストを埋め込むようにし、画像とテキストの埋め込みのドット積のシグモイド クロス エントロピーを使用するバイナリ分類器が、それぞれの画像とテキストが互いに対応しているかどうかを正確に分類できるようにしました。

これは CLIP や ALIGN に似ていますが、より効率的で、スケーラブルで、堅牢です。同時に、このアプローチは ViT 画像埋め込みコンポーネントを事前トレーニングするものであるため、ViT が PaLI に挿入されると、テキスト埋め込みトランスフォーマーは破棄されます。

完全な PaLI モデルを見てみましょう。 ViT 画像エンコーダーの出力は、プーリングされる前にビジュアル トークンに形成され、線形にマッピングされて埋め込まれた入力テキスト トークンに追加されます。これらのトークンは、事前にトレーニングされた 3B UL2 エンコーダー/デコーダー モデルに渡され、テキスト出力が生成されます。モデルへのテキスト入力は通常、タスクの種類を説明し、そのタスクに必要なテキスト入力をエンコードするプロンプトで構成されます。

電車

トレーニング プロセスはいくつかの段階で構成されます。

ステージ 0: ユニモーダル事前トレーニング。画像エンコーダーは SigLIP トレーニング プロトコルに従い、画像エンコーダーのトレーニング解像度は 224×224 です。テキスト エンコーダー/デコーダーは 3B UL2 モデルで、Tay らによって説明されたハイブリッド ノイズ除去手順に従ってトレーニングされています。

フェーズ 1: マルチモーダル トレーニング。画像エンコーダーはテキスト エンコーダー/デコーダーと結合され、結合された PaLI モデルはマルチモーダル タスクとデータでトレーニングされますが、画像エンコーダーは 224×224 の解像度で固定されたままです。主な混合成分は、テキスト品質をヒューリスティックにフィルタリングし、SplitCap トレーニング目標を使用することで、WebLI データセットから再び導出されます。

フェーズ 2: 解像度を上げる。高解像度の入力は、画像内のより多くの詳細を認識でき、シーケンスの長さを増やすことでモデル容量が向上するため、パフォーマンスを向上させる方法として広く受け入れられています。この論文では、画像エンコーダーを解凍し、チェックポイントを 812×812 および 1064×1064 の解像度に維持することで、PaLI-3 の解像度を向上させます。

タスクの移行。最後に、個々のタスク(ベースライン)ごとに、凍結された ViT 画像エンコーダーを使用して、タスクのトレーニング データで PaLI-3 モデルを微調整します。ほとんどのタスクでは、812×812 解像度のチェックポイントを微調整しますが、2 つのドキュメント理解タスクでは、解像度を 1064×1064 に上げます。

実験と結果

実験ではまず、PaLI フレームワークの下でさまざまな ViT モデルの結果を比較しました。研究者は、Classif と SigLIP という 2 つの ViT モデルを検討しました。

結果は表 1 に示されており、SigLIP モデルは少数ショットの線形分類では遅れをとっていますが、PaLI-3 を使用することで、SigLIP モデルはより単純なタスク (キャプション作成や質問への回答など) で中程度のゲインを提供し、より複雑なシナリオ、つまりテキストおよび空間理解タスクでは大きなゲインを達成していることがわかります。

さらに、研究者らは TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words、WidgetCap データセットでも PaLI-3 を評価しました。結果は表2に示されています。外部OCRシステムを使用する場合、PaLI-3はSOTA方式よりもわずか0.7ポイント低くなります。ただし、この外部システムがない場合、PaLI-3 はすべての SOTA 方式を合わせたよりも 4.4 ポイント優れています。 TextCaps、TextVQA、InfographicVQA、DocVQA の場合、PaLI-3 は 8 ポイント以上優れています。

参照表現セグメンテーション

研究者らは PaLI-3 を拡張し、言語のような出力を通じてセグメンテーションマスクを予測できるようにした。これを実現するために、研究者らはNingら(2023)のベクトル量子化変分オートエンコーダ(VQ-VAE)を活用しました。 VQ-VAE は 128 個のマスク トークンを学習するようにトレーニングされており、エンコーダーは 64 × 64 ピクセルのセグメンテーション マスクを 16 個のマスク トークンにラベル付けし、デコーダーはそれを元に戻すことができます。

研究者らは、最初に 4 つの座標をテキストとして出力し、境界ボックスとして表すことで、単一のセグメンテーション マスクを予測するように PaLI-3 をトレーニングしました。次は、境界ボックス内のマスクを表す 16 個のマスク トークンです。

表 1 は、このタイプのローカリゼーション タスクでは、対照事前トレーニングが分類事前トレーニングよりも効果的であることを示しています。以下の表 3 は、参照表現セグメンテーションに関して、完全な PaLI-3 モデルが最先端のモデルをわずかに上回っていることを示しています。

画像理解

その後、研究者らは一般的な視覚言語理解タスクで PaLI-3 を評価しました。以前の研究と同様に、これらのベンチマークでは画像内のテキストがほとんど含まれないため、外部 OCR モジュールは使用されませんでした。

結果は、PaLI-3 が最近の SOTA モデルと比較してサイズがはるかに小さいにもかかわらず、これらのベンチマークで非常に優れたパフォーマンスを達成していることを示しています。 COCO の場合、PaLI-3 は BEiT-3 と 17B および 55B PaLI を除くすべてのモデルよりも優れています。 VQAv2 および TallyQA では、PaLI-3 は PaLI-X を除く以前のすべてのモデルを上回ります。 OKVQA タスクでは、PaLI-3 は PaLM-E (562B) と PaLI-X (55B) に遅れをとっていますが、それでも 32 ショットの Flamingo (80B) モデルよりは優れています。

ビデオの字幕とQ&A

この研究では、MSR-VTT、VATEX、ActivityNet Captions、Spoken Moments in Time という 4 つのビデオ字幕ベンチマークで PaLI-3 モデルを微調整し、評価しました。さらに、この研究では、NExT-QA、MSR-VTT-QA、ActivityNet-QA という 3 つのビデオ質問応答ベンチマークに対して同じ操作を実行しました。

PaLI-3 は、事前トレーニングにビデオ データを使用していないにもかかわらず、小さなモデル サイズで優れたビデオ QA 結果を達成しています。MSR-VTT-QA と ActivityNet-QA で最先端のパフォーマンスを達成し、NextQA で競争力のある結果を達成しています。画像とビデオの QA の継続的な改善により、比較 ViT を採用するメリットが強調されます。

さらに、PaLI-3 はビデオ キャプションの結果も非常に良好で、平均すると SOTA の結果よりわずか 3 CIDEr ポイント低いだけです。モデルのサイズを考慮すると、PaLI-3 はパフォーマンスと実用性の両面で優れた選択肢であると思われます。

ダイレクトイメージコーダの評価

研究者らは、完全な PaLI-3 ではないと考えられる ViT-G モデルも評価し、その結果を表 6 に示します。

まず、この研究では、標準的な ImageNet ベンチマークとその最も人気のある 2 つのバリエーションを使用して、画像分類機能をテストしました。結果は、SigLIP がトップ 1 と v2 の精度ではわずかに遅れをとっているものの、ReaL と同等のパフォーマンスを発揮していることを示しています。

第二に、この研究では、Crossmodal-3600 ベンチマークにおけるさまざまなモデルの結果を報告しています。結果は、SigLIP ViT-G モデルがより大きな ViT-e モデルよりも大幅に優れていることを示しました。

最後に、この研究では線形プローブの結果も報告されており、SigLIP は他のモデルよりも劣っていることが示されました。

表 7 と 8 では、モデルの公平性、バイアス、その他の潜在的な問題を評価しています。

<<:  Stack Overflow は独自の生成 AI ツールを公開するためにスタッフの 28% を削減

>>: 

ブログ    

推薦する

...

ビデオ分析が物流と製造業の業務と安全性をどのように改善するか

[[400684]]製造品に対する世界的な需要が高まり続ける中、製造組織とサプライチェーン内のセキュ...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

このマウスはFPSゲームのプレイ方法を自ら学習し、トレーニングの精度はプロのプレイヤーと同等です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Heroku クラウドにディープラーニング Web アプリケーションをデプロイするためのヒントとコツ

[51CTO.com クイック翻訳] Heroku Cloud は、Web 開発者や機械学習愛好家の...

コンテストを利用して学習を促進し、エコシステムを共同で構築し、人工知能を普及させましょう。

[元記事は51CTO.comより] 2021年7月12日、上海紫竹コートヤードホテルで、神府改革革...

AIはローカルアプリケーションから大規模な「AI主導」企業へと進化しました

最近、デロイト人工知能研究所は、「企業向け人工知能アプリケーションの現状レポート」と「厳選された A...

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

[[410109]]人工知能(AI)研究に関しては、中国が現在最もホットな国です。清華大学人工知能...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

[[375039]]人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950...

100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング:目が学習し、手がそれに従う

言語/視覚入力をロボットの動作に変換するにはどうすればよいでしょうか?カスタムモデルをトレーニングす...

人工知能は私たちの仕事を奪うのでしょうか?北京大学の教授2人は次のように解釈した。

[[317607]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に...

適切な場所で機械学習は革命をもたらすだろう

[[194517]]機械学習に代表される人工知能の分野は、現在、科学技術分野で最もホットな分野の一つ...

...