大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのような新しい方法では、マルチモーダル事前トレーニングは不要である

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

大規模言語モデルは、マルチモーダルデータに依存せずにグラフを理解できますか? ！

では早速、結果を見てみましょう。

たとえば、BLIP-2 がテストされた万里の長城の写真を見てみましょう。BLIP-2 はそれが万里の長城であると認識しただけでなく、歴史についていくつかの言葉も伝えました。

こちらも奇妙な形の家です。異常性を正確に識別し、出入りの方法も知っています。

意図的に「赤」を紫にして、「緑」を赤く塗っても、干渉しません。

これは、研究者によって最近提案された新しいモジュールフレームワークであるLENS🔍（Language-Enhanced Neural System）の認識効果です。

重要なのは、マルチモーダルデータセットに対する追加の事前トレーニングは必要なく、既存の大規模言語モデルのみを使用してオブジェクト認識と視覚推論タスクを完了できることです。

お金と労力を節約しましょう!

研究者らは次のように述べた。

このアプローチは、ゼロショットの場合にすぐに使用できるマルチモーダル大規模モデルKosmosや、 Flamingoなどのエンドツーエンドのジョイント事前トレーニング済みモデルに匹敵し、パフォーマンスはさらに優れている可能性があります。

これを見たネットユーザーは憤慨した。

家族の皆さん、興奮しています！大規模モデルのトレーニングに使用されるリソースを、さまざまな分野の問題の解決に使用できるようになりました。 😃

一部のネットユーザーは次のようにも述べた。

どのモジュールが視覚的推論を最も向上させるかを見るのは興味深いでしょう。

これはどうやって行うのですか?

既存の LLM は自然言語の理解と推論においては優れたパフォーマンスを発揮していますが、視覚入力からの推論というタスクに直接対応できるものはありません。

この研究は、Contextual AI とスタンフォード大学の研究者による共同作業であり、LLM を固定言語モデル(トレーニングや微調整が行われていない) として使用し、 「視覚モジュール」からテキスト情報を入力することで、物体認識と V&L (視覚と言語) タスクを実行できるようにします。

写真

簡単に言うと、画像の内容について質問すると、この方法ではまず、タグモジュール (タグ情報を抽出)、属性モジュール (属性情報を抽出)、集中キャプションモジュール (詳細な画像説明を生成) という 3 つの独立した「視覚モジュール」を操作して、画像に関するテキスト情報を抽出します。

この情報は、質問に回答するために、固定された LLM である推論モジュールに直接送られます。

写真

このように、LENS を統合することで、追加の事前トレーニングを必要とせずに、ドメイン全体に自動的に適用できるモデルを取得できます。また、コンピュータービジョンと自然言語処理の最新の進歩を最大限に活用して、これらの分野の利点を最大限に引き出すことができます。

これまで、いくつかの研究では、視覚タスクを解決するために LLM を使用するいくつかの方法が提案されてきました。

1 つのアプローチは、まずビジュアルエンコーダーをトレーニングし、次に各画像を LLM が理解できる連続した埋め込みのシーケンスとして表現することです。
もう 1 つのアプローチは、コントラストについてすでにトレーニングされている凍結されたビジュアルエンコーダーを使用しながら、凍結された LLM に新しいレイヤーを導入し、これらのレイヤーを最初からトレーニングすることです。
3 番目のアプローチは、凍結されたビジュアルエンコーダー (事前トレーニング済みではない) と凍結された LLM の両方を使用し、軽量トランスフォーマーをトレーニングしてそれらを調整することです。

ビジュアルエンコーダーとは、視覚的な入力 (画像やビデオなど) を表現ベクトルに変換するために使用されるモデルまたはコンポーネントを指します。高次元の視覚データを低次元の表現に変換し、視覚情報を言語モデルが理解して処理できる形式に変換できます。

明らかに、3 つの方法すべてで、データセットを使用したマルチモーダル事前トレーニングが必要です。

写真

△視覚と言語モダリティのアライメント方法の比較、(a)は上記の3つの方法、(b)はLENS法、🔥はゼロからのトレーニング、❄️は事前トレーニングとフリーズを表す

LENS は、LLM の「推論モジュール」が「視覚モジュール」によって抽出されたテキストデータを操作できるようにする統合フレームワークを提供します。

3つの「視覚モジュール」のうちの1つであるラベリングモジュールについては、研究者らは多様で包括的なラベル語彙を収集しました。複数の画像分類データセット、オブジェクト検出およびセマンティックセグメンテーションデータセット、およびビジュアルゲノムデータセットが含まれます。画像を正確に識別してラベルを割り当てるために、研究者らは CLIP ビジュアルエンコーダーも使用しました。

このモジュールの一般的なヒントは次のとおりです。

「{クラス名}の写真」

属性情報を抽出するために使用されるビジュアルモジュールでは、GPT-3 を使用して、オブジェクト語彙内の各オブジェクトのカテゴリを区別するための視覚的な特徴の説明を生成します。コントラストのある事前トレーニング済みの CLIP ビジュアルエンコーダーを使用して、画像内のオブジェクトを認識し、関連する属性を割り当てます。

情報を詳細に説明する視覚モジュールでは、研究者らは BLIP の画像キャプションモデルを使用し、ランダムトップ k サンプリングを適用して各画像に対して N 個の説明を生成しました。これらの多様な記述は、変更されることなく「推論モジュール」に直接渡されます。

最終推論モジュールでは、LENS を任意の LLM と統合して、上記の抽出された情報を次の形式で統合できます。

 Tags: {Top-k tags} Attributes: {Top-K attributes} Captions: {Top-N Captions}. OCR: this is an image with written “{meme text}” on it. Question: {task-specific prompt} \n Short Answer:

絵文字も考慮されており、研究者はこの目的のためにOCRプロンプトを追加したことは注目に値します。

CLIPよりも優れたパフォーマンス

LENS の性能を実証するために、研究者らは実験に 8 枚の NVIDIA A100 (40GB) グラフィックカードを使用し、デフォルトの固定 LLM としてFlan-T5 モデルを使用しました。

視覚タスクについては、研究者らは 8 つのベンチマークを評価し、ゼロショットと少数ショットの両方の設定で物体認識の分野における最先端のモデルと比較しました。

写真

△LENSゼロショットによるターゲット認識タスクの結果

上記の表からわかるように、ゼロサンプルの場合、視覚バックボーンとして ViT-H/14 と凍結 LLM として Flan-T5xxl で構成される LENS は、平均で CLIP よりも 0.7% 高いパフォーマンスを発揮します。 LENS の他の組み合わせも、ほとんどの場合 CLIP よりも優れたパフォーマンスを発揮しました。

興味深いことに、研究者たちは物体認識タスクにおいて次のことを発見しました。

凍結された LLM のサイズと分類パフォーマンスの間には直接的な関係はないようです。ラベル生成アーキテクチャ (ViT バックボーン) のサイズとパフォーマンスの間には対応関係があります。

写真

△ サンプル数が少ない視覚タスクにおける LENS の平均的なパフォーマンス。

上の図に示すように、研究者らは ImageNet を除くすべてのデータセットの平均視覚パフォーマンスもプロットし、次のことを観察しました。

サンプル数を増やすとパフォーマンスが向上します。一方、フリーズした LLM のパフォーマンスと視覚パフォーマンスの間には直接的な関係はありませんが、視覚バックボーンの改善により平均的な視覚パフォーマンスが向上します。

視覚と言語のタスクについては、研究者らは 4 つの代表的な視覚的質問応答タスクを評価し、視覚と言語の様相を一致させるために追加の事前トレーニングを必要とする最先端のモデルと比較しました。

ゼロショット設定では、最先端の方法である VQAv2、OK-VQA、Rendered-SST、Hateful Memes と比較すると、LENS のパフォーマンスは、調整された事前トレーニングに大量のデータに依存する方法と依然として競争力があります。これは、Flamingo、BLIP-2、Kosmos などのより大規模で複雑なシステムと比較しても当てはまります。

LENS はほとんどの状況で適切に機能しますが、失敗するケースもいくつかあります。

写真

研究者たちは次のように考えている。