清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]

事前トレーニング済みモデルは、コンピュータービジョンと言語の両方で顕著な結果を達成していますが、これらの言語モデルの大きな問題は、トレーニングプロセスと推論プロセスが一致しないことです。清華大学の Maosong Sun 氏のチームは、色を使用して画像と言語をマスクおよび融合する新しい微調整フレームワーク CPT を提案しました。これにより、精度が 17.3% 向上し、標準偏差が 73.8% 削減されました。

事前トレーニング済みの視覚言語モデル (VL-PTM) は、言語と視覚情報を同時に処理することができ、さまざまなマルチモーダルタスクを完了するための基本モデルでもあります。

しかし、モデルの事前トレーニングと微調整の間には大きなギャップがあります。事前トレーニング中、ほとんどの VL PTM はマスク言語モデリングの目的に基づいて最適化されます。ここでの主なタスクは、マスクされた単語のクロスモーダルコンテキストから回復することです。

ただし、微調整中は、下流のタスクは通常、マスクされていないトークンの表現をセマンティックラベルに分類することによって実行され、そこでタスク固有のパラメーターが導入されるのが一般的です。この違いは、VL PTM の下流タスクへの適応性を妨げるため、下流タスクに対する VL-PTM の視覚的基礎機能を最適化するには、大量のラベル付きデータが必要になります。

この問題に対処するため、清華大学の研究者らは、カラフルプロンプトチューニングとも呼ばれる新しいモデル、クロスモーダルプロンプトチューニング (CPT) を提案しました。 CPT は、VL-PTM のパラメータを調整するための新しいパラダイムです。重要な点は、画像とテキストに色ベースの共通参照マーカーを追加することで、視覚的な基盤によってギャップを埋める問題を再定式化し、事前トレーニングと微調整の間のギャップを最小限に抑えることができることです。

画像データで自然言語表現を使用するために、CPT は 2 つのコンポーネントで構成されます: (1) 画像領域をカラーパッチで一意にマークする視覚的なサブプロンプト、および (2) クエリテキストをカラーベースのクエリテンプレートに配置するテキストサブプロンプト。次に、クエリテンプレート内のマスクされたトークンから対応する色付きテキストを復元することで、ターゲット画像領域の明示的なローカリゼーションを実現できます。

論文の著者は、清華大学人工知能研究所の執行副所長、清華大学コンピュータ学位評価小委員会の委員長、教育部オンライン教育研究センターの副所長、清華大学大規模オンラインオープン教育研究センターの所長を務める孫茂松教授です。彼はかつて清華大学コンピュータサイエンス学部の学部長および党書記を務めていた。彼の研究対象には、自然言語理解、中国語情報処理、Web インテリジェンス、ソーシャルコンピューティング、計算教育などがあります。

CPT を搭載した VL-PTM は、トレーニング前に色のクロスモーダル表現と他の概念 (オブジェクト、属性、関係など) との組み合わせを十分に学習しているため、ラベル付きデータなしでゼロショット視覚マッピングを実行できます。

複数またはすべてのラベル付きインスタンスが利用可能な場合、CPT はエントロピーベースの目的関数に従って VL PTM をさらに調整できます。

色ベースの手がかりを介して画像とテキストを接続することは有望に思えますが、研究者は依然として2つの重要な問題を発見しました。(1)色セットCの構成をどのように決定するか、(2)限られた事前トレーニング済みの色を使用して画像領域の数をどのように処理するかです。

解決策はクロスモーダルプロンプト検索です。テキストプロンプトのチューニングに関するこれまでの研究では、プロンプトの構成 (テキストテンプレートなど) がパフォーマンスに大きな影響を与えることが示されています。この論文は、クロスモーダルな手がかり構成（つまり、色セット C）を探索した最初の研究でもあります。

直感的には、C は VL PTM が最も敏感な色で構成されるはずです。色を取得する簡単な方法は、事前トレーニングテキスト内で最も一般的な色のテキストをその標準 RGB として civ として取得することです。しかし、この解決策は最適ではありません。なぜなら、この方法では、色付きのテキストを決定するときにその視覚的な外観が考慮されず、実際の画像における色の視覚的な外観が標準の RGB とは異なることが通常だからです。

したがって、クロスモーダルヒント検索では、まずフルカラーテキストの候補セットが決定されます。 RGB 空間で可能な各色について、単色パッチとテキストサブキューを連結して VL PTM を作成します: [CLS] [MASK] 色の写真。[SEP]。次に、候補となるカラーテキストごとに記録スコアが取得されます。

レコードスコアが大きいほど、cv と cw の相関関係が高くなることを示し、どの色の視覚的外観でも高いランクにランクされていないカラーテキストは削除されます。最後に、残りの各色テキストの視覚的な外観は最大色によって決定され、実験結果では、得られた色の構成が元のものよりも大幅に優れていることが示されています。

画像領域のバッチ処理。視覚の基礎では、画像内の領域提案の数は通常、カラーセット C のサイズ (∼ 10) を超えます。さらに、重なり合うパッチは視覚的な基盤を妨げるため、画像領域を複数のバッチに分割し、各バッチに適度に重なり合う少数の画像領域を含め、各バッチにそれぞれ視覚的なサブキューのラベルを付ける必要があります。ターゲット領域を含まないバッチを処理するために、バッチ内にターゲット領域がないことを示す新しい候補テキスト none がデコード語彙にさらに導入されます。

実験結果によると、微調整された VL-PTM のパフォーマンスは、微調整された PTM のパフォーマンスよりもはるかに優れています。

1. CPT は、ゼロショット設定と少数ショット設定の両方で、ランダムベースラインおよび強力に微調整されたベースラインを大幅に上回ります (たとえば、RefCOCO 評価では、ワンショットの絶対精度が平均 17.3% 向上します)。改善は、さまざまなデータセットやさまざまなトレーニングエポックにわたって一貫しています。これは、CPT が VL PTM チューニングのデータ効率を効果的に向上させ、VL PTM の視覚的グラウンディング能力を刺激できることを示唆しています。

2. CPT では、微調整に比べて標準偏差がはるかに小さくなることに注意してください (例: RefCOCO 評価では、1 回の試行で相対標準偏差が平均 73.8% 減少します)。これは、事前トレーニングからの一貫した条件付けアプローチがより安定した少数ショットのトレーニングにつながる可能性があることを示唆しており、これは少数ショット学習モデルを評価する際の重要な要素でもあります。

3. RefCOCO+の評価では、CPTの微調整性能は16ショットよりもわずかに劣っていることがわかります。その理由は、Ref-COCO+ には色に基づく表現（赤いシャツと青い帽子をかぶっている人など）が多く含まれており、それが色に基づく CPT に干渉する可能性があるためです。ただし、完全に教師ありのシナリオでは、より微調整された例によってこの問題を軽減することができ、モデルはクエリテキストとヒントテンプレートの色をより適切に区別することを学習できます。

4. 完全に監視された設定では、CPT は、強力に微調整された VL PTM と同等のパフォーマンスを実現します。結果は、CPT が、完全に監督された設定でも VL-PTM に対して競争力のある微調整方法であることを示しています。要約すると、一般的な微調整方法と比較して、CPT はゼロショット、少数ショット、完全教師ありビジョンで優れた/同等でより安定したパフォーマンスを実現します。

<<: プライベート写真100億枚が流出！ Clearview AIバイオメトリクスがあなたを監視しています

>>: 呼吸の落ち込みはWiFi信号で検知できます！北京大学のハードテクノロジー研究はますます隠蔽が困難になっている