事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果を達成していますが、これらの言語モデルの大きな問題は、トレーニング プロセスと推論プロセスが一致しないことです。清華大学の Maosong Sun 氏のチームは、色を使用して画像と言語をマスクおよび融合する新しい微調整フレームワーク CPT を提案しました。これにより、精度が 17.3% 向上し、標準偏差が 73.8% 削減されました。 事前トレーニング済みの視覚言語モデル (VL-PTM) は、言語と視覚情報を同時に処理することができ、さまざまなマルチモーダル タスクを完了するための基本モデルでもあります。 しかし、モデルの事前トレーニングと微調整の間には大きなギャップがあります。事前トレーニング中、ほとんどの VL PTM はマスク言語モデリングの目的に基づいて最適化されます。ここでの主なタスクは、マスクされた単語のクロスモーダルコンテキストから回復することです。 ただし、微調整中は、下流のタスクは通常、マスクされていないトークンの表現をセマンティック ラベルに分類することによって実行され、そこでタスク固有のパラメーターが導入されるのが一般的です。この違いは、VL PTM の下流タスクへの適応性を妨げるため、下流タスクに対する VL-PTM の視覚的基礎機能を最適化するには、大量のラベル付きデータが必要になります。 この問題に対処するため、清華大学の研究者らは、カラフル プロンプト チューニングとも呼ばれる新しいモデル、クロスモーダル プロンプト チューニング (CPT) を提案しました。 CPT は、VL-PTM のパラメータを調整するための新しいパラダイムです。重要な点は、画像とテキストに色ベースの共通参照マーカーを追加することで、視覚的な基盤によってギャップを埋める問題を再定式化し、事前トレーニングと微調整の間のギャップを最小限に抑えることができることです。 画像データで自然言語表現を使用するために、CPT は 2 つのコンポーネントで構成されます: (1) 画像領域をカラーパッチで一意にマークする視覚的なサブプロンプト、および (2) クエリ テキストをカラーベースのクエリ テンプレートに配置するテキスト サブプロンプト。次に、クエリ テンプレート内のマスクされたトークンから対応する色付きテキストを復元することで、ターゲット画像領域の明示的なローカリゼーションを実現できます。 論文の著者は、清華大学人工知能研究所の執行副所長、清華大学コンピュータ学位評価小委員会の委員長、教育部オンライン教育研究センターの副所長、清華大学大規模オンラインオープン教育研究センターの所長を務める孫茂松教授です。彼はかつて清華大学コンピュータサイエンス学部の学部長および党書記を務めていた。彼の研究対象には、自然言語理解、中国語情報処理、Web インテリジェンス、ソーシャル コンピューティング、計算教育などがあります。 CPT を搭載した VL-PTM は、トレーニング前に色のクロスモーダル表現と他の概念 (オブジェクト、属性、関係など) との組み合わせを十分に学習しているため、ラベル付きデータなしでゼロショット視覚マッピングを実行できます。 複数またはすべてのラベル付きインスタンスが利用可能な場合、CPT はエントロピーベースの目的関数に従って VL PTM をさらに調整できます。 色ベースの手がかりを介して画像とテキストを接続することは有望に思えますが、研究者は依然として2つの重要な問題を発見しました。(1)色セットCの構成をどのように決定するか、(2)限られた事前トレーニング済みの色を使用して画像領域の数をどのように処理するかです。 解決策はクロスモーダルプロンプト検索です。テキスト プロンプトのチューニングに関するこれまでの研究では、プロンプトの構成 (テキスト テンプレートなど) がパフォーマンスに大きな影響を与えることが示されています。この論文は、クロスモーダルな手がかり構成(つまり、色セット C)を探索した最初の研究でもあります。 直感的には、C は VL PTM が最も敏感な色で構成されるはずです。色を取得する簡単な方法は、事前トレーニング テキスト内で最も一般的な色のテキストをその標準 RGB として civ として取得することです。しかし、この解決策は最適ではありません。なぜなら、この方法では、色付きのテキストを決定するときにその視覚的な外観が考慮されず、実際の画像における色の視覚的な外観が標準の RGB とは異なることが通常だからです。 したがって、クロスモーダルヒント検索では、まずフルカラーテキストの候補セットが決定されます。 RGB 空間で可能な各色について、単色パッチとテキスト サブキューを連結して VL PTM を作成します: [CLS] [MASK] 色の写真。[SEP]。次に、候補となるカラーテキストごとに記録スコアが取得されます。 レコード スコアが大きいほど、cv と cw の相関関係が高くなることを示し、どの色の視覚的外観でも高いランクにランクされていないカラー テキストは削除されます。最後に、残りの各色テキストの視覚的な外観は最大色によって決定され、実験結果では、得られた色の構成が元のものよりも大幅に優れていることが示されています。 画像領域のバッチ処理。視覚の基礎では、画像内の領域提案の数は通常、カラーセット C のサイズ (∼ 10) を超えます。さらに、重なり合うパッチは視覚的な基盤を妨げるため、画像領域を複数のバッチに分割し、各バッチに適度に重なり合う少数の画像領域を含め、各バッチにそれぞれ視覚的なサブキューのラベルを付ける必要があります。ターゲット領域を含まないバッチを処理するために、バッチ内にターゲット領域がないことを示す新しい候補テキスト none がデコード語彙にさらに導入されます。 実験結果によると、微調整された VL-PTM のパフォーマンスは、微調整された PTM のパフォーマンスよりもはるかに優れています。 1. CPT は、ゼロショット設定と少数ショット設定の両方で、ランダム ベースラインおよび強力に微調整されたベースラインを大幅に上回ります (たとえば、RefCOCO 評価では、ワンショットの絶対精度が平均 17.3% 向上します)。改善は、さまざまなデータセットやさまざまなトレーニング エポックにわたって一貫しています。これは、CPT が VL PTM チューニングのデータ効率を効果的に向上させ、VL PTM の視覚的グラウンディング能力を刺激できることを示唆しています。 2. CPT では、微調整に比べて標準偏差がはるかに小さくなることに注意してください (例: RefCOCO 評価では、1 回の試行で相対標準偏差が平均 73.8% 減少します)。これは、事前トレーニングからの一貫した条件付けアプローチがより安定した少数ショットのトレーニングにつながる可能性があることを示唆しており、これは少数ショット学習モデルを評価する際の重要な要素でもあります。 3. RefCOCO+の評価では、CPTの微調整性能は16ショットよりもわずかに劣っていることがわかります。その理由は、Ref-COCO+ には色に基づく表現(赤いシャツと青い帽子をかぶっている人など)が多く含まれており、それが色に基づく CPT に干渉する可能性があるためです。ただし、完全に教師ありのシナリオでは、より微調整された例によってこの問題を軽減することができ、モデルはクエリ テキストとヒント テンプレートの色をより適切に区別することを学習できます。 4. 完全に監視された設定では、CPT は、強力に微調整された VL PTM と同等のパフォーマンスを実現します。結果は、CPT が、完全に監督された設定でも VL-PTM に対して競争力のある微調整方法であることを示しています。要約すると、一般的な微調整方法と比較して、CPT はゼロショット、少数ショット、完全教師ありビジョンで優れた/同等でより安定したパフォーマンスを実現します。 |
<<: プライベート写真100億枚が流出! Clearview AIバイオメトリクスがあなたを監視しています
>>: 呼吸の落ち込みはWiFi信号で検知できます!北京大学のハードテクノロジー研究はますます隠蔽が困難になっている
1. 要件の説明2 つの文字列を入力し、2 つの文字列の最長共通部分文字列を取得するプログラムを作成...
この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
数字間の隠れた関係は、証明が必要な場合に数学的推測を確認できるラマヌジャンマシンと呼ばれる新しいタイ...
[[381013]]人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、...
[[384945]]近年、人工知能 (AI) は強化学習アルゴリズムのサポートにより目覚ましい成果を...
[51CTO.com からのオリジナル記事] 周知のとおり、画像検索はコンピューター ビジョン分野に...
ロボットによるモノのインターネットは、産業用ロボットと IoT センサーという 2 つの貴重なテクノ...
人工知能は物流業界に革命を起こす上で重要な役割を果たします。グローバル化により、あらゆるものがデジタ...
【51CTO.comオリジナル記事】 今日では、AI や IoT テクノロジーに投資する企業がますま...