清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]

事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果を達成していますが、これらの言語モデルの大きな問題は、トレーニング プロセスと推論プロセスが一致しないことです。清華大学の Maosong Sun 氏のチームは、色を使用して画像と言語をマスクおよび融合する新しい微調整フレームワーク CPT を提案しました。これにより、精度が 17.3% 向上し、標準偏差が 73.8% 削減されました。

事前トレーニング済みの視覚言語モデル (VL-PTM) は、言語と視覚情報を同時に処理することができ、さまざまなマルチモーダル タスクを完了するための基本モデルでもあります。

しかし、モデルの事前トレーニングと微調整の間には大きなギャップがあります。事前トレーニング中、ほとんどの VL PTM はマスク言語モデリングの目的に基づいて最適化されます。ここでの主なタスクは、マスクされた単語のクロスモーダルコンテキストから回復することです。

ただし、微調整中は、下流のタスクは通常、マスクされていないトークンの表現をセマンティック ラベルに分類することによって実行され、そこでタスク固有のパラメーターが導入されるのが一般的です。この違いは、VL PTM の下流タスクへの適応性を妨げるため、下流タスクに対する VL-PTM の視覚的基礎機能を最適化するには、大量のラベル付きデータが必要になります。

この問題に対処するため、清華大学の研究者らは、カラフル プロンプト チューニングとも呼ばれる新しいモデル、クロスモーダル プロンプト チューニング (CPT) を提案しました。 CPT は、VL-PTM のパラメータを調整するための新しいパラダイムです。重要な点は、画像とテキストに色ベースの共通参照マーカーを追加することで、視覚的な基盤によってギャップを埋める問題を再定式化し、事前トレーニングと微調整の間のギャップを最小限に抑えることができることです。

画像データで自然言語表現を使用するために、CPT は 2 つのコンポーネントで構成されます: (1) 画像領域をカラーパッチで一意にマークする視覚的なサブプロンプト、および (2) クエリ テキストをカラーベースのクエリ テンプレートに配置するテキスト サブプロンプト。次に、クエリ テンプレート内のマスクされたトークンから対応する色付きテキストを復元することで、ターゲット画像領域の明示的なローカリゼーションを実現できます。

論文の著者は、清華大学人工知能研究所の執行副所長、清華大学コンピュータ学位評価小委員会の委員長、教育部オンライン教育研究センターの副所長、清華大学大規模オンラインオープン教育研究センターの所長を務める孫茂松教授です。彼はかつて清華大学コンピュータサイエンス学部の学部長および党書記を務めていた。彼の研究対象には、自然言語理解、中国語情報処理、Web インテリジェンス、ソーシャル コンピューティング、計算教育などがあります。

[[428134]]

CPT を搭載した VL-PTM は、トレーニング前に色のクロスモーダル表現と他の概念 (オブジェクト、属性、関係など) との組み合わせを十分に学習しているため、ラベル付きデータなしでゼロショット視覚マッピングを実行できます。

複数またはすべてのラベル付きインスタンスが利用可能な場合、CPT はエントロピーベースの目的関数に従って VL PTM をさらに調整できます。

色ベースの手がかりを介して画像とテキストを接続することは有望に思えますが、研究者は依然として2つの重要な問題を発見しました。(1)色セットCの構成をどのように決定するか、(2)限られた事前トレーニング済みの色を使用して画像領域の数をどのように処理するかです。

解決策はクロスモーダルプロンプト検索です。テキスト プロンプトのチューニングに関するこれまでの研究では、プロンプトの構成 (テキスト テンプレートなど) がパフォーマンスに大きな影響を与えることが示されています。この論文は、クロスモーダルな手がかり構成(つまり、色セット C)を探索した最初の研究でもあります。

直感的には、C は VL PTM が最も敏感な色で構成されるはずです。色を取得する簡単な方法は、事前トレーニング テキスト内で最も一般的な色のテキストをその標準 RGB として civ として取得することです。しかし、この解決策は最適ではありません。なぜなら、この方法では、色付きのテキストを決定するときにその視覚的な外観が考慮されず、実際の画像における色の視覚的な外観が標準の RGB とは異なることが通常だからです。

したがって、クロスモーダルヒント検索では、まずフルカラーテキストの候補セットが決定されます。 RGB 空間で可能な各色について、単色パッチとテキスト サブキューを連結して VL PTM を作成します: [CLS] [MASK] 色の写真。[SEP]。次に、候補となるカラーテキストごとに記録スコアが取得されます。

レコード スコアが大きいほど、cv と cw の相関関係が高くなることを示し、どの色の視覚的外観でも高いランクにランクされていないカラー テキストは削除されます。最後に、残りの各色テキストの視覚的な外観は最大色によって決定され、実験結果では、得られた色の構成が元のものよりも大幅に優れていることが示されています。

画像領域のバッチ処理。視覚の基礎では、画像内の領域提案の数は通常、カラーセット C のサイズ (∼ 10) を超えます。さらに、重なり合うパッチは視覚的な基盤を妨げるため、画像領域を複数のバッチに分割し、各バッチに適度に重なり合う少数の画像領域を含め、各バッチにそれぞれ視覚的なサブキューのラベルを付ける必要があります。ターゲット領域を含まないバッチを処理するために、バッチ内にターゲット領域がないことを示す新しい候補テキスト none がデコード語彙にさらに導入されます。

実験結果によると、微調整された VL-PTM のパフォーマンスは、微調整された PTM のパフォーマンスよりもはるかに優れています。

1. CPT は、ゼロショット設定と少数ショット設定の両方で、ランダム ベースラインおよび強力に微調整されたベースラインを大幅に上回ります (たとえば、RefCOCO 評価では、ワンショットの絶対精度が平均 17.3% 向上します)。改善は、さまざまなデータセットやさまざまなトレーニング エポックにわたって一貫しています。これは、CPT が VL PTM チューニングのデータ効率を効果的に向上させ、VL PTM の視覚的グラウンディング能力を刺激できることを示唆しています。

2. CPT では、微調整に比べて標準偏差がはるかに小さくなることに注意してください (例: RefCOCO 評価では、1 回の試行で相対標準偏差が平均 73.8% 減少します)。これは、事前トレーニングからの一貫した条件付けアプローチがより安定した少数ショットのトレーニングにつながる可能性があることを示唆しており、これは少数ショット学習モデルを評価する際の重要な要素でもあります。

3. RefCOCO+の評価では、CPTの微調整性能は16ショットよりもわずかに劣っていることがわかります。その理由は、Ref-COCO+ には色に基づく表現(赤いシャツと青い帽子をかぶっている人など)が多く含まれており、それが色に基づく CPT に干渉する可能性があるためです。ただし、完全に教師ありのシナリオでは、より微調整された例によってこの問題を軽減することができ、モデルはクエリ テキストとヒント テンプレートの色をより適切に区別することを学習できます。

4. 完全に監視された設定では、CPT は、強力に微調整された VL PTM と同等のパフォーマンスを実現します。結果は、CPT が、完全に監督された設定でも VL-PTM に対して競争力のある微調整方法であることを示しています。要約すると、一般的な微調整方法と比較して、CPT はゼロショット、少数ショット、完全教師ありビジョンで優れた/同等でより安定したパフォーマンスを実現します。

<<:  プライベート写真100億枚が流出! Clearview AIバイオメトリクスがあなたを監視しています

>>:  呼吸の落ち込みはWiFi信号で検知できます!北京大学のハードテクノロジー研究はますます隠蔽が困難になっている

ブログ    

推薦する

AIを慎重に導入するためのベストプラクティス

人工知能を正しく使用するために、いくつかの提案があります。人工知能を実際に使用する際にこれらの提案を...

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?

[[353013]]みなさんこんにちは。今日は職場でのアルゴリズム エンジニアの日常生活、つまりモ...

未成年者の顔情報の処理には保護者の個別の同意が必要です

最高人民法院の楊万明副院長は、最高人民法院が十分な研究に基づいて顔情報に司法上の保護を与えるための「...

興味深い質問です。2025年までに自動運転車が普及したとしても、運転免許証を取得する必要はあるのでしょうか?

以前にも似たような質問に回答したことがありますが、コメント欄には大きな意見の相違があります。自動運転...

...

宜春市はファーウェイと提携し、ビッグデータと人工知能で市のデジタル変革を推進

2019年11月21日〜22日、第一回ファーウェイ宜春市ビッグデータ・人工知能サミットフォーラムと宜...

マスク氏が選んだ天才少年:14歳でスペースXの最年少エンジニアとなり、年俸100万、2歳で学び始め、11歳で大学へ進学

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

パフォーマンスを犠牲にすることなく、メモリ使用量を90%削減。FacebookがQuant-Noiseモデル圧縮方式を提案

数百メガバイトのサイズのニューラル ネットワークの場合、モデル圧縮によりメモリ使用量、通信帯域幅、計...

2021 年にセキュリティ ビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...

データ構造とアルゴリズム: 単調に増加する数値

[[439817]]単調に増加する数字LeetCode の問題へのリンク: https://leet...

...

ディープラーニングモデルを本番環境に簡単に導入

[51CTO.com クイック翻訳] データから学習し、パターンを識別し、人間の介入を最小限に抑えて...

...