CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

プロンプトチューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。

では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか?

現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。

絶対に！

包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニングデータのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。

同時に、各タスクに必要なストレージコストを大幅に削減できます。

モデルパラメータの1%未満を使用する

従来の完全な微調整では、各下流タスクのバックボーンパラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。

いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。

これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。

最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。

NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダルタスクのテキストエンコーダーの入力に限定されています。

この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアルモデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。

具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニングパラメータ (モデルパラメータの 1% 未満) を少数だけ入力スペースに導入します。

実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニアヘッドと一緒に学習されます。

彼らは2つの変種を調査しました:

VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。

VPT-Shallowバリアントは、ヒントパラメータを最初のレイヤーの入力にのみ挿入します。

ダウンストリームタスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニアヘッドのタスク固有のヒントとパラメーターのみが更新されます。

次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜