この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 プロンプト チューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。 では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか? 現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。 絶対に! 包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニング データのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。 同時に、各タスクに必要なストレージコストを大幅に削減できます。 モデルパラメータの1%未満を使用する従来の完全な微調整では、各下流タスクのバックボーン パラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。 いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。 これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。 最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。 NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダル タスクのテキスト エンコーダーの入力に限定されています。 この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアル モデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。 具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニング パラメータ (モデル パラメータの 1% 未満) を少数だけ入力スペースに導入します。 実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニア ヘッドと一緒に学習されます。 彼らは2つの変種を調査しました: VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。 VPT-Shallowバリアントは、ヒント パラメータを最初のレイヤーの入力にのみ挿入します。 ダウンストリーム タスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニア ヘッドのタスク固有のヒントとパラメーターのみが更新されます。 次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜 勝率20/24実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。 比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります。 (1)完全な微調整:バックボーンと分類ヘッドのパラメータをすべて更新する (2)線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整 (3)微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの3つの方法があります。 実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。 (1)5つのベンチマーク細粒度視覚分類タスクからなるFGVC (2)VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク(自然)、衛星画像などの特殊な機器で撮影した画像タスク(特殊)、物体数えなどの幾何学的理解を必要とするタスク(構造化)に分類されている。 各タスクの平均精度を測定した結果、主な結果は次のようになりました。 VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデル パラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。 ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。 他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。 さらに、異なるバックボーンパラメータスケールとモデルスケールでViT(ViT-B、ViT-L、ViT-H)をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。 Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。 他のすべての微調整方法は VPT より劣ります。 著者について第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。 その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。 彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。 論文の宛先: https://arxiv.org/abs/2203.12119 |
<<: 自動運転のセキュリティ確保 - 主流のミドルウェア設計について
>>: 5000億の大台を突破?多くの国で人工知能が急速に進歩している
ChatGPT がネットワーク機能とプラグイン機能を公開すると、事前トレーニング データの知識に限...
SAP は、AI 時代において顧客がデータの潜在能力を最大限に活用し、より深い洞察、より速い成長、よ...
Birds-Eyes-View(BEV):鳥瞰図。言葉自体には特別な意味はないが、自動運転(AD)...
最近、南カリフォルニア大学、ハーバード大学などの研究チームが、プロンプトベースの新しい学習法「Dre...
[[277051]]これまでの共有を通じて、顔認識の一般的なプロセスを理解しました。主に次のプロセス...
現在、金融サービス業界にとっての朗報は、フィンテックの戦いがまだ終わっておらず、始まったばかりだとい...
今日の社会では、ロボットはますます人間とつながるようになっています。産業用ロボットが組立ラインで忙し...
ほとんどの機械学習は Python などの言語で行われますが、フロントエンドとバックエンドの両方にお...
外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...
スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)ビル・ゲイ...
Ascend人工知能産業サミットフォーラムが上海で開催されました。フォーラムでは、ビッグモデルの共同...
[[202058]] 1. 人工知能があなたの仕事を奪いに来ます。自分のキャリアを守るためには、機械...