この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 プロンプト チューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。 では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか? 現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。 絶対に! 包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニング データのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。 同時に、各タスクに必要なストレージコストを大幅に削減できます。 モデルパラメータの1%未満を使用する従来の完全な微調整では、各下流タスクのバックボーン パラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。 いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。 これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。 最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。 NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダル タスクのテキスト エンコーダーの入力に限定されています。 この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアル モデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。 具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニング パラメータ (モデル パラメータの 1% 未満) を少数だけ入力スペースに導入します。 実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニア ヘッドと一緒に学習されます。 彼らは2つの変種を調査しました: VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。 VPT-Shallowバリアントは、ヒント パラメータを最初のレイヤーの入力にのみ挿入します。 ダウンストリーム タスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニア ヘッドのタスク固有のヒントとパラメーターのみが更新されます。 次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜 勝率20/24実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。 比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります。 (1)完全な微調整:バックボーンと分類ヘッドのパラメータをすべて更新する (2)線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整 (3)微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの3つの方法があります。 実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。 (1)5つのベンチマーク細粒度視覚分類タスクからなるFGVC (2)VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク(自然)、衛星画像などの特殊な機器で撮影した画像タスク(特殊)、物体数えなどの幾何学的理解を必要とするタスク(構造化)に分類されている。 各タスクの平均精度を測定した結果、主な結果は次のようになりました。 VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデル パラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。 ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。 他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。 さらに、異なるバックボーンパラメータスケールとモデルスケールでViT(ViT-B、ViT-L、ViT-H)をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。 Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。 他のすべての微調整方法は VPT より劣ります。 著者について第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。 その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。 彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。 論文の宛先: https://arxiv.org/abs/2203.12119 |
<<: 自動運転のセキュリティ確保 - 主流のミドルウェア設計について
>>: 5000億の大台を突破?多くの国で人工知能が急速に進歩している
[[419123]] [51CTO.com クイック翻訳]人間は物理的な世界をよりよく理解するために...
AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...
EUCAIM (EUropean Federation for CAncer IMages) プロジ...
12月20日、ファーウェイクラウド開発者デーと2023イノベーションシェアリングサミットが成功裏に開...
[[189678]]今日は、ディープラーニングにおける畳み込みニューラル ネットワークのいくつかの原...
ナレッジグラフは NLP の未来でしょうか?今は2021年で、かつて全盛期だった多くの技術は長い間無...
世界の経済レベルと科学レベルが継続的に向上するにつれて、人類の科学技術分野における成果はますます顕著...
TSMCはついにアメリカの圧力に耐えられず降伏した。実際のところ、棒はまだ本当に下ろされておらず、数...
Linux は急速に発展し、今では Microsoft に追いついています。Linux をより良く適...
空を飛ぶ龍、数千マイル離れたところから救援に駆けつける!最近、「翼龍」無人機が飛び立ち、被災地に急行...
今日、クラウド コンピューティングが新興テクノロジーの主要な推進力となっていることは間違いありません...
企業は、画像認識、音声認識、チャットボット、自然言語生成、感情分析がビジネスの運営方法にどのような変...