CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

CV モデルのトレーニングに関する新しいアイデア: パフォーマンスを向上させるために微調整の代わりに NLP の人気の Prompt を使用する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

プロンプト チューニングは、NLP 分野の「新たな寵児」として、NLP 事前トレーニングの新しいパラダイムとして学者からも賞賛されています。

では、これをCV 分野に適用して同じ結果を得ることができるのでしょうか?

現在、コーネル大学や Meta AI などの研究者が Prompt を使用して Transformer ベースの視覚モデルを微調整し、次のことを発見しました。

絶対に!

包括的な微調整と比較すると、Prompt のパフォーマンスは大幅に向上します。モデルとトレーニング データのサイズに関係なく、24 ケースのうち 20 ケースで優れたパフォーマンスを発揮しました。

同時に、各タスクに必要なストレージコストを大幅に削減できます。

モデルパラメータの1%未満を使用する

従来の完全な微調整では、各下流タスクのバックボーン パラメータの個別のコピーを保存して展開する必要があり、特に Transformer ベースのモデルがますます大きくなり、CNN アーキテクチャを超えているため、コストがかかりすぎます。

いわゆるプロンプトとは、もともと、事前トレーニング済みの言語モデルが後でさまざまな下流タスクを直接理解できるように、入力テキストに言語指示を事前にコーディングすることを指します。

これにより、GPT-3 は、サンプルがほとんどないかまったくない場合でも、強力な一般化機能を発揮できるようになりました。

最近の結果によると、Prompt は、パラメータの保存容量が 1,000 分の 1 で、完全に微調整されたモデルと同等のパフォーマンスを発揮します。

NLP の高性能により、多くの人が CV の分野で Prompt の魔法を探求するようになりましたが、それらはすべてクロスモーダル タスクのテキスト エンコーダーの入力に限定されています。

この論文では、著者らは提案した Visual Prompt Tuning 法をVPT と呼んでいます。ビジュアル モデルのバックボーンに Prompt を適用して成果を達成したのはこれが初めてです。

具体的には、包括的な微調整と比較して、VPT は最新の大規模 NLP モデル調整方法にヒントを得ており、下流タスクのトレーニング中に事前トレーニング済みモデルのバックボーンを固定しながら、タスク固有のトレーニング パラメータ (モデル パラメータの 1% 未満) を少数だけ入力スペースに導入します

実際には、これらの追加パラメータは、各 Transformer レイヤーの入力シーケンスの先頭に追加され、微調整中にリニア ヘッドと一緒に学習されます。

彼らは2つの変種を調査しました:

VPT-Deepバリアントは、Transformer エンコーダーの各レイヤーの入力に対して学習可能なパラメータのセットを事前設定します。

VPT-Shallowバリアントは、ヒント パラメータを最初のレイヤーの入力にのみ挿入します。

ダウンストリーム タスクのトレーニング中は、Transformer エンコーダー全体がフリーズされた状態で、リニア ヘッドのタスク固有のヒントとパラメーターのみが更新されます。

次に、それはラバですか、それとも馬ですか?引き出してスライドさせて取り出します〜

勝率20/24

実験には、ImageNet-21k で事前トレーニングされた 2 つのバックボーン ( 1 つは Vision Transformer から、もう 1 つは Swin Transformer から)が含まれます。

比較を微調整するための主要な方法には、次の 3 つとマイナーな方法があります

(1)完全な微調整:バックボーンと分類ヘッドのパラメータをすべて更新する

(2)線形、部分k、Mlp-kなどの分類ヘッドに焦点を当てた微調整

(3)微調整中にバックボーンパラメータのサブセットを更新したり、バックボーンに新しいトレーニング可能なパラメータを追加したりするには、サイドチューン、バイアス、アダプタの3つの方法があります。

実験データセットは 2 セットあり、さまざまな分野にわたる合計 24 の下流認識タスクが含まれます。

(1)5つのベンチマーク細粒度視覚分類タスクからなるFGVC

(2)VTAB-1kは19種類の視覚分類セットから構成されており、標準カメラで撮影した自然画像タスク(自然)、衛星画像などの特殊な機器で撮影した画像タスク(特殊)、物体数えなどの幾何学的理解を必要とするタスク(構造化)に分類されている。

各タスクの平均精度を測定した結果、主な結果は次のようになりました。

VPT-Deep は、24 のタスクのうち 20 で完全な微調整よりも優れたパフォーマンスを発揮しながら、使用するモデル パラメータの合計が大幅に少なくなっています (1.18 倍対 24.02 倍)。

ご存知のとおり、Prompt は NLP の分野でどれほど強力であっても、そのパフォーマンスは包括的な微調整を超えることはできません。これは、Prompt がビジュアル Transformer モデルに適していることを示しています。

他の微調整方法 (グループ b および c) と比較すると、VPT-Deep はそれらすべてよりも優れています。

さらに、異なるバックボーンパラメータスケールとモデルスケールでViT(ViT-B、ViT-L、ViT-H)をテストしたところ、VPT法は影響を受けず、基本的にその優れた性能を維持することがわかりました。

Swin Transformer では、包括的な微調整方法の平均精度は高くなりますが、パラメータコストも膨大になります。

他のすべての微調整方法は VPT より劣ります。

著者について

第一著者のJia Menglin 氏は、コーネル大学の情報科学の博士課程の学生です。彼の主な研究分野は、視覚情報とテキスト情報のきめ細かい認識です。これまでに、彼はトップクラスの会議で 4 つの論文を発表しています。

その一般人とは、コーネル大学でコンピューターサイエンスの博士課程に在籍するタン・ルーミン氏だ。彼は清華大学で数学と物理学の学士号を取得している。

彼の主な研究分野は、機械学習とコンピュータービジョンの交差点です。

論文の宛先:

​​https://arxiv.org/abs/2203.12119​​

<<:  自動運転のセキュリティ確保 - 主流のミドルウェア設計について

>>:  5000億の大台を突破?多くの国で人工知能が急速に進歩している

ブログ    
ブログ    

推薦する

現在人工知能が適している5つの分野

調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能予算は今後4年間で倍...

MIT は隠れた物体を「認識」できるロボットを開発中。「私たちはロボットに超人的な認識力を与えようとしている」

MITの研究者らは、視覚と無線周波数(RF)センシングを組み合わせて、視界から隠れている物体でも見...

「ロボット排除の3原則」を破る方法

2013年に私は2つの文章を書きました。1つは「デジタル化できるものはすべてデジタル化される」という...

...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

プログラマーの芸術: ソートアルゴリズムのダンス

1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...

私の国のドローンは新たな段階に入り、成熟した開発にはまだ3つのレベルを通過する必要があります

[[428031]]先日の建国記念日、ドローンは間違いなく「最もクールな存在」でした。交通の補助、景...

AI インデックス: AI 関連の求人、データ、トレンド

AI Index は、人工知能の現状に関する詳細な年次レポートです。自律システム、研究開発、AI の...

とても怖い!最初のAIはすでに詐欺行為を行っている

​​ [[250441]]​​この記事はGeek View (ID: geekview) の許可を得...

市場規模は約16.8億元に達しました!物流と配送がドローンと出会う

現在、ナビゲーションや通信などの技術が継続的に進歩し、ドローンの開発はより成熟し、業界の規模も拡大し...

資本から絶大な支持を受ける人工知能が、なぜ金融分野で壁にぶつかっているのか。

マーフィー著昨年のAlphaGo、今年のLibratusと、さまざまな業界で「人工知能」のトレンドが...

AI(人工知能)はニッチな業界でお金を稼ぐ次のチャンスです

AI(人工知能)とは何ですか?と聞かれたら多くの人は、いくつかの単語を話すことはできるかもしれません...

「顔認証」の隆盛を振り返る

[[391752]]昨年、ある短い動画が話題になりました。ヘルメットをかぶって家を内覧するお客さん。...

GPT-4/Gemini は惨敗、旅行ガイド作成の成功率は ≈ 0% です!復旦大学OSUと他の中国チーム:エージェントは複雑なタスクを計画できない

AI エージェントは現在、学界で注目の話題であり、多くの専門家によって大規模モデルの開発における次の...