NLPの新人プロンプトは円を超えて、清華大学劉志遠の最新論文はそれをVLM画像に適用する

[[426388]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

NLP の新参者である Prompt は、最近かなり人気が出てきています。

また、VLM (Visual-Language model) と組み合わせて人気を博しました。

OpenAI の CLIP と Nanyang Technological University の CoOp はどちらもこのアイデアを採用しています。

現在、清華大学の劉志遠准教授のチームが発表した最新の視覚言語モデル論文では、新しいプロンプトベースの方法が提案されています。

論文によれば、プロンプトがクロスモデルおよびゼロショット/少数ショット学習の視覚的位置決めに使用されたのは今回が初めてだという。

現在の NLP および VLM モデルから判断すると、プロンプトベースのモデルの多くは良好な結果を示しており、履歴書に取り組んでいる学生たちは少し興味を持っています。私たちのためにも 1 つ作成してもらえませんか?

では、プロンプトの利点は何でしょうか。また、画像エンドに適用した場合にも良い結果が得られるのでしょうか。

見てみましょう。

微調整との違いは何ですか?

当初、NLP モデルがそれほど大きくなかった頃は、「事前トレーニング +微調整」アプローチを使用して、特定のタスク用のモデルを設計していました。

このモデルでは、研究者は比較的良好な結果を持つモデルを事前トレーニングし、その後、ほとんどのモデルパラメータを保持しながら、特定のタスク（下流タスク）に応じていくつかのパラメータを調整し、そのタスクで最良の結果を達成できるようにします。

△例えば、BERTを事前学習済みモデルとして使用する

しかし、事前学習済みモデルが大きくなるにつれて、微調整にかかるコスト（学習時間、必要なデータ量など）も増加しており、研究者はより良い方法を模索し始めています。

このときプロンプトが表示されますが、今回は下流のタスクに合わせて調整されます。

これは、事前トレーニング済みモデルに「プロンプト」を出すために使用される入力テンプレートに少し似ています。事前トレーニング済みモデルがそれを「確認」すると、完了する必要があるタスクがわかります。

たとえば、感情分類タスクでは、事前トレーニング済みのモデルが入力文の感情を理解し、それを分類するための形容詞を付与できることを期待します。

「この映画が大好きです。」と入力した後、事前に「この映画は[マスク]です」というプロンプトが与えられ、事前トレーニング済みのモデルはそれを見るとすぐに「素晴らしい/素敵」などの形容詞を出力すべきであると理解します。

このようにトレーニングすると、事前トレーニング済みモデルは、対応するプロンプトが表示されたときに、他の作業を行うために「軌道から外れて」しまうのではなく、正しい語彙タイプを選択できるようになります。

プロンプトは NLP の分野で優れた応用効果を発揮するため、多くの研究者が NLP 関連の VLM モデルでこの手法を試し始めています。

清華大学は画像処理にこれを利用している

もちろん、もともとプロンプトを適用していた VLM モデルは、主にテキスト側にプロンプトを適用し続けています。

Zhihu @陀飞轮によると、2つのVLMモデル、OpenAIのCLIPとNTUのCoOpの迅速な応用は、NLPのPETモデルに多少似ているとのこと。

モデルのデザインから、 CLIPの「[マスク]の写真」など、テキスト側からのプロンプトの影がはっきりとわかります。

そして、 CoOp はCLIP をさらに改良し、トレーニング中に自身を最適化できるというプロンプト:

これらのプロンプトを適用すると、VLM モデルの全体的な出力効果が向上します。

ただし、これらは基本的にテキスト側での VLM の適用です。prompt は画像側での使用に適していますか?

清華大学の劉志遠氏のチームの最新論文では、色付けによって VLM の画像側に一種の視覚的なサブプロンプトを作成する試みがなされました。

もちろん、テキスト側でもプロンプトが適用されます。しかし、Liu Zhiyuan教授によると、テキスト側でのプロンプトの適用だけでは、プロンプトチューニングの役割を十分に果たすことはできません。そのため、この論文では、クロスモーダルプロンプトチューニング法を試みています。

論文のテスト結果から判断すると、この方法は基本的に、少数ショット学習の場合、微調整よりも優れた結果を達成できます。

ただし、これは依然として VLM に関する prompt の別の試みです。

CV分野の画像処理問題の処理に適していますか？

CV 分野はこのことから学べるでしょうか?

知乎では多くのブロガーが意見を述べています。

Zhihu @Tourbillon では 2 つの方法が提供されています:

純粋な CV 指向のプロンプト、つまり ViT と同様に画像をパッチに分割し、各パッチを実際に文字と見なすことができるプロンプトの場合は、モデルをトレーニングするためのパッチプロンプトを設計することもできます。このパッチプロンプトも、生成的 (ViT と同様) と識別的 (自己教師あり学習と同様) の 2 つの方法に分けることができます。

Zhihu @yearn は、現時点では、継続的なプロンプトが CV 分野に転送される可能性が最も高い一連の作業であると考えています。最近、Transformer は CV と NLP を統合する準備を進めており、画像入力をパッチの形式に変換することで、研究者が NLP 手法から学習してプロンプトを学習しやすくしています。

もちろん、@yearn は、プロンプトを CV 分野に真に適用するには、解決すべき問題がまだ 2 つあるとも言っています。

1. CV にはまだ BERT や GPT のような主要な事前トレーニングモデルがないため、近い将来にプロンプトを少数ショット学習に移行するのは難しいかもしれません。
2. CV の下流タスクはより複雑です。センサー検出やセグメンテーションなどのタスクでは、プロンプトを調整して動作させるのは非常に大きな作業負荷になります。

しかし、匿名ユーザーの中には、一部のタスクは非常に厄介な方法でしか画像上で実行できないと直接信じている人もいます。もちろん、ビデオの方が良い選択かもしれません。

では、プロンプトは履歴書の分野にも応用できると思いますか?

劉志遠氏のチームによる最新の論文：
https://arxiv.org/abs/2109.11797

Zhihuの回答（承認済み）:
@トゥールビヨン: https://www.zhihu.com/question/487096135/answer/2127127513
@yearn: https://www.zhihu.com/question/487096135/answer/2124603834

<<: 人工知能はよりクールで実用的

>>: 中国の「データブリックス」：AIインフラの構築に真剣に取り組む