NLPの新人プロンプトは円を超えて、清華大学劉志遠の最新論文はそれをVLM画像に適用する

NLPの新人プロンプトは円を超えて、清華大学劉志遠の最新論文はそれをVLM画像に適用する

[[426388]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

NLP の新参者である Prompt は、最近かなり人気が出てきています。

また、VLM (Visual-Language model) と組み合わせて人気を博しました。

OpenAI の CLIP と Nanyang Technological University の CoOp はどちらもこのアイデアを採用しています。

現在、清華大学の劉志遠准教授のチームが発表した最新の視覚言語モデル論文では、新しいプロンプトベースの方法が提案されています。

論文によれば、プロンプトがクロスモデルおよびゼロショット/少数ショット学習の視覚的位置決めに使用されたのは今回が初めてだという。

現在の NLP および VLM モデルから判断すると、プロンプトベースのモデルの多くは良好な結果を示しており、履歴書に取り組んでいる学生たちは少し興味を持っています。私たちのためにも 1 つ作成してもらえませんか?

では、プロンプトの利点は何でしょうか。また、画像エンドに適用した場合にも良い結果が得られるのでしょうか。

見てみましょう。

微調整との違いは何ですか?

当初、NLP モデルがそれほど大きくなかった頃は、「事前トレーニング +微調整」アプローチを使用して、特定のタスク用のモデルを設計していました。

このモデルでは、研究者は比較的良好な結果を持つモデルを事前トレーニングし、その後、ほとんどのモデルパラメータを保持しながら、特定のタスク(下流タスク)に応じていくつかのパラメータを調整し、そのタスクで最良の結果を達成できるようにします。

△例えば、BERTを事前学習済みモデルとして使用する

しかし、事前学習済みモデルが大きくなるにつれて、微調整にかかるコスト(学習時間、必要なデータ量など)も増加しており、研究者はより良い方法を模索し始めています。

このときプロンプトが表示されますが、今回は下流のタスクに合わせて調整されます。

これは、事前トレーニング済みモデルに「プロンプト」を出すために使用される入力テンプレートに少し似ています。事前トレーニング済みモデルがそれを「確認」すると、完了する必要があるタスクがわかります。

たとえば、感情分類タスクでは、事前トレーニング済みのモデルが入力文の感情を理解し、それを分類するための形容詞を付与できることを期待します。

「この映画が大好きです。」と入力した後、事前に「この映画は[マスク]です」というプロンプトが与えられ、事前トレーニング済みのモデルはそれを見るとすぐに「素晴らしい/素敵」などの形容詞を出力すべきであると理解します。

このようにトレーニングすると、事前トレーニング済みモデルは、対応するプロンプトが表示されたときに、他の作業を行うために「軌道から外れて」しまうのではなく、正しい語彙タイプを選択できるようになります。

プロンプトは NLP の分野で優れた応用効果を発揮するため、多くの研究者が NLP 関連の VLM モデルでこの手法を試し始めています。

清華大学は画像処理にこれを利用している

もちろん、もともとプロンプトを適用していた VLM モデルは、主にテキスト側にプロンプ​​トを適用し続けています。

Zhihu @陀飞轮によると、2つのVLMモデル、OpenAIのCLIPとNTUのCoOpの迅速な応用は、NLPのPETモデルに多少似ているとのこと。

モデルのデザインから、 CLIPの「[マスク]の写真」など、テキスト側からのプロンプトの影がはっきりとわかります。

そして、 CoOp はCLIP をさらに改良し、トレーニング中に自身を最適化できるというプロンプト:

これらのプロンプトを適用すると、VLM モデルの全体的な出力効果が向上します。

ただし、これらは基本的にテキスト側での VLM の適用です。prompt は画像側での使用に適していますか?

清華大学の劉志遠氏のチームの最新論文では、色付けによって VLM の画像側に一種の視覚的なサブプロンプトを作成する試みがなされました。

もちろん、テキスト側でもプロンプトが適用されます。しかし、Liu Zhiyuan教授によると、テキスト側でのプロンプトの適用だけでは、プロンプトチューニングの役割を十分に果たすことはできません。そのため、この論文では、クロスモーダルプロンプトチューニング法を試みています。

論文のテスト結果から判断すると、この方法は基本的に、少数ショット学習の場合、微調整よりも優れた結果を達成できます。

ただし、これは依然として VLM に関する prompt の別の試みです。

CV分野の画像処理問題の処理に適していますか?

CV 分野はこのことから学べるでしょうか?

知乎では多くのブロガーが意見を述べています。

Zhihu @Tourbillon では 2 つの方法が提供されています:

純粋な CV 指向のプロンプト、つまり ViT と同様に画像をパッチに分割し、各パッチを実際に文字と見なすことができるプロンプトの場合は、モデルをトレーニングするためのパッチ プロンプトを設計することもできます。このパッチ プロンプトも、生成的 (ViT と同様) と識別的 (自己教師あり学習と同様) の 2 つの方法に分けることができます。

Zhihu @yearn は、現時点では、継続的なプロンプトが CV 分野に転送される可能性が最も高い一連の作業であると考えています。最近、Transformer は CV と NLP を統合する準備を進めており、画像入力をパッチの形式に変換することで、研究者が NLP 手法から学習してプロンプトを学習しやすくしています。

もちろん、@yearn は、プロンプトを CV 分野に真に適用するには、解決すべき問題がまだ 2 つあるとも言っています。

1. CV にはまだ BERT や GPT のような主要な事前トレーニング モデルがないため、近い将来にプロンプ​​トを少数ショット学習に移行するのは難しいかもしれません。

2. CV の下流タスクはより複雑です。センサー検出やセグメンテーションなどのタスクでは、プロンプトを調整して動作させるのは非常に大きな作業負荷になります。

しかし、匿名ユーザーの中には、一部のタスクは非常に厄介な方法でしか画像上で実行できないと直接信じている人もいます。もちろん、ビデオの方が良い選択かもしれません。

では、プロンプトは履歴書の分野にも応用できると思いますか?

劉志遠氏のチームによる最新の論文:
https://arxiv.org/abs/2109.11797

Zhihuの回答(承認済み):
@トゥールビヨン: https://www.zhihu.com/question/487096135/answer/2127127513
@yearn: https://www.zhihu.com/question/487096135/answer/2124603834

<<:  人工知能はよりクールで実用的

>>:  中国の「データブリックス」:AIインフラの構築に真剣に取り組む

ブログ    
ブログ    

推薦する

AIのダークサイド: AIを信頼できるものにする方法

セキュリティとプライバシーに関する懸念は、AI 導入に対する最大の障壁であり、それには十分な理由があ...

...

HASHアルゴリズムとCSDNパスワード漏洩事件についての簡単な説明

CSDNパスワード漏洩事件では、ネットユーザーらはパスワードのプレーンテキスト保存とMD5保存の問題...

...

SQLデータベースに基づくアルゴリズムを学ぶ

データベースは、データを保存し、大規模な計算を実行する場所です。現実世界の問題を解決するために、デー...

約 200 以上の自動運転データセットの包括的な調査!データクローズドループプロセス全体の概要

序文と個人的な理解自動運転技術は、最新のハードウェアとディープラーニング手法の進歩により急速に発展し...

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モ...

ソゴウ・チャン・ボー:インテリジェントな運用とメンテナンスは代替ではなくアップグレードです

[51CTO.com オリジナル記事] 「初夏、あなたはついに貴重な年次休暇を楽しむ機会を得ました。...

RAG 上級スキル - ウィンドウ コンテキスト取得の実装方法

この記事では、RAG (Retrieval-Augmented Generation) モデルの検索...

AI チャットボットと自動テストの重要性

近年、銀行、医療、小売、通信などの業界でチャットボットの使用が大幅に増加しています。これにより、私た...

テレンス・タオが AI を使って形式化した証明とは、いったい何でしょうか? PFR予想の歴史の簡単な紹介

12月5日、有名な数学者でフィールズ賞受賞者のテレンス・タオ氏は、ソーシャルネットワーク上で、多項式...

この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

研究者たちは、機械学習の手法を使用して、高次元の非線形データから直接最も価値があり重要な内部法則を自...

シリコンバレーのエンジニアの間で大人気だったこの技術共有セッションで、ディディはどんなことを話したのでしょうか?

11月19日、滴滴出行は米国の新研究オフィスで地元の科学研究者向けの技術サロンを開催した。 Did...

ディープラーニングAIを使用してマルウェアやAPTを検出し、防止する方法

[[163896]] [51CTO.com クイック翻訳] Deep Instinct は、最大 9...