失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト学習では、モデルは下流のタスクに応じてパラメータを調整するのではなく、下流のタスクの入力と出力をプロンプトとして接続し、モデルがテスト セットの入力に基づいて予測結果を生成するようにガイドします。この方法のパフォーマンスは、ゼロ教師あり学習を大幅に上回り、大規模モデルを効率的に使用するための新しいアイデアを提供します。

しかし、コンテキスト内学習では、モデルは本当に下流のタスクを学習するのでしょうか?プロンプトのトレーニングサンプルとして、モデルはどのように機能しますか?

この記事の著者は、コンテキスト内学習は入力と注釈の関係を学習するのではなく、特定の形式でデータを提示することで事前トレーニング済みモデルの機能を活性化することを発見しました。さらに、2つの結論があります: (1) コンテキスト内学習のこの特徴は、メタ学習のコンテキストでより明白です。 (2) ラベルは重要ではないため、ラベルなしのドメインデータはコンテキスト内ゼロショット学習に使用できます。

論文タイトル: デモンストレーションの役割を再考する: 文脈内学習を機能させるものは何ですか? 論文リンク: https://arxiv.org/abs/2202.12837 プロジェクトアドレス: https://github.com/Alrope123/rethinking-demonstrations

背景

大規模な事前学習済みモデルの教師なし予測: 事前学習済み言語モデルの場合、テストデータ入力 (x) を入力し、言語モデルを通じて出力 (P(y|x)) を直接予測します。下の図の通りです。このうち、ミニマルは最も簡単な方法であり、マニュアルは人工的なデザイン部分を追加する方法です。青い部分は予測する必要があるラベル部分です。この論文では、著者はデフォルトで最小法を使用してテストデータを処理します。

インコンテキスト学習は、上記の教師なし予測に似ていますが、テスト例の前に少量のラベル付きデータが入力されます。パラメータを調整する必要もなく、直接トレーニングするだけです。これは、教師なし予測に基づいて次のプレフィックスを導入することと同じです。

この記事では主に、コンテキスト内学習で追加されたプレフィックスからモデルが何を学習するかについて説明します。

実験のセットアップ

この論文では主に 6 つの異なる事前トレーニング済みモデルを検討しており、その中で MetaICL は多数のダウンストリーム タスクを使用して、コンテキスト内学習の形でメタ学習を実行します。

各モデルについて、著者は直接とチャネルの 2 つの適用方法を使用します。

著者らは、16 の分類タスクと 10 の複数選択タスクを含む合計 26 のデータセットを調査しました。

実験の詳細では、著者は各インスタンスに対して 16 個のラベル付き例を示しています。各設定セット (26 のデータセット、6 つの事前トレーニング済みモデル、および 2 つの使用方法) は、5 つの乱数シードを使用して 5 回実行されました。著者は、計算能力を考慮して、2 つの大規模モデル (airseq 13B と GPT-3) で 6 つのデータ セットと 3 つの乱数シードのみを作成しました。

実験の数が多いため、著者は通常、さまざまな平均値のみを報告します。

モデルはラベルを学習しない

この記事の最初の結論は、コンテキスト内学習では、モデルは入力とラベルの対応を学習しないということです。

コンテキスト内のトレーニング例にランダムなラベルを割り当てることで、ランダムな注釈設定を構築できます。下の図からわかるように、分類タスク (上) であっても複数選択タスク (下) であっても、ランダム注釈設定 (赤) でのモデルのパフォーマンスは正しい注釈 (黄色) と同等であり、コンテキスト内サンプルなしのゼロショット設定 (青) を大幅に上回っています。

この傾向は、ランダム ラベルを持つコンテキスト内サンプルの割合とコンテキスト内サンプルの数を変更しても維持されます。手動で設計されたコンテキスト内表示形式 (プロンプト) を使用した場合でも、結論は変わりません。

下の図は、ランダムなラベルを変更することでコンテキスト内のサンプルの割合を調整しています。

下の画像の左側がChannel MetaICL、右側がDirect GPT-Jです。K調整は表示されるサンプルの数です。

下の図の +T は、手動で設計されたコンテキスト内表示形式の使用を示しています。

モデル学習タスクフォーム

この記事の 2 番目の結論は、コンテキスト内学習では、モデルは入力データの分布、予測ラベル、およびこのデータ + ラベルの言語表現を学習 (アクティブ化) するということです。

下の図では、青緑色の列は、入力文がランダムにサンプリングされた文(外部コーパスから)に置き換えられる設定を表しています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、コーパス分布内の表示サンプルとテストサンプル間の一貫性が比較的重要になります。推測モデルは、表示されたサンプルの言語スタイルを学習している可能性があります。

下の図では、青緑色の列はサンプル内のラベルを表し、ランダムな単語に置き換えられています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、プレゼンテーション サンプルのラベル コンテンツがテスト サンプルのラベル コンテンツと一致していることを確認することが重要です。モデルは表示されたサンプルからラベル語彙の分布を学習した可能性が高いと推測されます。

下の図では、ラベルのみ (濃い紫色) とラベルなし (濃い緑色) を使用して、さまざまな表示モードがモデルのパフォーマンスに与える影響を調べています。上記の 2 つの図では、OOD 設定と比較してモデルがさらに縮小されていることがわかります。これは、ドメイン、入力、ラベル表現に加えて、コンテキスト内学習のモデルがこの入力と出力の言語パターンも学習することを示しています。

要約と議論

モデルは学習しましたか?

著者は、従来の意味での学習とは、入力サンプルと出力サンプル (P(y|x) または P(x,y)∝P(x|y)) 間の関連性をモデル化するモデルを指すと考えています。この意味では、文脈内学習には学習は含まれません。

ただし、モデルは入力、出力、および入力 + 出力の言語式の例を示すことでパフォーマンスを向上させることができます。ある程度、接頭辞入力を使用して大規模モデル言語表現のモデリング能力を活性化するこの方法は、学習の一形態とも見なすことができます。

したがって、これは、大規模モデルのゼロ教師機能が期待をはるかに上回っていることも示しています。

結局のところ、表現、言語スタイル、ラベル付け形式を学習するには、ラベル付けされたデータの関与は必要ありません。大規模なモデルには、潜在的にこの(分類)機能があります。

もちろん、逆に言えば、これはコンテキスト内学習の限界が、入力と出力の関係を真にモデル化できないということであることも示しています。したがって、入力と出力の関係が教師なし事前トレーニングタスクによって必ずしもモデル化されていない下流タスクでは、コンテキスト内学習は失敗する可能性があります。

しかし、現在の従来の NLP タスクのほとんどは、上記の「失敗」設定を満たしていないようです。

ちょっとしたインスピレーション

この記事の主執筆者であるミン・セウォン氏は、最近、関連トピックに関する質の高い研究を数多く発表しています。その中には次のようなものがあります。

  • ノイズの多いチャネル言語モデルによる少量テキスト分類の促進 ~ https://arxiv.org/pdf/2108.04106.pdf
  • MetaICL: 文脈の中で学ぶことを学ぶ ~ https://arxiv.org/pdf/2110.15943.pdf

学生の中には、通常、たくさんの実験を行っており、論文を書く際には、すべての実験結果を論文に含めたいと考える人もいます。

セウォン・ミンについてはまだここで知ることができます。 arxiv 上のこれら 3 つの論文の期間はわずか 6 か月であり、多くの実験が重複しています。これは基本的に、著者が同時に複数のタスクに取り組んでいたことを意味します。著者はこれらの実験をさまざまな観点から分け、異なる報告方法で 3 つのストーリーを語ります。各ストーリーは完結していて独立しており、見栄えがよいです。

<<:  AI投資から利益を得るための3つの鍵

>>:  人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

ブログ    
ブログ    

推薦する

業界アプリケーション: ドローンに正確な測位技術を提供するにはどうすればよいでしょうか?

背景ステータス:科学技術の発展に伴い、無人航空機であるドローンは、一定の高さから地上の映像を取得でき...

...

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

[[185581]]導入TensorFlow は、DistBelief に基づいて Google が...

自動運転車がキャンパスの食事を配達するために走行中:サービス料金は15分以内で13元にも達する

海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

警察ドローンの数十億ドル規模のブルーオーシャンをどう実現するか?今後はこの3点に注目してください!

近年、飛行制御、ナビゲーション、通信などの技術の継続的な発展に伴い、ドローン産業は急速な成長を遂げて...

人工知能とモノのインターネット (AIoT) を組み合わせた場合の威力とは?

モノのインターネット (IoT) や人工知能 (AI) について聞いたことがあると思います。しかし、...

現実世界の AI: 今こそ AI が必要な理由

人類が最も懸念している問題の一つは、人工知能(AI)の将来の発展です。真の AI は、人間の作業のス...

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ:FSD V12は「ベータ版」ではなくなる

マスク氏は実際にテスラを運転して「ザッカー氏の家」まで行き、その全過程は編集なしで生放送された。しか...

AIバーチャルアシスタント:私たちはオペレーターの新たなお気に入りです

人工知能が将来のビジネスやデジタル変革の鍵となる可能性が高いことをさまざまな分野の人々が一般的に認識...

GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

1. Transformer 大規模言語モデルのための SOTA トレーニング技術1. 大規模言語モ...

この目立たないロボットトラックにユニコーンが登場しました!

人工知能やビッグデータなどの技術の発展に伴い、チャットボットも大きな進歩を遂げています。その応用分野...

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

北京大学とテンセントがマルチモーダル15角形の戦士を制作しました!言語を中心に据えて、ビデオ、オーデ...

リアルすぎて怖い! Gen-2 の壮大なアップデート、手作りの 4K ハリウッド大作、Midjourney の夢の連携、CEO: クリエイティブ ソフトウェアの時代は終わった

動画生成AIが狂った!ランウェイとミッドジャーニーは、それぞれが究極の技を駆使して激しい戦いを繰り広...

よりスマートなモバイルプラットフォームを構築するため、Ant mPaaS5.0がYunqiカンファレンスで発表されました

1 11月2日、雲旗会議において、Ant FinancialはmPaaSが正式にバージョン5.0にア...