失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト学習では、モデルは下流のタスクに応じてパラメータを調整するのではなく、下流のタスクの入力と出力をプロンプトとして接続し、モデルがテストセットの入力に基づいて予測結果を生成するようにガイドします。この方法のパフォーマンスは、ゼロ教師あり学習を大幅に上回り、大規模モデルを効率的に使用するための新しいアイデアを提供します。

しかし、コンテキスト内学習では、モデルは本当に下流のタスクを学習するのでしょうか?プロンプトのトレーニングサンプルとして、モデルはどのように機能しますか?

この記事の著者は、コンテキスト内学習は入力と注釈の関係を学習するのではなく、特定の形式でデータを提示することで事前トレーニング済みモデルの機能を活性化することを発見しました。さらに、2つの結論があります: (1) コンテキスト内学習のこの特徴は、メタ学習のコンテキストでより明白です。 (2) ラベルは重要ではないため、ラベルなしのドメインデータはコンテキスト内ゼロショット学習に使用できます。

論文タイトル: デモンストレーションの役割を再考する: 文脈内学習を機能させるものは何ですか? 論文リンク: https://arxiv.org/abs/2202.12837 プロジェクトアドレス: https://github.com/Alrope123/rethinking-demonstrations

背景

大規模な事前学習済みモデルの教師なし予測: 事前学習済み言語モデルの場合、テストデータ入力 (x) を入力し、言語モデルを通じて出力 (P(y|x)) を直接予測します。下の図の通りです。このうち、ミニマルは最も簡単な方法であり、マニュアルは人工的なデザイン部分を追加する方法です。青い部分は予測する必要があるラベル部分です。この論文では、著者はデフォルトで最小法を使用してテストデータを処理します。

インコンテキスト学習は、上記の教師なし予測に似ていますが、テスト例の前に少量のラベル付きデータが入力されます。パラメータを調整する必要もなく、直接トレーニングするだけです。これは、教師なし予測に基づいて次のプレフィックスを導入することと同じです。

この記事では主に、コンテキスト内学習で追加されたプレフィックスからモデルが何を学習するかについて説明します。

実験のセットアップ

この論文では主に 6 つの異なる事前トレーニング済みモデルを検討しており、その中で MetaICL は多数のダウンストリームタスクを使用して、コンテキスト内学習の形でメタ学習を実行します。

各モデルについて、著者は直接とチャネルの 2 つの適用方法を使用します。

著者らは、16 の分類タスクと 10 の複数選択タスクを含む合計 26 のデータセットを調査しました。

実験の詳細では、著者は各インスタンスに対して 16 個のラベル付き例を示しています。各設定セット (26 のデータセット、6 つの事前トレーニング済みモデル、および 2 つの使用方法) は、5 つの乱数シードを使用して 5 回実行されました。著者は、計算能力を考慮して、2 つの大規模モデル (airseq 13B と GPT-3) で 6 つのデータセットと 3 つの乱数シードのみを作成しました。

実験の数が多いため、著者は通常、さまざまな平均値のみを報告します。

モデルはラベルを学習しない

この記事の最初の結論は、コンテキスト内学習では、モデルは入力とラベルの対応を学習しないということです。

コンテキスト内のトレーニング例にランダムなラベルを割り当てることで、ランダムな注釈設定を構築できます。下の図からわかるように、分類タスク (上) であっても複数選択タスク (下) であっても、ランダム注釈設定 (赤) でのモデルのパフォーマンスは正しい注釈 (黄色) と同等であり、コンテキスト内サンプルなしのゼロショット設定 (青) を大幅に上回っています。

この傾向は、ランダムラベルを持つコンテキスト内サンプルの割合とコンテキスト内サンプルの数を変更しても維持されます。手動で設計されたコンテキスト内表示形式 (プロンプト) を使用した場合でも、結論は変わりません。

下の図は、ランダムなラベルを変更することでコンテキスト内のサンプルの割合を調整しています。

下の画像の左側がChannel MetaICL、右側がDirect GPT-Jです。K調整は表示されるサンプルの数です。

下の図の +T は、手動で設計されたコンテキスト内表示形式の使用を示しています。

モデル学習タスクフォーム

この記事の 2 番目の結論は、コンテキスト内学習では、モデルは入力データの分布、予測ラベル、およびこのデータ + ラベルの言語表現を学習 (アクティブ化) するということです。

下の図では、青緑色の列は、入力文がランダムにサンプリングされた文（外部コーパスから）に置き換えられる設定を表しています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、コーパス分布内の表示サンプルとテストサンプル間の一貫性が比較的重要になります。推測モデルは、表示されたサンプルの言語スタイルを学習している可能性があります。

下の図では、青緑色の列はサンプル内のラベルを表し、ランダムな単語に置き換えられています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、プレゼンテーションサンプルのラベルコンテンツがテストサンプルのラベルコンテンツと一致していることを確認することが重要です。モデルは表示されたサンプルからラベル語彙の分布を学習した可能性が高いと推測されます。

下の図では、ラベルのみ (濃い紫色) とラベルなし (濃い緑色) を使用して、さまざまな表示モードがモデルのパフォーマンスに与える影響を調べています。上記の 2 つの図では、OOD 設定と比較してモデルがさらに縮小されていることがわかります。これは、ドメイン、入力、ラベル表現に加えて、コンテキスト内学習のモデルがこの入力と出力の言語パターンも学習することを示しています。

要約と議論

モデルは学習しましたか?

著者は、従来の意味での学習とは、入力サンプルと出力サンプル (P(y|x) または P(x,y)∝P(x|y)) 間の関連性をモデル化するモデルを指すと考えています。この意味では、文脈内学習には学習は含まれません。

ただし、モデルは入力、出力、および入力 + 出力の言語式の例を示すことでパフォーマンスを向上させることができます。ある程度、接頭辞入力を使用して大規模モデル言語表現のモデリング能力を活性化するこの方法は、学習の一形態とも見なすことができます。

したがって、これは、大規模モデルのゼロ教師機能が期待をはるかに上回っていることも示しています。

結局のところ、表現、言語スタイル、ラベル付け形式を学習するには、ラベル付けされたデータの関与は必要ありません。大規模なモデルには、潜在的にこの（分類）機能があります。

もちろん、逆に言えば、これはコンテキスト内学習の限界が、入力と出力の関係を真にモデル化できないということであることも示しています。したがって、入力と出力の関係が教師なし事前トレーニングタスクによって必ずしもモデル化されていない下流タスクでは、コンテキスト内学習は失敗する可能性があります。

しかし、現在の従来の NLP タスクのほとんどは、上記の「失敗」設定を満たしていないようです。

ちょっとしたインスピレーション

この記事の主執筆者であるミン・セウォン氏は、最近、関連トピックに関する質の高い研究を数多く発表しています。その中には次のようなものがあります。

ノイズの多いチャネル言語モデルによる少量テキスト分類の促進 ~ https://arxiv.org/pdf/2108.04106.pdf
MetaICL: 文脈の中で学ぶことを学ぶ ~ https://arxiv.org/pdf/2110.15943.pdf

学生の中には、通常、たくさんの実験を行っており、論文を書く際には、すべての実験結果を論文に含めたいと考える人もいます。

セウォン・ミンについてはまだここで知ることができます。 arxiv 上のこれら 3 つの論文の期間はわずか 6 か月であり、多くの実験が重複しています。これは基本的に、著者が同時に複数のタスクに取り組んでいたことを意味します。著者はこれらの実験をさまざまな観点から分け、異なる報告方法で 3 つのストーリーを語ります。各ストーリーは完結していて独立しており、見栄えがよいです。

<<: AI投資から利益を得るための3つの鍵

>>: 人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。