GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト学習では、モデルは下流のタスクに応じてパラメータを調整するのではなく、下流のタスクの入力と出力をプロンプトとして接続し、モデルがテスト セットの入力に基づいて予測結果を生成するようにガイドします。この方法のパフォーマンスは、ゼロ教師あり学習を大幅に上回り、大規模モデルを効率的に使用するための新しいアイデアを提供します。 しかし、コンテキスト内学習では、モデルは本当に下流のタスクを学習するのでしょうか?プロンプトのトレーニングサンプルとして、モデルはどのように機能しますか? この記事の著者は、コンテキスト内学習は入力と注釈の関係を学習するのではなく、特定の形式でデータを提示することで事前トレーニング済みモデルの機能を活性化することを発見しました。さらに、2つの結論があります: (1) コンテキスト内学習のこの特徴は、メタ学習のコンテキストでより明白です。 (2) ラベルは重要ではないため、ラベルなしのドメインデータはコンテキスト内ゼロショット学習に使用できます。 論文タイトル: デモンストレーションの役割を再考する: 文脈内学習を機能させるものは何ですか? 論文リンク: https://arxiv.org/abs/2202.12837 プロジェクトアドレス: https://github.com/Alrope123/rethinking-demonstrations 背景大規模な事前学習済みモデルの教師なし予測: 事前学習済み言語モデルの場合、テストデータ入力 (x) を入力し、言語モデルを通じて出力 (P(y|x)) を直接予測します。下の図の通りです。このうち、ミニマルは最も簡単な方法であり、マニュアルは人工的なデザイン部分を追加する方法です。青い部分は予測する必要があるラベル部分です。この論文では、著者はデフォルトで最小法を使用してテストデータを処理します。 インコンテキスト学習は、上記の教師なし予測に似ていますが、テスト例の前に少量のラベル付きデータが入力されます。パラメータを調整する必要もなく、直接トレーニングするだけです。これは、教師なし予測に基づいて次のプレフィックスを導入することと同じです。 この記事では主に、コンテキスト内学習で追加されたプレフィックスからモデルが何を学習するかについて説明します。 実験のセットアップこの論文では主に 6 つの異なる事前トレーニング済みモデルを検討しており、その中で MetaICL は多数のダウンストリーム タスクを使用して、コンテキスト内学習の形でメタ学習を実行します。 各モデルについて、著者は直接とチャネルの 2 つの適用方法を使用します。 著者らは、16 の分類タスクと 10 の複数選択タスクを含む合計 26 のデータセットを調査しました。 実験の詳細では、著者は各インスタンスに対して 16 個のラベル付き例を示しています。各設定セット (26 のデータセット、6 つの事前トレーニング済みモデル、および 2 つの使用方法) は、5 つの乱数シードを使用して 5 回実行されました。著者は、計算能力を考慮して、2 つの大規模モデル (airseq 13B と GPT-3) で 6 つのデータ セットと 3 つの乱数シードのみを作成しました。 実験の数が多いため、著者は通常、さまざまな平均値のみを報告します。 モデルはラベルを学習しないこの記事の最初の結論は、コンテキスト内学習では、モデルは入力とラベルの対応を学習しないということです。 コンテキスト内のトレーニング例にランダムなラベルを割り当てることで、ランダムな注釈設定を構築できます。下の図からわかるように、分類タスク (上) であっても複数選択タスク (下) であっても、ランダム注釈設定 (赤) でのモデルのパフォーマンスは正しい注釈 (黄色) と同等であり、コンテキスト内サンプルなしのゼロショット設定 (青) を大幅に上回っています。 この傾向は、ランダム ラベルを持つコンテキスト内サンプルの割合とコンテキスト内サンプルの数を変更しても維持されます。手動で設計されたコンテキスト内表示形式 (プロンプト) を使用した場合でも、結論は変わりません。
モデル学習タスクフォームこの記事の 2 番目の結論は、コンテキスト内学習では、モデルは入力データの分布、予測ラベル、およびこのデータ + ラベルの言語表現を学習 (アクティブ化) するということです。 下の図では、青緑色の列は、入力文がランダムにサンプリングされた文(外部コーパスから)に置き換えられる設定を表しています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、コーパス分布内の表示サンプルとテストサンプル間の一貫性が比較的重要になります。推測モデルは、表示されたサンプルの言語スタイルを学習している可能性があります。 下の図では、青緑色の列はサンプル内のラベルを表し、ランダムな単語に置き換えられています。ご覧のとおり、モデルのパフォーマンスは大幅に低下しています。したがって、コンテキスト内学習では、プレゼンテーション サンプルのラベル コンテンツがテスト サンプルのラベル コンテンツと一致していることを確認することが重要です。モデルは表示されたサンプルからラベル語彙の分布を学習した可能性が高いと推測されます。 下の図では、ラベルのみ (濃い紫色) とラベルなし (濃い緑色) を使用して、さまざまな表示モードがモデルのパフォーマンスに与える影響を調べています。上記の 2 つの図では、OOD 設定と比較してモデルがさらに縮小されていることがわかります。これは、ドメイン、入力、ラベル表現に加えて、コンテキスト内学習のモデルがこの入力と出力の言語パターンも学習することを示しています。 要約と議論モデルは学習しましたか?著者は、従来の意味での学習とは、入力サンプルと出力サンプル (P(y|x) または P(x,y)∝P(x|y)) 間の関連性をモデル化するモデルを指すと考えています。この意味では、文脈内学習には学習は含まれません。 ただし、モデルは入力、出力、および入力 + 出力の言語式の例を示すことでパフォーマンスを向上させることができます。ある程度、接頭辞入力を使用して大規模モデル言語表現のモデリング能力を活性化するこの方法は、学習の一形態とも見なすことができます。 したがって、これは、大規模モデルのゼロ教師機能が期待をはるかに上回っていることも示しています。 結局のところ、表現、言語スタイル、ラベル付け形式を学習するには、ラベル付けされたデータの関与は必要ありません。大規模なモデルには、潜在的にこの(分類)機能があります。 もちろん、逆に言えば、これはコンテキスト内学習の限界が、入力と出力の関係を真にモデル化できないということであることも示しています。したがって、入力と出力の関係が教師なし事前トレーニングタスクによって必ずしもモデル化されていない下流タスクでは、コンテキスト内学習は失敗する可能性があります。
ちょっとしたインスピレーションこの記事の主執筆者であるミン・セウォン氏は、最近、関連トピックに関する質の高い研究を数多く発表しています。その中には次のようなものがあります。
学生の中には、通常、たくさんの実験を行っており、論文を書く際には、すべての実験結果を論文に含めたいと考える人もいます。 セウォン・ミンについてはまだここで知ることができます。 arxiv 上のこれら 3 つの論文の期間はわずか 6 か月であり、多くの実験が重複しています。これは基本的に、著者が同時に複数のタスクに取り組んでいたことを意味します。著者はこれらの実験をさまざまな観点から分け、異なる報告方法で 3 つのストーリーを語ります。各ストーリーは完結していて独立しており、見栄えがよいです。 |
>>: 人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。
近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...
情報化の急速な発展に伴い、顔認証や指紋認証などの技術が徐々に普及しつつあります。技術の進歩によっても...
回帰アルゴリズムといえば、理解しやすく非常に単純なため、多くの人が線形回帰を思い浮かべると思います。...
アクティベーション、重み、勾配を 4 ビットに量子化すると、ニューラル ネットワークのトレーニングが...
C# アルゴリズム アプリケーションでガウス消去法を実装するにはどうすればよいでしょうか?工学の学習...
デジタル時代の到来により、私たちの生活は急速に変化しました。買い物の仕方も、近所のショッピングモール...
序文音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の...
[[347520]]今日私たちが直面している脅威の状況は絶えず変化しています。世界的に、法執行機関...
2018年、5Gの人気が急速に高まり始めました。その年から、我が国は5G基地局の建設を開始し、全国...
[[426794]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
最近では、AI業界に参入したい人が増えており、その増加はますます大きくなっていることは明らかです。 ...
3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...