NLP の分野では、事前トレーニングの微調整とプロンプトチューニングの手法により、さまざまなタスクにおける GPT-3 などの大規模モデルのパフォーマンスを向上させることができますが、ゼロショット学習タスクにおけるこのような大規模モデルのパフォーマンスはまだ顕著ではありません。ゼロショットシナリオでのモデルのパフォーマンスをさらに調査するために、GoogleのQuoc Leなどの研究者は、1,370億のパラメータを持つ自己回帰言語モデルBase LMをトレーニングし、そこに新しい命令チューニング技術を採用しました。その結果、命令チューニング技術を備えたモデルは、自然言語推論、読解、オープンドメインの質疑応答などの未知のタスクでゼロショットのパフォーマンスを発揮し、GPT-3の小サンプルのパフォーマンスを上回ることが示されました。 大規模言語モデル (LM) は、少量学習タスクに適していることが示されています。例えば、OpenAIが提案したGPT-3には1750億のパラメータがあり、質問に答えたり、翻訳したり、記事をより良く書いたりできるだけでなく、数学的な計算機能も備えています。微調整なしで複数の NLP ベンチマークで最先端のパフォーマンスを実現します。 しかし、GPT-3 のような大規模言語モデルは、ゼロショット学習タスクではうまく機能しません。たとえば、GPT-3 のゼロショット パフォーマンスは、読解、質問応答、自然言語推論などのタスクでは、数ショット パフォーマンスよりもはるかに劣ります。 この論文では、Google の研究者 Quoc Le らが、ゼロショットの状況で大規模な言語モデルのパフォーマンスを改善し、それによって対象者を拡大するための簡単な方法を探求しています。彼らは、NLP タスクは「この映画のレビューの感情は肯定的か否定的か」や「『お元気ですか』を中国語に翻訳してください」などの自然言語の指示で記述できると考えています。 この研究では、137B のパラメータを持つ事前トレーニング済みモデルを使用し、指示調整タスクを実行して、自然言語指示で表現された 60 を超える NLP タスクを調整しました。彼らは、その結果得られたモデルを Finetuned LANguage Net、つまり FLAN と名付けました。
未知のタスクにおける FLAN のゼロショット性能を評価するために、本研究では NLP タスクをタスクタイプに応じて複数のクラスターに分割し、他のクラスターで FLAN 命令を微調整しながら各クラスターを評価します。下の図 1 に示すように、FLAN の自然言語推論能力を評価するために、この研究では、常識的推論、翻訳、感情分析など、他のさまざまな NLP タスクでモデルを微調整しました。この設定により、FLAN は命令チューニングで自然言語推論タスクを実行したことがないため、ゼロショット自然言語推論を実行する能力を評価できます。 評価の結果、FLAN によってモデルのゼロショット パフォーマンスが大幅に向上することが示されました (ベース 137B パラメータ)。 FLAN ゼロショットは、25 の評価タスクのうち 19 で 175B パラメータの GPT-3 ゼロショットを上回り、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryCloze などの多くのタスクでは GPT-3 フューショットを大幅に上回ります。アブレーション研究では、命令正規化におけるタスク クラスターの数を増やすと、未知のタスクに対するモデルのパフォーマンスが向上し、命令正規化の利点はモデルが十分に大きい場合にのみ現れることがわかりました。 この研究の実証的結果は、自然言語の指示を使用してタスクを記述する言語モデルの能力を強調しています。より広い意味では、図 2 に示すように、命令チューニングは事前トレーニングと微調整の機能と微調整監督の使用を組み合わせて、推論時にテキストのやり取りに応答する言語モデルの能力を向上させます。 FLAN: 命令チューニングによるゼロショット学習の改善命令チューニングの目的は、NLP 命令に応答する言語モデルの能力を向上させ、監督を使用して命令に記述されたタスクを実行するように LM に教えることです。言語モデルは、目に見えないタスクに対しても指示に従うことを学習します。未知のタスクにおけるモデルのパフォーマンスを評価するために、この研究では、タスクをタスクの種類に応じて複数のクラスターに分割し、他のクラスターが指示を調整している間に、1 つのタスク クラスターを評価用に確保しました。 タスクとテンプレートこの研究では、Tensorflow Datasets に公開されている 62 個のテキスト データセット (言語理解および言語生成タスクを含む) を集約しました。下の図 3 は、この研究で使用されたすべてのデータセットを示しています。各データセットは 12 個のタスク クラスターのいずれかに分類され、各クラスター内のデータセットは同じタスク タイプを持ちます。 この研究では、タスクをデータセットによって与えられた特定の入力と出力のペアのセットとして定義します。研究者は、各タスクについて、自然言語の指示を使用してタスクを説明する 10 個の固有のテンプレートを手動で作成しました。 10 個のテンプレートのほとんどは元のタスクを説明していますが、多様性を高めるために、研究者は各タスクに対して最大 3 つの「タスクを逆転させた」テンプレートを提供しています。下の図 4 は、自然言語推論タスク用の複数の指示テンプレートを示しています。 トレーニングの詳細モデルアーキテクチャと事前トレーニング。実験では、密な左から右、デコーダーのみ、137B パラメータのトランスフォーマー言語モデルを使用しました。このモデルは、Web ドキュメント (コンピュータ コードを含むドキュメントを含む)、会話データ、Wikipedia のセットで事前トレーニングされており、SentencePiece ライブラリ (Kudo & Richardson、2018) を使用して 2.81T BPE トークンと 32K トークンの語彙にトークン化されています。事前トレーニング データの約 10% は英語以外です。このデータセットは GPT-3 トレーニング セットほどクリーンではなく、会話とコードが混在しています。 実験結果研究者らは、自然言語推論、読解、オープンドメインの質問応答、常識的推論、共参照解決、翻訳など、複数のタスクにおける FLAN のパフォーマンスを評価しました。各タスクについて、すべてのテンプレートにわたるパフォーマンスの平均と標準誤差が報告されます。これは、一般的な自然言語の指示が与えられた場合の FLAN の予想されるパフォーマンスを表します。 自然言語推論タスク以下の表 1 は、さまざまなモデルの自然言語推論テストの結果を示しています。前提と仮説が与えられた場合、モデルは前提が真である場合に仮説が真であることを確認する必要があります。ご覧のとおり、FLAN はすべてのケースで強力なパフォーマンスを示しています。 CB と RTE の異なるテンプレート間で結果に大きなばらつきがあるにもかかわらず、FLAN はプロンプト エンジニアリングなしで 4 つのデータセットすべてでゼロ ショットおよび少数ショットの GPT-3 を大幅に上回ります。最適な開発テンプレートを使用すると、FLAN は 5 つのデータセットで Few-Shot GPT-3 よりも優れたパフォーマンスを発揮します。 FLAN は、ANLI-R3 データセット上で教師あり BERT を上回ります。 読解力とオープンドメインの質問応答課題読解課題では、モデルは与えられた文章に関する質問に答えるように求められました。結果は下の表 2 に示されています。 FLAN は、BoolQ および OBQA データセットで GPT-3 を大幅に上回ります。最適な開発テンプレートを使用すると、FLAN は MultiRC データセットで Few-Shot GPT-3 よりもわずかに優れたパフォーマンスを発揮します。 オープンドメインの質問応答タスクでは、FLAN は ARC-easy データセットと ARC-challenge データセットの両方でゼロショットおよび少数ショットの GPT-3 を大幅に上回ります。 Natural Questions データセットでは、FLAN はゼロショット GPT-3 よりも優れていますが、スモールショット GPT-3 よりも弱いです。 常識的推論と共参照解決タスク5 つの常識推論データセットでのさまざまなモデルの結果を表 3 に示します。FLAN は StoryCloze データセットでは GPT-3 よりも優れており、CoPA および PiQA データセットでは GPT-3 に匹敵します。ただし、HellaSwag および ReCoRD データセットでは、Base LM と FLAN はどちらも GPT-3 よりも弱いです。 両方の共参照解決タスクにおいて、最良の開発テンプレートを使用した FLAN は Winogrande データセットのゼロショット GPT-3 よりも優れていますが、Base LM と FLAN はどちらも WSC273 データセットの GPT-3 よりも劣っています。 翻訳する研究者らは、GPT-3論文で評価された3つのデータセット(WMT’14のフランス語-英語、WMT’16のドイツ語-英語およびルーマニア語-英語)でFLANの機械翻訳パフォーマンスもテストしました。 テスト結果を以下の表4に示します。Base LM のゼロサンプル翻訳パフォーマンスは弱いですが、小サンプル翻訳結果は GPT-3 に匹敵します。 FLAN は、6 つの評価指標のうち 5 つで、少数ショットの Base LM よりも優れています。 GPT-3 と同様に、FLAN は英語への翻訳タスクで優れたパフォーマンスを示し、教師あり翻訳のベースラインと比較しても優れています。 その他の実験この論文の中心的な疑問は、命令適応によって未知のタスクにおけるモデルのゼロショット性能がどのように向上するかということであるため、この研究の最初のアブレーション実験では、命令適応で使用されるクラスターとタスクの数が性能に与える影響を調査します。 図5に実験結果を示します。予想どおり、命令チューニングにクラスターとタスクを追加すると (感情分析クラスターを除く)、保留中の 3 つのクラスターの平均パフォーマンスが向上し、提案された命令チューニング方法が新しいタスクでのゼロショット パフォーマンスの向上に役立つことが確認されました。 下の図 6 の結果は、より大きなモデルの場合、命令の調整によってモデル容量の一部が満たされるだけでなく、これらのモデルに命令に従う能力も教え、モデルが残りの容量を新しいタスクに一般化できることを示しています。 |
<<: 普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。
>>: RFID と AI が出会うとき: 「敵」か「味方」か?
[[282801]]私はバスケットボールが好きです。私はバスケットボールをしたり、観戦したり、バス...
[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
2022年1月25日、人工知能分野で世界で最も影響力のある学者の2022年リスト「AI 2000」...
[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...
ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...
[[202723]] AWS 上で大規模なディープラーニング処理を実行することは、学習と開発を行うた...
必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...
データスキルについてまだ不安がありますか?アルゴリズムの革新を適用できる場所はありませんか?こんなに...
10月15日、国家深層学習技術応用工学研究所と百度が共同で開始した第5回AICAチーフAIアーキテ...
12月17日、浙江省徳清国際会議センターで2019年中国スマート企業発展フォーラムが開催され、工業情...
「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研...
9月30日、ガートナーの最近の調査によると、人工知能技術計画を持つテクノロジーおよびサービスプロバイ...
インテリジェント時代では、アルゴリズムと計算能力の継続的な進歩により、AI 技術が急速に発展しました...