近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデルを拡張すると、さまざまな下流の NLP タスクでパフォーマンスとサンプル効率が向上する可能性があることはよく知られています。多くの場合、スケーリングがパフォーマンスに与える影響はスケーリングの法則によって予測できることが多く、大多数の研究者は予測可能な現象を研究してきました。 それに対して、「大規模言語モデルの創発能力」という論文では、ジェフ・ディーン氏やパーシー・リャン氏を含む16人の研究者が、大規模モデルの予測不可能な現象について議論し、それを大規模言語モデルの創発能力と呼んだ。いわゆる創発とは、いくつかの現象が小さなモデルには存在しないが、大きなモデルには存在することを意味します。彼らは、このモデルの能力は創発的であると考えています。 アイデアとしての創発は、物理学、生物学、コンピューター サイエンスなどの分野で長い間議論されてきました。この論文は、スタインハートの研究を引用し、ノーベル賞を受賞した物理学者フィリップ アンダーソンの 1972 年の論文「More Is Different」に根ざした創発の一般的な定義から始まります。 この論文では、トレーニングの計算とモデル パラメータの観点から測定されたモデル サイズの出現について説明します。具体的には、大規模言語モデルの出現能力を、小規模モデルには存在しないが大規模モデルには存在する能力として定義します。したがって、小規模モデルのパフォーマンス向上を単純に推測するだけでは、大規模モデルを予測することはできません。この研究では、さまざまな先行研究で観察されたモデルの創発能力を調査し、それらを少数ショットの手がかりや拡張された手がかりなどの設定に分類します。 このモデルの新たな能力は、これらの能力がなぜ獲得されるのか、そしてより大きなサイズがより多くの新たな能力を獲得するかどうかについての将来の研究を促し、この研究の重要性を強調します。 論文アドレス: https://arxiv.org/pdf/2206.07682.pdf 小規模サンプルプロンプトタスクこの論文ではまず、キューイングパラダイムにおける創発的な力について議論します。たとえば、GPT-3 プロンプトでは、事前トレーニング済みの言語モデル タスク プロンプトが与えられると、モデルは追加のトレーニングやパラメーターの勾配更新を行わずに応答を完了できます。さらに、Brown らは、モデルのコンテキスト (入力) でいくつかの入出力例をプロンプト (前置き) として提示し、モデルに未知の推論タスクを実行するように求める、少数ショットのプロンプトを提案しました。図 1 にプロンプトの例を示します。 モデルがランダムなパフォーマンスを持ち、一定のスケールに達すると、小さなサンプルプロンプトでタスクを実行できるようになり、新たな機能が現れ、モデルのパフォーマンスはランダムなパフォーマンスよりもはるかに高くなります。下の図は、5 つの言語モデル ファミリ (LaMDA、GPT-3、Gopher、Chinchilla、PaLM) の 8 つの出現機能を示しています。 BIG-Bench: 図 2A ~ D は、200 を超える言語モデル評価ベンチマークのスイートである BIG-Bench からの 4 つの出現する少数ショットプロンプトタスクを示しています。図 2A は、3 桁の数字の加算と減算、および 2 桁の数字の乗算をテストする算術ベンチマークを示しています。表 1 は、BIG-Bench のさらに新しい機能を示しています。 強化されたプロンプト戦略少数ショットのヒントは現在、大規模な言語モデルと対話する最も一般的な方法ですが、最近の研究では、言語モデルの機能をさらに強化するための他のヒントや微調整戦略がいくつか提案されています。十分に大きなモデルに適用する前に改善が見られなかったり、有害であったりする技術は、新たな機能であるとみなされます。 多段階推論: 推論タスク、特に多段階推論を伴うタスクは、言語モデルと NLP モデルにとって常に大きな課題でした。思考連鎖プロンプトと呼ばれる最近の戦略により、言語モデルは、最終的な答えを出す前に一連の中間ステップを生成するように誘導することで、このような問題を解決できるようになります。図 3A に示すように、1023 トレーニング FLOP (約 100B パラメータ) にスケールすると、思考連鎖プロンプトは中間ステップのない標準プロンプトよりも優れたパフォーマンスを発揮します。 命令の追跡: 図 3B に示すように、Wei らは、トレーニング FLOP が 7 · 10^21 (80 億のパラメータ) 以下の場合、命令の微調整手法によってモデルのパフォーマンスが低下し、トレーニング FLOP が 10^23 (約 1000 億のパラメータ) に拡張された場合にのみパフォーマンスが向上することを発見しました。 プログラム実行: 図 3C に示すように、8 ビット加算のドメイン内評価では、スクラッチパッドの使用は、約 9·10^19 FLOP (40M パラメータ) 以上のモデルのトレーニングにのみ役立ちます。図 3D は、これらのモデルがドメイン外 9 ビット加算にも一般化できることを示しています。これは、約 1.3·10^20 のトレーニング FLOP (100M パラメータ) で発生します。 この論文では、これまで特定の計算規模でのみ意味のあるパフォーマンスが観察されてきた言語モデルの出現力について説明します。このモデルの新たな機能は、さまざまな言語モデル、タスク タイプ、実験シナリオにまたがることができます。この出現の存在は、追加のスケーリングによって言語モデルの機能がさらに拡張できることを意味します。この能力は最近発見された言語モデルの拡張の結果であり、それがどのように出現するか、そしてさらなる拡張がより多くの能力の出現につながるかどうかは、NLP 分野における将来の重要な研究方向となる可能性があります。 詳細については、原文論文を参照してください。 |
<<: Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ
>>: スタンフォード大学のコンピュータサイエンス博士による新しい研究: 新しいアテンションは 2 ~ 4 倍高速化、BERT シングルノードトレーニングは最速
欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...
[[432622]] 【51CTO.com クイック翻訳】はじめにこのプロジェクトでは、簡単なコード...
[[416318]]最近、世界インターネット会議およびインターネット開発フォーラム「人工知能:新たな...
21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...
[[220586]]編纂者:ウェンミン、ダ・ジェチョン、ティエンペイ最も広く使用されている機械学習手...
著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...
数日前、TikTokで、ある親がTikTokの特殊効果を使って子供の年齢と容姿を計測する動画を見まし...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
この記事では、Xiaohongshu プッシュ検索シナリオの完全な GPU 構築プロセスにおけるモデ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...