近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデルを拡張すると、さまざまな下流の NLP タスクでパフォーマンスとサンプル効率が向上する可能性があることはよく知られています。多くの場合、スケーリングがパフォーマンスに与える影響はスケーリングの法則によって予測できることが多く、大多数の研究者は予測可能な現象を研究してきました。 それに対して、「大規模言語モデルの創発能力」という論文では、ジェフ・ディーン氏やパーシー・リャン氏を含む16人の研究者が、大規模モデルの予測不可能な現象について議論し、それを大規模言語モデルの創発能力と呼んだ。いわゆる創発とは、いくつかの現象が小さなモデルには存在しないが、大きなモデルには存在することを意味します。彼らは、このモデルの能力は創発的であると考えています。 アイデアとしての創発は、物理学、生物学、コンピューター サイエンスなどの分野で長い間議論されてきました。この論文は、スタインハートの研究を引用し、ノーベル賞を受賞した物理学者フィリップ アンダーソンの 1972 年の論文「More Is Different」に根ざした創発の一般的な定義から始まります。 この論文では、トレーニングの計算とモデル パラメータの観点から測定されたモデル サイズの出現について説明します。具体的には、大規模言語モデルの出現能力を、小規模モデルには存在しないが大規模モデルには存在する能力として定義します。したがって、小規模モデルのパフォーマンス向上を単純に推測するだけでは、大規模モデルを予測することはできません。この研究では、さまざまな先行研究で観察されたモデルの創発能力を調査し、それらを少数ショットの手がかりや拡張された手がかりなどの設定に分類します。 このモデルの新たな能力は、これらの能力がなぜ獲得されるのか、そしてより大きなサイズがより多くの新たな能力を獲得するかどうかについての将来の研究を促し、この研究の重要性を強調します。 論文アドレス: https://arxiv.org/pdf/2206.07682.pdf 小規模サンプルプロンプトタスクこの論文ではまず、キューイングパラダイムにおける創発的な力について議論します。たとえば、GPT-3 プロンプトでは、事前トレーニング済みの言語モデル タスク プロンプトが与えられると、モデルは追加のトレーニングやパラメーターの勾配更新を行わずに応答を完了できます。さらに、Brown らは、モデルのコンテキスト (入力) でいくつかの入出力例をプロンプト (前置き) として提示し、モデルに未知の推論タスクを実行するように求める、少数ショットのプロンプトを提案しました。図 1 にプロンプトの例を示します。 モデルがランダムなパフォーマンスを持ち、一定のスケールに達すると、小さなサンプルプロンプトでタスクを実行できるようになり、新たな機能が現れ、モデルのパフォーマンスはランダムなパフォーマンスよりもはるかに高くなります。下の図は、5 つの言語モデル ファミリ (LaMDA、GPT-3、Gopher、Chinchilla、PaLM) の 8 つの出現機能を示しています。 BIG-Bench: 図 2A ~ D は、200 を超える言語モデル評価ベンチマークのスイートである BIG-Bench からの 4 つの出現する少数ショットプロンプトタスクを示しています。図 2A は、3 桁の数字の加算と減算、および 2 桁の数字の乗算をテストする算術ベンチマークを示しています。表 1 は、BIG-Bench のさらに新しい機能を示しています。 強化されたプロンプト戦略少数ショットのヒントは現在、大規模な言語モデルと対話する最も一般的な方法ですが、最近の研究では、言語モデルの機能をさらに強化するための他のヒントや微調整戦略がいくつか提案されています。十分に大きなモデルに適用する前に改善が見られなかったり、有害であったりする技術は、新たな機能であるとみなされます。 多段階推論: 推論タスク、特に多段階推論を伴うタスクは、言語モデルと NLP モデルにとって常に大きな課題でした。思考連鎖プロンプトと呼ばれる最近の戦略により、言語モデルは、最終的な答えを出す前に一連の中間ステップを生成するように誘導することで、このような問題を解決できるようになります。図 3A に示すように、1023 トレーニング FLOP (約 100B パラメータ) にスケールすると、思考連鎖プロンプトは中間ステップのない標準プロンプトよりも優れたパフォーマンスを発揮します。 命令の追跡: 図 3B に示すように、Wei らは、トレーニング FLOP が 7 · 10^21 (80 億のパラメータ) 以下の場合、命令の微調整手法によってモデルのパフォーマンスが低下し、トレーニング FLOP が 10^23 (約 1000 億のパラメータ) に拡張された場合にのみパフォーマンスが向上することを発見しました。 プログラム実行: 図 3C に示すように、8 ビット加算のドメイン内評価では、スクラッチパッドの使用は、約 9·10^19 FLOP (40M パラメータ) 以上のモデルのトレーニングにのみ役立ちます。図 3D は、これらのモデルがドメイン外 9 ビット加算にも一般化できることを示しています。これは、約 1.3·10^20 のトレーニング FLOP (100M パラメータ) で発生します。 この論文では、これまで特定の計算規模でのみ意味のあるパフォーマンスが観察されてきた言語モデルの出現力について説明します。このモデルの新たな機能は、さまざまな言語モデル、タスク タイプ、実験シナリオにまたがることができます。この出現の存在は、追加のスケーリングによって言語モデルの機能がさらに拡張できることを意味します。この能力は最近発見された言語モデルの拡張の結果であり、それがどのように出現するか、そしてさらなる拡張がより多くの能力の出現につながるかどうかは、NLP 分野における将来の重要な研究方向となる可能性があります。 詳細については、原文論文を参照してください。 |
<<: Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ
>>: スタンフォード大学のコンピュータサイエンス博士による新しい研究: 新しいアテンションは 2 ~ 4 倍高速化、BERT シングルノードトレーニングは最速
この写真を見ると怖いと感じますか? [[211553]]これは、将来人間がロボットに物乞いをするよう...
メタの株価は木曜日の時間外取引で14%近く上昇し、史上最高値に達したが、同社は初の配当を発表した。最...
動画の途切れや解像度の低さは視聴者の視聴体験を著しく低下させ、広告主の利益にも悪影響を及ぼします。現...
最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...
バーチャルリアリティヘッドセットは何年も前から市場に出回っており、多くのティーンエイジャーもこれらの...
[[203607]]教育革命が静かに起こっています。この革命はトップダウンの制度改革ではなく、ボトム...
機械学習と人工知能は、今日の IT プロフェッショナルの間でホットな話題であり、エンタープライズ デ...
ロボット工学ジャーナリストで専門家のクリス・ミドルトン氏は、早ければ2070年には私たちの体全体がロ...
選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...
著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...
数学的推論は、現代の大規模言語モデル (LLM) の重要な機能です。この分野では最近進歩が見られます...
今日、海賊行為は国際法、世界貿易、そして船員の安全と安心に対する複雑な課題であり続けています。電子機...
この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...