言語モデルは、自然言語処理の分野における研究と実践に大きな変化をもたらしました。近年、大型モデルは多くの分野で重要な進歩を遂げてきました。下流のタスクで微調整する必要がなく、適切な指示やプロンプトを通じて優れた、時には驚くべきパフォーマンスを達成できます。 例えば、GPT-3 [1]はラブレターを書いたり、脚本を書いたり、データを使って複雑な数学的推論問題を解いたりすることができ、PaLM [2]はジョークを解釈することができます。上記の例は、大規模モデルの機能のほんの一角に過ぎません。大規模モデルの機能を使用して多くのアプリケーションが開発されています。関連するデモの多くは、OpenAIのWebサイト[3]で見ることができます。ただし、これらの機能が小規模モデルに反映されることはほとんどありません。 今回紹介した論文では、小さなモデルにはないが大きなモデルには備わっている能力を創発能力と呼んでおり、これは規模が一定レベルに達したときにモデルが突如獲得する能力を意味しています。これは量的変化が質的変化につながるプロセスです。 新たな能力の出現を予測することは困難です。モデルのサイズが大きくなるにつれて、なぜ突然特定の機能を獲得するのかは未解決の問題であり、答えを得るにはさらなる研究が必要です。この記事では、著者が大規模モデルの理解に関する最近の進歩を整理し、関連する考えをいくつか示し、皆さんと議論することを楽しみにしています。 関連論文:
大規模モデルの新たな力大型モデルとは何ですか?どのくらいのサイズが「大きい」とみなされますか?これには明確な定義はありません。 一般的に言えば、モデル パラメータは、小規模なモデルとは大幅に異なるゼロ ショット機能や少数ショット機能を示すまでに、数十億に達する必要がある場合があります。近年、一連のタスクで SOTA パフォーマンスを達成した、数千億、数兆のパラメータを持つモデルが数多く登場しています。一部のタスクでは、モデルのパフォーマンスはスケールの拡大とともに確実に向上しますが、他のタスクでは、モデルは特定のスケールでパフォーマンスが突然向上します。異なるタスクを分類するために2つの指標が使用できる[4]。
これら2つの指標はモデルサイズとモデル性能の関数である。具体的な計算の詳細については[4]を参照のこと。下の図は、直線性が高く、ブレークスルー性の高いタスクの例を示しています。 線形性の高いタスクのほとんどは知識ベースであり、事実に関する質問に答えるなど、トレーニング データに存在する情報を記憶することに主に依存しています。大規模なモデルは通常、より多くのデータでトレーニングされ、より多くの知識を記憶できるため、モデルのサイズが大きくなるにつれて、そのようなタスクで着実な改善が見られます。高いブレークスルー性のタスクには、数学的推論など、正しい答えに到達するために複数の異なる能力を使用したり、複数のステップを実行したりする必要がある、より複雑なタスクが含まれます。小型モデルでは、この種のミッションを実行するために必要な完全な機能を備えていません。 次の図は、いくつかの高いブレークスルーネスタスクにおけるさまざまなモデルのパフォーマンスをさらに示しています。 特定のモデル サイズに達するまでは、これらのタスクにおけるモデルのパフォーマンスはランダムですが、特定のサイズに達した後は大幅に改善されます。 それはスムーズですか、それともエマージェントですか?これまで見てきたように、モデルのサイズがある程度大きくなると、モデルは突然特定の機能を獲得します。タスク固有の指標の観点から見ると、これらの機能は出現しますが、別の観点から見ると、モデル機能の根本的な変化はよりスムーズです。この論文では、(1)より滑らかな指標の使用、(2)複雑なタスクを複数のサブタスクに分解するという2つの観点について説明します。 次の図 (a) は、いくつかの高いブレークスルーネスのタスクにおける真のターゲットの対数確率の変化曲線を示しています。真のターゲットの対数確率は、モデル スケールが増加するにつれて徐々に増加します。 図(b)は、多肢選択タスクの場合、モデルサイズが大きくなるにつれて、正解の対数確率が徐々に増加するのに対し、誤答の対数確率はあるスケールまでは徐々に増加し、その後は平坦になる傾向があることを示しています。このスケールを超えると、正解の確率と不正解の確率の差が広がり、モデルのパフォーマンスが大幅に向上しました。 さらに、特定のタスクでは、Exact Match と BLEU を使用してモデルのパフォーマンスを評価できると仮定すると、BLEU は Exact Match よりも滑らかな指標であり、異なる指標を使用して確認される傾向には大きな違いがある可能性があります。 一部のタスクでは、モデルは異なるスケールでタスクを実行する部分的な機能を獲得する場合があります。次の画像は、一連の絵文字から映画の名前を推測するタスクを示しています。 モデルが、ある規模で映画のタイトルを推測し始め、より大きな規模で絵文字の意味を認識し、最大規模で正しい答えを生成していることがわかります。 大規模モデルはタスクがどのように形式化されるかに敏感であるモデルが能力の突然の改善を示す規模は、タスクがどのように形式化されているかによっても異なります。例えば、標準的なプロンプトを使用して複雑な数学的推論タスクを質問応答タスクとして扱う場合、モデルサイズが大きくなるとパフォーマンスの向上は非常に限られます。ただし、次の図に示すように思考連鎖プロンプト[5]を使用し、多段階推論タスクとして扱うと、ある規模では大幅なパフォーマンスの向上が見られます。 さらに研究者たちは、「ステップごとに考えてみましょう」という簡単なプロンプトを追加することで、下の図に示すように、GPT-3のゼロショット推論能力を大幅に向上できることを発見しました[6]。 このことから私たちが思いつくのは、大規模なモデルではタスクをうまく実行できないことがあるということであり、それは実際にうまく実行できないからではなく、その能力を刺激する適切な方法が必要であるからである。 モデルが大きいほど、より強力になるのでしょうか?これまでの議論から、モデルのサイズが大きくなるにつれてパフォーマンスが確実に向上するという直感が得られますが、本当にそうなのでしょうか?実際、いくつかのタスクでは、次の図に示すように、モデルが大きくなるとパフォーマンスが低下する可能性があります。 ニューヨーク大学の研究者数名も、モデルが大きくなるにつれてパフォーマンスが低下するタスクを見つけるためのコンテストを主催した。 たとえば、質問応答タスクでは、質問しながら自分の信念を追加すると、大規模なモデルがより影響を受けやすくなります。興味のある学生は注目してください。 要約と考察
梅一奇氏はかつて「大学は大きな建物がある場所ではなく、偉大な師匠がいる場所だ」と言いました。私はこの記事を、あまり適切ではない例えで締めくくりたいと思います。大きなモデルはパラメータがある場所ではなく、能力がある場所です。 |
<<: 人工知能に関する 10 の質問: ますます普及する AI の将来はどこにあるのでしょうか?
>>: 速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?
ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...
現在、人工知能(AI)と機械学習は私たちの日常生活に入り込み、徐々に私たちの生活を変えつつあります。...
4月7日、権威あるAIベンチマーク評価組織MLPerfが最新の推論パフォーマンスリストを公開した。 ...
過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...
[[255856]]画像ソース @Visual China人工知能の普及により、中国の親たちの不安...
1. 5G上のAI 2022年には産業用AIとAI-on-5G IoTアプリケーションが主流になるで...
Nvidia の GPU が世界を席巻しています。テクノロジー企業は、Nvidia のスーパーコンピ...
「スマートホーム」という用語は何年も前から存在しているようですが、業界自体は比較的初期段階にあります...