Google とスタンフォード大学が共同で記事「なぜ大規模なモデルを使用する必要があるのか?」を発表しました。

言語モデルは、自然言語処理の分野における研究と実践に大きな変化をもたらしました。近年、大型モデルは多くの分野で重要な進歩を遂げてきました。下流のタスクで微調整する必要がなく、適切な指示やプロンプトを通じて優れた、時には驚くべきパフォーマンスを達成できます。

例えば、GPT-3 [1]はラブレターを書いたり、脚本を書いたり、データを使って複雑な数学的推論問題を解いたりすることができ、PaLM [2]はジョークを解釈することができます。上記の例は、大規模モデルの機能のほんの一角に過ぎません。大規模モデルの機能を使用して多くのアプリケーションが開発されています。関連するデモの多くは、OpenAIのWebサイト[3]で見ることができます。ただし、これらの機能が小規模モデルに反映されることはほとんどありません。

今回紹介した論文では、小さなモデルにはないが大きなモデルには備わっている能力を創発能力と呼んでおり、これは規模が一定レベルに達したときにモデルが突如獲得する能力を意味しています。これは量的変化が質的変化につながるプロセスです。

新たな能力の出現を予測することは困難です。モデルのサイズが大きくなるにつれて、なぜ突然特定の機能を獲得するのかは未解決の問題であり、答えを得るにはさらなる研究が必要です。この記事では、著者が大規模モデルの理解に関する最近の進歩を整理し、関連する考えをいくつか示し、皆さんと議論することを楽しみにしています。

大規模モデルの新たな力

大型モデルとは何ですか？どのくらいのサイズが「大きい」とみなされますか?これには明確な定義はありません。

一般的に言えば、モデルパラメータは、小規模なモデルとは大幅に異なるゼロショット機能や少数ショット機能を示すまでに、数十億に達する必要がある場合があります。近年、一連のタスクで SOTA パフォーマンスを達成した、数千億、数兆のパラメータを持つモデルが数多く登場しています。一部のタスクでは、モデルのパフォーマンスはスケールの拡大とともに確実に向上しますが、他のタスクでは、モデルは特定のスケールでパフォーマンスが突然向上します。異なるタスクを分類するために2つの指標が使用できる[4]。

直線性: モデルのサイズが大きくなるにつれて、タスクにおけるモデルのパフォーマンスがどの程度確実に向上するかを測定することを目的としています。

ブレークスルー性: モデルのサイズが臨界値を超えた場合に、タスクをどれだけうまく学習できるかを測定することを目的としています。

これら2つの指標はモデルサイズとモデル性能の関数である。具体的な計算の詳細については[4]を参照のこと。下の図は、直線性が高く、ブレークスルー性の高いタスクの例を示しています。

線形性の高いタスクのほとんどは知識ベースであり、事実に関する質問に答えるなど、トレーニングデータに存在する情報を記憶することに主に依存しています。大規模なモデルは通常、より多くのデータでトレーニングされ、より多くの知識を記憶できるため、モデルのサイズが大きくなるにつれて、そのようなタスクで着実な改善が見られます。高いブレークスルー性のタスクには、数学的推論など、正しい答えに到達するために複数の異なる能力を使用したり、複数のステップを実行したりする必要がある、より複雑なタスクが含まれます。小型モデルでは、この種のミッションを実行するために必要な完全な機能を備えていません。

次の図は、いくつかの高いブレークスルーネスタスクにおけるさまざまなモデルのパフォーマンスをさらに示しています。

特定のモデルサイズに達するまでは、これらのタスクにおけるモデルのパフォーマンスはランダムですが、特定のサイズに達した後は大幅に改善されます。

それはスムーズですか、それともエマージェントですか?

これまで見てきたように、モデルのサイズがある程度大きくなると、モデルは突然特定の機能を獲得します。タスク固有の指標の観点から見ると、これらの機能は出現しますが、別の観点から見ると、モデル機能の根本的な変化はよりスムーズです。この論文では、(1)より滑らかな指標の使用、(2)複雑なタスクを複数のサブタスクに分解するという2つの観点について説明します。

次の図 (a) は、いくつかの高いブレークスルーネスのタスクにおける真のターゲットの対数確率の変化曲線を示しています。真のターゲットの対数確率は、モデルスケールが増加するにつれて徐々に増加します。

図(b)は、多肢選択タスクの場合、モデルサイズが大きくなるにつれて、正解の対数確率が徐々に増加するのに対し、誤答の対数確率はあるスケールまでは徐々に増加し、その後は平坦になる傾向があることを示しています。このスケールを超えると、正解の確率と不正解の確率の差が広がり、モデルのパフォーマンスが大幅に向上しました。

さらに、特定のタスクでは、Exact Match と BLEU を使用してモデルのパフォーマンスを評価できると仮定すると、BLEU は Exact Match よりも滑らかな指標であり、異なる指標を使用して確認される傾向には大きな違いがある可能性があります。

一部のタスクでは、モデルは異なるスケールでタスクを実行する部分的な機能を獲得する場合があります。次の画像は、一連の絵文字から映画の名前を推測するタスクを示しています。

モデルが、ある規模で映画のタイトルを推測し始め、より大きな規模で絵文字の意味を認識し、最大規模で正しい答えを生成していることがわかります。

大規模モデルはタスクがどのように形式化されるかに敏感である

モデルが能力の突然の改善を示す規模は、タスクがどのように形式化されているかによっても異なります。例えば、標準的なプロンプトを使用して複雑な数学的推論タスクを質問応答タスクとして扱う場合、モデルサイズが大きくなるとパフォーマンスの向上は非常に限られます。ただし、次の図に示すように思考連鎖プロンプト[5]を使用し、多段階推論タスクとして扱うと、ある規模では大幅なパフォーマンスの向上が見られます。

さらに研究者たちは、「ステップごとに考えてみましょう」という簡単なプロンプトを追加することで、下の図に示すように、GPT-3のゼロショット推論能力を大幅に向上できることを発見しました[6]。

このことから私たちが思いつくのは、大規模なモデルではタスクをうまく実行できないことがあるということであり、それは実際にうまく実行できないからではなく、その能力を刺激する適切な方法が必要であるからである。

モデルが大きいほど、より強力になるのでしょうか?

これまでの議論から、モデルのサイズが大きくなるにつれてパフォーマンスが確実に向上するという直感が得られますが、本当にそうなのでしょうか?実際、いくつかのタスクでは、次の図に示すように、モデルが大きくなるとパフォーマンスが低下する可能性があります。

ニューヨーク大学の研究者数名も、モデルが大きくなるにつれてパフォーマンスが低下するタスクを見つけるためのコンテストを主催した。

たとえば、質問応答タスクでは、質問しながら自分の信念を追加すると、大規模なモデルがより影響を受けやすくなります。興味のある学生は注目してください。

要約と考察

ほとんどのタスクでは、モデルのサイズが大きくなるにつれてモデルのパフォーマンスは向上しますが、反例もいくつかあります。この種のモデルの動作をよりよく理解するには、さらなる研究が必要です。

大規模モデルの機能は適切な方法で刺激される必要があります。

大きなモデルは本当に推論を行っているのでしょうか?これまで見てきたように、「ステップごとに考えてみましょう」というプロンプトを追加することで、大規模モデルは数学的推論タスクに対して多段階の推論を実行し、満足のいく結果を達成できます。モデルは人間の推論能力を獲得したようです。ただし、以下に示すように、GPT-3 に意味のない質問を与えて、複数ステップの推論を実行するように要求すると、GPT-3 は推論を行っているように見えますが、実際には意味のない出力を生成します。諺にもあるように、「ゴミを入れればゴミが出てくる」。それに比べて、人間は質問が合理的かどうか、つまり現在の質問が与えられた条件下で答えられるかどうかを判断することができます。著者は、「段階的に考えましょう」が機能する根本的な理由は、GPT-3 がトレーニング中に多くの類似データを見ているためだと考えています。GPT-3 が行うことは、前のトークンに基づいて次のトークンを予測することだけであり、それでも人間の思考方法とは根本的に異なります。もちろん、GPT-3 に適切なプロンプトを与えて質問が妥当かどうかを判断すると、ある程度はそれができるかもしれませんが、それはおそらく「考える」ことや「推論する」ことにはまだ程遠く、単にモデルのサイズを大きくするだけでは解決できないでしょう。モデルは人間のように考える必要はないかもしれませんが、モデルのサイズを大きくする以外の方法を探るには、さらなる研究が必要です。

システム 1 かシステム 2 か?人間の脳には連携して機能する 2 つのシステムがあります。システム 1 (直感) は高速で自動的であり、システム 2 (合理性) は低速で制御されています。多数の実験により、人々は判断や決定をする際に直感を好む一方で、合理性は直感によって引き起こされる偏見を修正できることがわかっています。現在のモデルのほとんどは、システム 1 またはシステム 2 に基づいて設計されています。将来のモデルは両方のシステムに基づいて設計できますか?

大規模モデルの時代のためのクエリ言語。これまで、知識とデータはデータベースとナレッジグラフに保存されていました。リレーショナルデータベースのクエリには SQL を使用し、ナレッジグラフのクエリには SPARQL を使用できます。では、ビッグモデルの知識と機能を呼び出すには、どのようなクエリ言語を使用すればよいのでしょうか。

梅一奇氏はかつて「大学は大きな建物がある場所ではなく、偉大な師匠がいる場所だ」と言いました。私はこの記事を、あまり適切ではない例えで締めくくりたいと思います。大きなモデルはパラメータがある場所ではなく、能力がある場所です。

<<: 人工知能に関する 10 の質問: ますます普及する AI の将来はどこにあるのでしょうか?

>>: 速報です！李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか？