OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

[[432741]]

小学生の頃、「暗算日常練習」の文章題に戸惑ったトラウマをまだ覚えていますか？

ぜひ一度お試しください！

「シャオミンは30分ごとにボトル入りの水を飲みます。通常の数独パズルを解くのに45分かかります。非常に難しい数独を解くのにその4倍の時間がかかります。非常に難しい数独を解いている間に、彼は何本のボトル入りの水を飲んだでしょうか？」

そんなに難しいことではありません。

しかし今回、OpenAI はこれらの応用問題を利用して、自社の主力モデルである GPT-3 をテストしたいと考えています。

結果は非常に有望です!

この新しい方法は、小学校の算数の問題を解くことができます。60億のパラメータを持つGPT-3モデルは、この新しい方法を採用しており、その精度は直接2倍になり、1750億のパラメータと微調整方法を備えたGPT-3モデルに追いつきました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、新しい方法を使用したGPT-3は同じ質問で55点を獲得できたことです。これは、人間の小学生のレベルの約90％に相当します。

GPT-3は文系に偏っており、科学を軽視している

OpenAI の GPT-3 は、1750 億という「大きな」パラメータを備えているため、非常に印象的です。

GPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、GPT-3 のような「大きな」モデルは、文系は得意だが理系は苦手という典型的な偏った学生です。

小学校の算数の文章題を解くなど、正確な多段階の推論ができることを期待しているなら、それは諦めてください。

理由は何ですか？

実際、問題は、GPT-3 は正しい解決策のルールを模倣できるものの、論理的に重大なエラーを起こすことが多いことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

伝統的なアプローチ：微調整

現在、大規模モデルが分野をマスターできるようにする最も一般的な方法は、指定された分野で大規模モデルを微調整することです。

微調整は、すべてのトレーニングトークンにわたるクロスエントロピー損失を最小限に抑えるためにモデルパラメータを更新することによって実行されます。 1750 億のパラメータを持つモデルが、他のより小さなモデルよりも優れていることは明らかです。

異なるサイズのトレーニングセットで微調整した後のさまざまなGPT-3モデルのパフォーマンスをテストする

対数線形傾向を想定すると、完全な GSM8K トレーニングセットを使用する場合、80% の解像度を達成するには、10^16 (10 兆) 個のパラメータを持つモデルが必要です。

ただし、モデルのパフォーマンスは対数線形傾向に従いません。175B モデルの場合、80% の解決率を達成するには、少なくとも 2 桁多いトレーニングデータが必要です。

GSM8K トレーニングセットで 6B モデルを微調整した後、モデルが 1 回の推測 (左) または 100 回の推測 (右) を実行できる場合の回答の精度。

ここで、test@N は、モデルが各問題に対して N 回の個別の推測を行うことを許可されているときに、少なくとも 1 回は正しく解決される問題の割合を表します。

test@1 のパフォーマンスはほぼ単調に増加しますが、test@100 では、エポック数が増加すると、test@1 よりもパフォーマンスが急速に低下します。

適切なカバレッジを持つモデルを選択することが、バリデーターのトレーニングを成功させる鍵となります。経験的に、test@100 のパフォーマンスは最初の数エポック以内にピークに達します。

さらに、最終的な回答を出力する前に、モデルが完全な自然言語ソリューションを生成することが重要です。 6B モデルを調整して、中間ステップなしで最終回答を直接出力するようにすると、パフォーマンスは 20.6% から 5.2% に急激に低下します。

AIに「論理」を与える魔法の武器「検証者」

明らかに、「微調整」では GPT-3 が論理的推論を学習することはできません。

そこで今回は、OpenAIはどのようにしてGPT-3に「ロジック」を持たせたのか？

答えは「バリデーター」と呼ばれるものです。

この検証ツールをトレーニングする目的は、これを使用して多数の候補ソリューションから最適なソリューションを選択することです。

同時に、OpenAIは「検証者」の性能を評価するために、新しい「GSM8Kデータセット」を収集し、研究を容易にするために公開しました。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

では、「バリデーター」はどのように機能するのでしょうか?

検証者：すべての失敗は学習経験である

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。

検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。しかし実際には、一部のソリューションでは、正しい最終答えに到達するために誤った推論を使用し、誤検知につながります。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

まず、トレーニングセットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

この分野の基本的なスキルを習得するには 2 エポックのトレーニングで十分であるため、ジェネレーターは 2 エポックのみトレーニングされます。トレーニングを長時間実行すると、結果として得られるソリューションは過剰適合になります。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

GSM8Kデータセット

新しい解決策ができたので、この試験の「テスト用紙」を見てみましょう。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。もちろん。 OpenAIは、中学生にとってこれらの問題は問題ではないと述べた。

データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ～ 8 の計算ステップが必要です。

高品質: GSM8K の質問はすべて手動で設計されており、間違った質問が発生しないようにします。

高い多様性: GSM8K の質問は比較的独自性があるように設計されており、同じ言語テンプレートからの質問や表面的な詳細のみが異なる質問は避けられます。

中程度の難易度: GSM8K での質問の分布は、大規模な SOTA 言語モデルにとっては困難ですが、完全に扱いにくいわけではありません。これらの問題は、初等代数学のレベルを超える概念を必要とせず、大部分は変数を明示的に定義しなくても解決できます。

自然言語ソリューション: GSM8K のソリューションは、純粋な数式ではなく自然言語で記述されます。モデルによって生成されたソリューションは、人間にとっても理解しやすくなります。さらに、OpenAI は、大規模言語モデルの内部独白の特性を明らかにできることを期待しています。

GSM8Kの問題例3つと計算の赤い注釈

微調整と検証

OpenAI は、GSM8K データセットで、新しい方法「検証」とベースライン方法「微調整」によって生成された回答をテストしました。

結果は素晴らしいです！

完全なトレーニングセットでは、「検証」メソッドを使用した 60 億のパラメータモデルは、「微調整」メソッドを使用した 1,750 億のパラメータモデルよりもわずかに優れており、モデルサイズの 30 倍の増加にほぼ相当するパフォーマンスの向上が見られます。

しかし、大きなモデルがすべて悪いわけではありません。「検証」を使用する 1,750 億のパラメータモデルは、「検証」方法を使用する 60 億のパラメータモデルよりも学習速度が速く、微調整ベースラインを超えるために必要なトレーニング問題は少なくなります。

OpenAI は、データセットが十分に大きい限り、大規模なモデルは「検証」によってパフォーマンスを大幅に向上できることを発見しました。

ただし、データセットが小さすぎる場合、検証ツールは、基本的な数学的推論のより有用な特性を学習するのではなく、トレーニングセットからの回答を記憶することによって過剰適合してしまいます。

したがって、現在の結果から推測すると、「検証」は追加データにさらに効果的に拡張できると思われます。

例えば

理論については説明したので、実践的な作業を行って、新しい方法「検証」によって生成された回答をベースライン方法「微調整」と比較してみましょう。

質問: 「リチャード、ジェリー、ロバートは 60 個のチェリーを共有しています。ロバートが 30 個のチェリーを持っていて、リチャードより 10 個多い場合、ロバートはジェリーより何個多いチェリーを持っているでしょうか?」

175B 検証: 正解

175B 微調整: エラー

6B検証: 正解

6B 微調整: エラー

新しい方法「検証」は、ベースライン方法「微調整」と比較して、数学の文章題の解答において大幅な改善を実現したことがわかります。

しかし、「検証」の方法は完璧ではなく、正しく行われないという問題もあります。結局のところ、6B 小型モデルの制限も考慮する必要があります。

冒頭の質問を覚えていますか?

「ジョンは 30 分ごとにボトル入りの水を飲みます。通常の数独パズルを解くのに 45 分かかります。非常に難しい数独パズルを解くのに 4 倍の時間がかかります。非常に難しい数独パズルを解いている間に、何本のボトル入りの水を飲んだでしょうか。」

175B 検証: 正解

175B 微調整: エラー

6B 検証: エラー

6B 微調整: エラー

もちろん、問題がもう少し難しい場合は、言語モデルはすべて失敗します。

たとえば、次のようになります。

「デブラは、1 日のうちに何匹のミツバチが巣箱を出入りするか観察するために巣箱を監視しています。最初の 6 時間で 30 匹のミツバチが巣箱から出ていくのをデブラは目撃し、次の 6 時間でその半分のミツバチが戻ってくるのをデブラは目撃しました。次の 6 時間で、最初の 2 倍のミツバチが巣箱から出ていくのをデブラは目撃しました。そして、以前に出ていたミツバチは、まだ戻っていなければ、次の 6 時間で巣箱に戻ってきました。デブラは、その日の最後の 6 時間で何匹のミツバチが巣箱に戻ってくるのを目撃したのでしょうか。」

175B 検証: エラー

175B 微調整: エラー

6B 検証: エラー

6B 微調整: エラー

AIが数学の問題を解くには、まだ長い道のりがあるようです。

あなたも試してみませんか？

<<: TensorFlow を使用して機械学習モデルを構築する方法

>>: GANは音声を使って画像を生成できるようになった