OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

[[432741]]

小学生の頃、「暗算日常練習」の文章題に戸惑ったトラウマをまだ覚えていますか?

ぜひ一度お試しください!

「シャオミンは30分ごとにボトル入りの水を飲みます。通常の数独パズルを解くのに45分かかります。非常に難しい数独を解くのにその4倍の時間がかかります。非常に難しい数独を解いている間に、彼は何本のボトル入りの水を飲んだでしょうか?」

そんなに難しいことではありません。

しかし今回、OpenAI はこれらの応用問題を利用して、自社の主力モデルである GPT-3 をテストしたいと考えています。

結果は非常に有望です!

この新しい方法は、小学校の算数の問題を解くことができます。60億のパラメータを持つGPT-3モデルは、この新しい方法を採用しており、その精度は直接2倍になり、1750億のパラメータと微調整方法を備えたGPT-3モデルに追いつきました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、新しい方法を使用したGPT-3は同じ質問で55点を獲得できたことです。これは、人間の小学生のレベルの約90%に相当します。

GPT-3は文系に偏っており、科学を軽視している

OpenAI の GPT-3 は、1750 億という「大きな」パラメータを備えているため、非常に印象的です。

GPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、GPT-3 のような「大きな」モデルは、文系は得意だが理系は苦手という典型的な偏った学生です。

小学校の算数の文章題を解くなど、正確な多段階の推論ができることを期待しているなら、それは諦めてください。

理由は何ですか?

実際、問題は、GPT-3 は正しい解決策のルールを模倣できるものの、論理的に重大なエラーを起こすことが多いことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

伝統的なアプローチ:微調整

現在、大規模モデルが分野をマスターできるようにする最も一般的な方法は、指定された分野で大規模モデルを微調整することです。

微調整は、すべてのトレーニング トークンにわたるクロス エントロピー損失を最小限に抑えるためにモデル パラメータを更新することによって実行されます。 1750 億のパラメータを持つモデルが、他のより小さなモデルよりも優れていることは明らかです。

異なるサイズのトレーニングセットで微調整した後のさまざまなGPT-3モデルのパフォーマンスをテストする

対数線形傾向を想定すると、完全な GSM8K トレーニング セットを使用する場合、80% の解像度を達成するには、10^16 (10 兆) 個のパラメータを持つモデルが必要です。

ただし、モデルのパフォーマンスは対数線形傾向に従いません。175B モデルの場合、80% の解決率を達成するには、少なくとも 2 桁多いトレーニング データが必要です。

GSM8K トレーニング セットで 6B モデルを微調整した後、モデルが 1 回の推測 (左) または 100 回の推測 (右) を実行できる場合の回答の精度。

ここで、test@N は、モデルが各問題に対して N 回の個別の推測を行うことを許可されているときに、少なくとも 1 回は正しく解決される問題の割合を表します。

test@1 のパフォーマンスはほぼ単調に増加しますが、test@100 では、エポック数が増加すると、test@1 よりもパフォーマンスが急速に低下します。

適切なカバレッジを持つモデルを選択することが、バリデーターのトレーニングを成功させる鍵となります。経験的に、test@100 のパフォーマンスは最初の数エポック以内にピークに達します。

さらに、最終的な回答を出力する前に、モデルが完全な自然言語ソリューションを生成することが重要です。 6B モデルを調整して、中間ステップなしで最終回答を直接出力するようにすると、パフォーマンスは 20.6% から 5.2% に急激に低下します。

AIに「論理」を与える魔法の武器「検証者」

明らかに、「微調整」では GPT-3 が論理的推論を学習することはできません。

そこで今回は、OpenAIはどのようにしてGPT-3に「ロジック」を持たせたのか?

答えは「バリデーター」と呼ばれるものです。

この検証ツールをトレーニングする目的は、これを使用して多数の候補ソリューションから最適なソリューションを選択することです。

同時に、OpenAIは「検証者」の性能を評価するために、新しい「GSM8Kデータセット」を収集し、研究を容易にするために公開しました。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

では、「バリデーター」はどのように機能するのでしょうか?

検証者:すべての失敗は学習経験である

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。

検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。しかし実際には、一部のソリューションでは、正しい最終答えに到達するために誤った推論を使用し、誤検知につながります。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

  1. まず、トレーニング セットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
  2. 各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
  3. 次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

この分野の基本的なスキルを習得するには 2 エポックのトレーニングで十分であるため、ジェネレーターは 2 エポックのみトレーニングされます。トレーニングを長時間実行すると、結果として得られるソリューションは過剰適合になります。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

GSM8Kデータセット

新しい解決策ができたので、この試験の「テスト用紙」を見てみましょう。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。もちろん。 OpenAIは、中学生にとってこれらの問題は問題ではないと述べた。

データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ~ 8 の計算ステップが必要です。

  • 高品質: GSM8K の質問はすべて手動で設計されており、間違った質問が発生しないようにします。
  • 高い多様性: GSM8K の質問は比較的独自性があるように設計されており、同じ言語テンプレートからの質問や表面的な詳細のみが異なる質問は避けられます。
  • 中程度の難易度: GSM8K での質問の分布は、大規模な SOTA 言語モデルにとっては困難ですが、完全に扱いにくいわけではありません。これらの問題は、初等代数学のレベルを超える概念を必要とせず、大部分は変数を明示的に定義しなくても解決できます。
  • 自然言語ソリューション: GSM8K のソリューションは、純粋な数式ではなく自然言語で記述されます。モデルによって生成されたソリューションは、人間にとっても理解しやすくなります。さらに、OpenAI は、大規模言語モデルの内部独白の特性を明らかにできることを期待しています。

GSM8Kの問題例3つと計算の赤い注釈

微調整と検証

OpenAI は、GSM8K データセットで、新しい方法「検証」とベースライン方法「微調整」によって生成された回答をテストしました。

結果は素晴らしいです!

完全なトレーニング セットでは、「検証」メソッドを使用した 60 億のパラメータ モデルは、「微調整」メソッドを使用した 1,750 億のパラメータ モデルよりもわずかに優れており、モデル サイズの 30 倍の増加にほぼ相当するパフォーマンスの向上が見られます。

しかし、大きなモデルがすべて悪いわけではありません。「検証」を使用する 1,750 億のパラメータ モデルは、「検証」方法を使用する 60 億のパラメータ モデルよりも学習速度が速く、微調整ベースラインを超えるために必要なトレーニング問題は少なくなります。

OpenAI は、データセットが十分に大きい限り、大規模なモデルは「検証」によってパフォーマンスを大幅に向上できることを発見しました。

ただし、データセットが小さすぎる場合、検証ツールは、基本的な数学的推論のより有用な特性を学習するのではなく、トレーニング セットからの回答を記憶することによって過剰適合してしまいます。

したがって、現在の結果から推測すると、「検証」は追加データにさらに効果的に拡張できると思われます。

例えば

理論については説明したので、実践的な作業を行って、新しい方法「検証」によって生成された回答をベースライン方法「微調整」と比較してみましょう。

質問: 「リチャード、ジェリー、ロバートは 60 個のチェリーを共有しています。ロバートが 30 個のチェリーを持っていて、リチャードより 10 個多い場合、ロバートはジェリーより何個多いチェリーを持っているでしょうか?」

175B 検証: 正解

175B 微調整: エラー

6B検証: 正解

6B 微調整: エラー

新しい方法「検証」は、ベースライン方法「微調整」と比較して、数学の文章題の解答において大幅な改善を実現したことがわかります。

しかし、「検証」の方法は完璧ではなく、正しく行われないという問題もあります。結局のところ、6B 小型モデルの制限も考慮する必要があります。

冒頭の質問を覚えていますか?

「ジョンは 30 分ごとにボトル入りの水を飲みます。通常の数独パズルを解くのに 45 分かかります。非常に難しい数独パズルを解くのに 4 倍の時間がかかります。非常に難しい数独パズルを解いている間に、何本のボトル入りの水を飲んだでしょうか。」

175B 検証: 正解

175B 微調整: エラー

6B 検証: エラー

6B 微調整: エラー

もちろん、問題がもう少し難しい場合は、言語モデルはすべて失敗します。

たとえば、次のようになります。

「デブラは、1 日のうちに何匹のミツバチが巣箱を出入りするか観察するために巣箱を監視しています。最初の 6 時間で 30 匹のミツバチが巣箱から出ていくのをデブラは目撃し、次の 6 時間でその半分のミツバチが戻ってくるのをデブラは目撃しました。次の 6 時間で、最初の 2 倍のミツバチが巣箱から出ていくのをデブラは目撃しました。そして、以前に出ていたミツバチは、まだ戻っていなければ、次の 6 時間で巣箱に戻ってきました。デブラは、その日の最後の 6 時間で何匹のミツバチが巣箱に戻ってくるのを目撃したのでしょうか。」

175B 検証: エラー

175B 微調整: エラー

6B 検証: エラー

6B 微調整: エラー

AIが数学の問題を解くには、まだ長い道のりがあるようです。

あなたも試してみませんか?

<<:  TensorFlow を使用して機械学習モデルを構築する方法

>>:  GANは音声を使って画像を生成できるようになった

ブログ    

推薦する

...

建物内の生体認証システム

新しい建物では、利用可能なリソースの最適化を最大限にしながら、セキュリティと有用かつ重要なデータを豊...

大規模製造企業におけるインテリジェントな意思決定シナリオの分析

1. 製造業の発展の現状まず、製造業企業の発展状況について紹介します。 1. 企業経営は直線的な発展...

調査によると、2024年は「AIメガネ」市場元年となる

AppleのVision Proヘッドセットは2024年第1四半期に発売される予定だが、業界の専門家...

OpenCV における KMeans アルゴリズムの紹介と応用

私は 51CTO アカデミーの講師、Jia Zhigang です。51CTO アカデミーの「4.20...

量子コンピューティングがサプライチェーン管理を改善する方法

サプライチェーン業務における量子コンピューティングのユースケースでは、意思決定モデル内の複雑で不可能...

...

このロボットは食べられますか?科学者は副作用なく食べても安全だと言っている

ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...

OpenAI と Mistral AI によって人気を博した MoE の背景にあるストーリーとは?ハイブリッドアーキテクチャの導入に関する包括的なガイド

専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このア...

ドローン配送がレイアウトブームを巻き起こす、普及するには2つのポイントに注意が必要

滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...

2024 年にビジネスを一変させる可能性のあるテクノロジーはどれでしょうか?

2023 年は、世界中の政府、公共部門、企業、さらには一般大衆の生活を大きく変えるテクノロジーの急...

データセンターの物理的セキュリティに AI を活用する方法

機械学習と人工知能は、データセンターの問題に対する万能薬として宣伝されてきました。その多くは誇大宣伝...

...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...