この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 大規模言語モデルの数学的能力を突破するにはどうすればよいでしょうか? 数学の学部生が次のことを発見しました。 実際、小学1年生のように「指で数える」ことを教えるだけで、彼らはすぐに数学のエキスパートになれます。 写真 たとえば、「34756918247632 + 7934619867453210082」のような大きな数の加算は、GPT-4 のような強力なモデルであっても、大規模なモデルでは解決できません。 しかし、彼の言う通りにすれば、電卓で数字を入力した場合とまったく同じ結果になることが保証されます。 具体的にはどうすればいいのでしょうか? GPT-4を小学生のように教える上記の加算問題を例に挙げてみましょう。GPT-4 が正しく解くためには、2 つの例を与える必要があります。 しかし、非常に単純なもので十分であり、重要なのは計算プロセスを詳細に説明することです。 最初の例は次のとおりです。 379+64 を計算するように教える必要があります。 具体的には、まず GPT-4 に 2 つの加数の桁数と各桁の数を整理させます。 次に、最初の加数が 2 番目の加数より 1 桁多い場合はゼロを追加するように指示します。 どこで補う?桁数の少ない加数を加算します。つまり、64 は 064 になります。 これが完了したら、最初の手順をもう一度繰り返します。 次に、繰り上がりやつながりなどを表す変数や初期値をいくつか設定し、上位の桁から1つずつ数字を加算していき、各桁の結果を結合すると、最終的な答えが得られます。 下のプロンプトワードテンプレートからわかるように、非常に詳細に書き、相手を小学生のように扱う必要があります。 (追記: 2 番目の数字 7+6+c を計算するときに著者がミスを犯したことがわかります。これは 14 に等しくなるはずで、間違った最終結果につながります。しかし、これはまったく影響しません。アイデアが正しければ、モデルはそれを実現できます!) 2 番目の例でも手順は同じです。主な違いは、今回は 0 を追加する必要がないことです。他の人を小学生として扱う場合は、それぞれの状況を明確に説明する必要があります。 上記の 2 つの例をテンプレートとして GPT-4 に入力したら、あとは多くの指示を与えるだけです。 これは追加演算を行うために使用する必要があるテンプレートであり、同じキーワードを使用する必要があります。 次にこう言います:
(英語のプロンプトは次のとおりです:これは加算を行うために使用する必要があるテンプレートです。同じキーワードを使用する必要があります。上記のどこにでも空白を使用する必要があります。 このとき、GPT-4 は次のように伝えます: 了解しました。提供されたテンプレートに厳密に従って、2 つの数値の加算を計算します。 次に、「34756918247632」と「7934619867453210082」と入力します。各数字の間には必ずスペースを入れてください(理由は後で説明します) 。
最後に正解をお伝えします:
まあ、計算機と同じ結果です: また、モデルをランダムに選択してテストし、計算した結果は 376900+12678922 (13055822 に等しい) でした。 それは正しくないことが判明しました: 上記の方法を適用すると、次のようになります。 つまり、大規模言語モデルは依然として非常に賢いのです。教え方さえわかっていれば、その数学的計算能力はまったく問題になりません。 なぜ間違っているのでしょうか?きっと誰もが疑問に思うでしょうが、なぜこのような数学の問題を正しく解くためには小学生のように教えられなければならないのでしょうか? 著者は、主な理由が2つあると分析しました。 1 つは、モデルがテキスト入力を処理するときにトークン化を実行し、数字がトークンに結合されることです。 たとえば、今日計算した問題では、GPT-4 が実際に見ているのは次のようになります。 そのため、GPT-4 が数字を分割せず、正しく計算できるように、各数字をスペースで区切る必要があります。 もちろん、上記の方法で教えずにただスペースを追加するだけでも間違いです。 これが 2 番目の理由につながります。つまり、計算を実行するためのコンテキストを学習するための十分なスペースが与えられていないということです。 GPT-4 は自己回帰言語モデルです。つまり、特定の時間ステップでの出力は、以前のすべての出力に条件付けられます。小学生が質問を解くのと同じように、モデルが任意の位置の数字を段階的に取得できる方法が必要です。 そのため、上記のように「追跡可能」となるようにテンプレートを設定する必要があります。 最後に、著者らは、言語モデルはこれまで構築してきたどのタイプのソフトウェアとも異なると述べています。したがって、特別な忍耐力が必要になります。 では、上記の 2 つの理由を理解した後、小学生に教えるような上記の一連のプロンプト ワード操作をよりよく理解できるでしょうか。 著者についてこの方法の著者は、ウォータールー大学の数学学部生である Karthik Balaji 氏です。 彼の個人ホームページによると、彼は大規模言語モデルに非常に興味を持っており、最近は生成モデル、特に拡散型を研究し始めたとのことです。彼はすでにいくつかの小さな成果を出しているので、興味があればチェックしてみてください。 写真 |
<<: ChatGPTは個人のカスタマイズをサポートします!長いプロンプトに別れを告げ、まずは自己紹介をしましょう
>>: スタンフォード大学学長が学術上の不正行為で辞任!一流ジャーナルの論文3本が撤回に直面し、著者は「学生を信頼しすぎた」と回答
AIOps 市場が成熟するにつれて、業界関係者の多くは、プラットフォームがネイティブにデータを取得し...
[51CTO.comからのオリジナル記事] 近年、自然言語処理技術は徐々に最も広く使用されている人工...
最近、「遺伝的アルゴリズムの紹介とデータ サイエンスにおけるその応用」というタイトルの記事が Ana...
マスク氏は怒り、残酷なことを言った。 決してデラウェア州に法人を登録しないでください。 州裁判所はテ...
OpenAI の ChatGPT などの大規模言語モデル (LLM) に基づく生成 AI チャットボ...
タンパク質は生命の原動力であり、その配列と構造を理解することは、新しい酵素の設計や命を救う薬の開発な...
近年発表されたAIモデル、例えば言語、視覚、音声、生物学など各分野の大規模モデルは、Transfor...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...
新しい研究(ETH チューリッヒによる)では次のことがわかりました。大規模モデルの「人間による検索」...
海外メディアの報道によると、米国は「防衛パートナーシップ計画」を基盤として、人工知能戦争への備えを同...