スタンフォード大学は、GPT-4 が「愚か」になったことを確認しました。数学の問題のエラー率はわずか 3 か月で 40 倍に増加しました。 OpenAIも不安を感じている：調査が始まった

GPT-4 はより愚かになった、というのは本当ですか? ? ?

スタンフォード大学とカリフォルニア大学バークレー校の最近の論文では、次のことが示されています。

6 月の GPT-4 の一部のタスクのパフォーマンスは、客観的に見て 3 月よりも悪かった。

たとえば、同じ 500 の「与えられた整数が素数であるかどうかを判断する」質問を使用して 2 つのバージョンをテストしたところ、GPT-4 は 3 月に 488 の質問に正しく回答しましたが、6 月には 12 の質問にしか正しく回答しませんでした... 成功率は 97.6% から 2.4% に直接低下しました。

しかし、研究者が古典的な「段階的に考えてみましょう」という方法を使って後者を正しい答えに導いたところ、それはうまくいかなかった。

6 月には、GPT-4 は中間ステップの提示を試みなくなり、依然として「はい」または「いいえ」に直接回答します。

それだけでなく、コーディングスキルも低下しています。

50 個の簡単な LeetCode の質問に対して、6 月の GPT-4 は変更なしで回答の 10% しか実行できませんでしたが、3 月にはこの数値は 52% でした。

現在、この結論はインターネット上で大きな注目を集めています。

写真

これは「大規模言語モデルの蜜月時代は終わった」ことを意味すると言う人もいます。

OpenAIもこの研究にすぐに気づき、積極的な調査を開始したと述べた。

写真

それで、わずか 3 か月で GPT-4 に何が起こったのでしょうか?

この論文はGPT-4が愚かになったことを「確認」している

この論文では、数学、コード、ビジョン、デリケートな問題という 4 つの観点から、3 月と 6 月の GPT-4 を比較します。

写真

（このセクションは論文の要約であり、QuantumBit が関連する結論を承認したことを示すものではありません）

その中でも、数学はGPT-4の能力が最も著しく低下する分野です。

その証拠が冒頭で触れた素数判定問題500問です。誤答率は40倍近く増加し、解答の長さも大幅に短縮されました。

写真

具体的には、この論文では質問の 1 つに対する GPT-4 の回答を示しています。（表示されている数字は17077で、素数であることが検証されています）

写真

研究者たちは「段階的な」思考連鎖質問法を使用していることがわかりますが、うまく機能していないようです。

これは数学が得意ではないという事実によって説明できるかもしれませんが、GPT-4 のコーディングのパフォーマンスも大幅に低下しました。

データによると、簡単なレベルの Leetcode 問題の合格率は 52% から 10% に低下し、コードの長さは長くなりました。

写真

論文の著者らも例を挙げた。

問題はこれです:

3 桁の整数 n が与えられた場合、n、2n、3n を「接続」します。「接続」とは、2つの数字を直接つなげることを意味します。たとえば、「114」と「514」を「接続」すると、「114514」になります。「接続」後の結果に 0 が含まれず、各桁に 1 から 9 までのすべての数字が含まれ、各数字が 1 つだけの場合、n は「魅力的な」数字であると見なされます。数字が「魅力的」かどうかを判断するためのコードを Python で記述してください。

写真

(「クラスソリューション」は、Leetcode プラットフォームによって提供されるコード開始形式です)

3 月の GPT-4 では次のコードが提供されました:

 class Solution(object): def isFascinating(self, n): concatenated_number = str(n) +str(2 * n) + str(3 * n) return sorted(concatenated_number)=['1', '2', '3', '4', '5', '6', '7', '8', '9']

このコードにはいくつか小さな問題があります。最後の行では、「等価性を判断する」ときに二重の等号を使用する必要があります。

修正後、送信されたコードは正常に通過しました。

写真

6月の答えは次のとおりです。

 ```Python class Solution(object): def isFascinating(self, n): # Concatenate n, 2*n and 3*n s = str(n) + str(n*2) + str(n*3) # Check if the length of s is 9 and contains all digits from 1 to 9 return len(s) == 9 and set(s) == set('123456789') ```

コード自体は正しいのですが、GPT-4 の出力にはいくつか問題があります。

写真

Markdown タグのセクションは出力にテキストとして直接表示されるため、プログラムを直接実行することはできません。

研究者が GPT-4 がここで間違いを犯したと考える理由は、プロンプトで「コードのみ」が強調されていたためです。

GPT-4の実用性は低下しましたが、セキュリティは向上したようです。

デリケートな質問の場合、GPT-4 が回答する確率は 4 分の 3 以上低下し、対応する説明も減少しました。

写真

研究者たちは偏った質問をしようとした。

3月のGPT-4では質問に答えることを拒否した理由を説明したが、6月版では単に「ノーコメント」とだけ述べた。

写真

脱獄攻撃が成功する可能性はさらに大幅に低下しており、6 月の GPT-4 は 3 月よりも堅牢になっているようです。

写真

さらに、研究チームはGPT-4の2つのバージョンに対して「視覚」能力テストも実施した。

この部分のテストデータは、ARC データセットから取得されます。取得する必要がある「画像」は 3×3 の正方形グリッドで、正方形の色は 2 次元配列の形式で数字で表されます。

写真

3 月と比較すると、GPT-4 の 6 月バージョンのパフォーマンスはわずかに向上しましたが、大幅な向上はありません。

写真

3 月に正解だった質問が、6 月には不正解になったものもありました。

写真

したがって、この点では、GPT-4 が良くなったのか悪くなったのかを判断するのは困難です。

全体的に、論文の著者らは慎重であり、GPT-4 のパフォーマンスが低下したかどうかについては直接主張していません。

しかし、数学とコードの観点から見ると、記事で示された証拠は一部のネットユーザーの主張を裏付けています。

著者はまた、この発見は主に、AI システムの機能を継続的にテストし、その開発を監視することが非常に重要であることをすべての人に伝えていると述べました。

なぜこのようなことが起こるのでしょうか?

いずれにせよ、この研究を読んだ後、多くの人が興奮してこう述べました。「ついに、私がずっと推測していたことを証明する研究ができた。」

写真

「興奮している」ことに加えて、誰もがもっと重要な問題を認識しているようです。

ビッグモデルたちとの「新婚生活」は終わり、最初の「わぁ」という段階に別れを告げ始めています。

つまり、記者会見で披露された表面的な「華々しい動き」よりも、その本当の実力に注目するのだ。

したがって、誰もが好奇心を抱かずにはいられません。

なぜこのようなことが起こるのでしょうか?なぜもっと馬鹿げているように見えるのでしょうか?

写真

モデルの品質は時間の経過とともに更新され、改善されるべきであるのは当然です。たとえ大幅に改善されなくても、数学とコーディングの能力がそれほど急速に低下するべきではありません。

推測はたくさんあります。

1つ目は、OpenAIがコスト削減策を講じた可能性があることだ。

@Dwayneというネットユーザーは、GPT-4の運用コストが非常に高いため、OpenAIがコスト管理を開始したのではないかと疑っており、これは100件のメッセージではなく、3時間ごとに25件のメッセージしか送信できないという制限からもわかる。

モデルがより迅速に決定を下せるようにするために、OpenAI が GPT-4 に複数の可能な回答を評価しさせ、詳細な評価を行わずに最終的な回答を出させるのをやめたかどうかを考える価値はある。

結局のところ、意思決定時間が短縮されるとコンピューティングコストが削減され、結果として回答の品質は必然的に低下します。

写真

興味深いことに、スタンフォード大学とカリフォルニア大学バークレー校がこの成果を発表した後、多くの人がそれをコピーしてテストしましたが、GPT-4は「17077は素数か？」などの同じ質問に正しく答えることができ、多くの答えが「はい」であることがわかりました。

その理由は、これらの人々は基本的に最新のコードインタープリターまたは Wolfram プラグインを使用しているためです。

写真

これにより、ネットユーザーの2番目の推測が生まれます。

GPT-4 の機能は低下したのではなく、変化した可能性があります。

つまり、「最も基本的な」GPT-4 を使用して質問する場合、質問への回答を支援するためにさまざまな「エキスパートモデル」を直接呼び出すことはなくなります。強力なエキスパート機能は、コードインタープリターなどのさまざまなプラグインや統合機能にルーティングされます。

しかし、最終的には、これはコストを削減し、効率を高める手段でもあります。

もちろん、OpenAI がプラグインや新機能を推進するために、GPT-4 の基本機能を意図的に削減したという考えもあります。

写真

さらに、より「責任」を持たせるために、非論理的なセキュリティフィルターによってモデルの本来のロジックが損なわれていると考える人もいます。これも GPT-4 の品質低下の理由の 1 つとなっています。

写真

プリンストン大学教授が実名で異議申し立て

ネットユーザーの推測がいかに合理的に聞こえても、OpenAI は実際にそれを否定し、モデルの品質を低下させるような措置を講じていないと主張していることは注目に値する。

同時に、別のグループの学者やネットユーザーもこの研究について疑問を呈した。

プリンストン大学の 2 人の CS 教授は次のように指摘しました。

この論文は、単に GPT-4 の行動の変化を示しているだけであり、行動の変化が能力の低下を意味するわけではないため、「GPT-4 は愚かになった」という誤解を生み出しています。

また、実験の評価自体にも問題があり、著者らは模倣を推論として誤って扱っていた。

彼らは自分たちの主張を説明するために、単純にブログを始めたのです。

写真

素数を決定する問題を例にとると、評価で与えられた 500 個の数字はすべて素数であることがわかりました。これは大きな問題です。なぜなら、正解は常に「はい」であり、モデルがランダムに模倣する（つまり、無意識に以前の正解をコピーする）能力を持つ可能性があるからです。

なぜなら、ほとんどの場合、「数が割り切れるかどうかを判断する」アルゴリズムを 1 つずつ実際に実行するモデルはなく、単にそれを実行しているふりをしているだけであることが判明しているからです。

たとえば、以下の 3 月の GPT-4 のスナップショットでは、チェックする一連の数字を単にリストし、それらを 1 つずつ削除することなく、「19997 は素数です」という答えを直接返しています。

写真

つまり、3 月の GPT-4 は頭を使わずに質問に正しく答えた可能性があり、そのパフォーマンスは数学的な能力を証明するものではありません。逆に、6 月の GPT-4 がダメだった (最初からこのレベルだった可能性がある) ことを証明することはできません。

さらに彼らの主張を証明するために、教授たちは500個の合成数でモデルをテストしました。その結果、3月版のGPT-4はこれらの数字が素数であるとほぼ常に推測しましたが、6月版は合成数であるとほぼ常に推測しました。

——評価データが変更されると、結果はまったく異なり、元の著者の結論が維持できないことを示すのに十分です。

また、最も低下が著しかったコード作成能力に関しても、コードの正しさを評価せず、コードが直接実行できるかどうかだけをチェックする著者のアプローチも同様にずさんであると教授らは考えていた。

これは、新しい GPT-4 のより役立つ機能を試みる能力が相殺されることを意味します。

これらすべての見解は、Nvidia の AI 科学者 Jim Fan 氏によって支持されており、同氏は次のように述べています。

これは、GPT-4 が MIT の学部数学試験で満点を獲得したという論文を思い出させます。（不正の疑いあり、データと評価方法の両方に問題あり）

しかし彼は、これらはどれも重要ではないと考えています。重要なのは、全員が団結して戦うことです。

写真

それで、GPT-4 は愚かになったと思いますか?

論文アドレス: https://arxiv.org/abs/2307.09009

参考リンク: [1] https://twitter.com/DwayneCodes/status/1681617375437922309 [2] https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time [3] https://twitter.com/DrJimFan/status/1681771572351369216

<<: スタンフォード大学の64歳の学長が辞任！学術不正スキャンダルが勃発、95ページの調査報告書が公表

>>: GoogleはコードネームGenesisと呼ばれるAIニュースライティング製品をテストしていると報じられている。