数日前、多くのユーザーが GPT-4 が愚かになったと不満を述べていましたが、どれほど愚かになったのでしょうか? 最近、スタンフォード大学とカリフォルニア大学バークレー校の arXiv プレプリント論文で、この問題に関する定量的な実験結果が示され、関連する評価および応答データが公開されました。 論文が発表されて間もなく、この研究は幅広い注目と議論を集め、多くのネットユーザーが論文で説明された結果に同意した。 もちろん、すべての物事には二面性があります。一部のネットユーザーは論文の結論に異議を唱え、この論文の結果は単純すぎると疑問視する記事を掲載した。「研究結果は興味深いが、いくつかの方法は疑問だ」 写真 問題の記事へのリンク: https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time 次に、スタンフォード大学とカリフォルニア大学バークレー校のこの論文で何が判明したかを見てみましょう。
具体的には、GPT-3.5とGPT-4の2023年3月と6月のバージョンの生成結果を4つのタスクで調査した後、研究者らは、2つのLLMがいくつかの指標で悪化していることを発見しました。特に、数学の問題を解くGPT-4の能力は雪崩のように低下したと言えます。3月バージョンの精度は97.6%でしたが、6月バージョンではわずか2.4%でした。研究者らはこれらの変化の理由についても推測した。 写真 画像出典: Twitter @svpino GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) が広く使用されています。時間の経過とともに、GPT-4 のような LLM は、データやユーザーからのフィードバック、および設計の変更に基づいて更新される可能性があります。しかし、GPT-3.5 と GPT-4 がどのように更新されるかはまだわかっておらず、また、それらの更新がこれらの LLM の動作にどのように影響するかもわかっていません。 これらの不明点により、LLM を大規模なワークフローに確実に統合することが困難になります。プロンプトに対する LLM の応答が突然変更された場合 (たとえば、精度や形式)、下流のタスクが中断される可能性があります。これにより、「同じ」LLM から同じ結果を再現することが困難になるか、不可能になることもあります。 これらの統合の課題以外にも、GPT-4 のような LLM サービスが時間の経過とともに「改善」されるかどうかを尋ねることも興味深いことです。重要なのは、モデルの一部の側面を改善するために更新を実行すると、モデルの他の機能が損なわれるかどうかを知る必要があるということです。 これらの疑問の答えを見つけるために、スタンフォード大学とカリフォルニア大学バークレー校の研究者は、1)数学の問題を解く、2)センシティブ/危険な質問に回答する、3)コードを生成する、4)視覚的推論という4つの主要タスクに基づいて、2023年3月と6月のバージョンのGPT-3.5とGPT-4のパフォーマンスを評価しました。 研究者らは、これら 4 つのタスクが LLM のさまざまな有用な機能を代表するものであるため選択されたと述べています。最終的に、GPT-3.5 と GPT-4 の両方のリリースのパフォーマンスと動作が大幅に変更され、更新されたバージョンでは一部のタスクでパフォーマンスがさらに低下していることが分かりました。 概要: LLM サービス、ミッション、および指標この論文では、さまざまな LLM の動作が時間の経過とともにどのように変化するかを研究します。以下は、定量的研究で対象となる LLM、評価タスク、およびメトリックの説明です。 LLM サービス: 研究者が研究したモデルは、ChatGPT のバックボーンである GPT-3.5 と GPT-4 です。 評価タスクは、以下の図 1 に示すように、数学の問題を解く、デリケートな質問に答える、コードを生成する、視覚的に推論する、という 4 つあります。 図1: 2023年3月と6月のGPT-4とGPT-3.5の4つの異なるタスクにおけるパフォーマンス ご覧のとおり、GPT-4 と GPT-3.5 のパフォーマンスは大きく異なり、一部のタスクではさらに悪化します。
テスト結果からLLMの大きな変化が明らかになった数学の問題を解く:思考の連鎖が失敗する可能性がある結果はおそらく驚くべきものでしょう。この単純なタスクでは、LLM のパフォーマンスは大きく異なります。下の図 2 (a) に示すように、GPT-4 の精度は 3 月バージョンの 97.6% から 6 月バージョンの 2.4% に急激に低下しましたが、GPT-3.5 の精度は 7.4% から 86.8% に急上昇しました。 さらに、GPT-4 の応答ははるかにコンパクトになり、平均長 (生成された文字数) は 3 月バージョンの 821.2 から 6 月バージョンでは 3.8 に減少しました。一方、GPT-3.5の応答は約40%増加しました。両モデルの 3 月版と 6 月版の回答の重複は少なかった。 図 2: 数学の問題を解く: (a) 2023 年 3 月版と 6 月版の GPT-4 と GPT-3.5 の精度、長さ、回答の重複。全体的に、両モデルのパフォーマンスは劇的に変化しました。 (b) クエリとそれに対応する応答の例。 このパフォーマンスの違いはどこから来るのでしょうか?研究者らが提示する説明の一つは、思考連鎖効果の変化だ。図2(b)に説明のための例を示します。 GPT-4の3月版は思考連鎖の指示に従って正しい答えを出したのに対し、6月版は思考連鎖を無視して間違った答えを出したことがわかります。 GPT-3.5 は常に思考の連鎖指示に従いますが、3 月のバージョンでは間違った答え ([いいえ]) を生成することにこだわり、6 月のバージョンではこの問題はほぼ修正されました。 デリケートな質問に答える:より安全になるが、拒否する理由はない この課題において、研究者たちは2つの傾向を観察しました。下の図 3 に示すように、最初の傾向として、GPT-4 が敏感な質問に答える割合は、3 月バージョンの 21.0% から 6 月バージョンの 5.0% へと減少し、GPT-3.5 のデータは増加しています (2.0% から 8.0%)。 研究者らは、これは GPT-4 の 6 月のアップデートでより堅牢なセキュリティ レイヤーが導入されたのに対し、GPT-3.5 では保守性が低下したためだと推測しています。 2 つ目の傾向は、GPT-4 の世代長が 600 以上から約 140 に減少したことです。 図3: デリケートな質問への回答: (a) 全体的なパフォーマンスの変化 GPT-4 はより少ない質問に回答しましたが、GPT-3.5 は若干多くの質問に回答しました。 (b) クエリとそれに対応する応答の例。 GPT-4 と GPT-3.5 の 3 月バージョンはより詳細になり、クエリへの回答を拒否する詳細な理由を示します。 6月号にはただ「申し訳ありません」とだけ書かれています。 生成された長さが変化する理由は何ですか? GPT-4 はより簡潔であるため、回答する質問が少ないだけでなく、回答を拒否する場合の説明も少なくなります。図3(b)の例はこの点を示しています。 GPT-4 の 3 月バージョンと 6 月バージョンはどちらも不適切なクエリへの回答を拒否しました。しかし、3 月のバージョンでは拒否の理由を説明する段落が生成されたのに対し、6 月のバージョンでは単に「申し訳ありませんが、お手伝いできません」とだけ書かれていました。GPT-3.5 でも同様の現象が見られます。これは、これらの LLM はより安全になる可能性があるが、特定の質問への回答を拒否する理由が少なくなる可能性があることを示唆しています。 コード生成: より冗長だが直接実行可能なコードが少ない全体的に、直接実行可能なコードの量は 3 月バージョンから 6 月バージョンにかけて減少しました。下の図4(a)に示すように、GPT-4の3月版で生成されたコードの50%以上は直接実行可能ですが、6月版で生成されたコードは10%しか直接実行できません。 GPT-3.5 も同様の傾向にあります。どちらのモデルも冗長性がわずかに増加しています。 写真 図 4: コード生成: (a) 全体的なパフォーマンスの変化。 (b) クエリとそれに対応する応答の例 GPT-4 と GPT-3.5 の 3 月バージョンはどちらもユーザーの指示 (コードのみ) に従うため、生成された結果は直接実行可能なコードになります。しかし、6 月のバージョンでは、コード スニペットの周囲に余分な三重引用符 "' が追加され、コードが実行できなくなりました。 直接実行できるビルド結果が少ないのはなぜですか?考えられる説明の 1 つは、6 月バージョンではビルド結果に常にコード以外のテキストが追加されるということです。 図4(b)に例を示します。 GPT-4 の 3 月バージョンと 6 月バージョンは基本的に同じ結果を生成しますが、2 つの違いがあります。1 つは、6 月バージョンではコード スニペットの前後に「'python」と「」が追加されていることです。第二に、6 月版ではいくつかのメモが生成されました。変更は小さいですが、余分な三重引用符によりコードを直接実行できなくなります。 LLM で生成されたコードを大規模なソフトウェア開発プロセスに統合する場合、これは深刻な問題となります。 視覚的推論: 小さな改善下の図5(a)に示すように、GPT-4とGPT-3.5のパフォーマンスの向上は非常に小さいです。しかし、3 月版と 6 月版では、ビジュアル パズルのクエリの 90% で同じ結果が出ました。これらのサービスの全体的なパフォーマンスも低く、GPT-4 では 27.4%、GPT-3.5 では 12.2% となっています。 写真 図5: 視覚的推論: (a) 全体的なパフォーマンス 3月版から6月版にかけて、GPT-4とGPT-3.5の全体的なパフォーマンスは約2%向上しました。生成された長さはほぼ同じままです。 (b) クエリとそれに対応する応答の例。 LLM の新しいバージョンが必ずしもより良い結果を生み出すとは限らないことに注意することが重要です。実際、GPT-4 の全体的なパフォーマンスは向上したにもかかわらず、3 月バージョンでは正解だった質問に対して 6 月バージョンでは間違いを犯していました。図5(b)がその一例です。 GPT-4 の 6 月バージョンは全体的にパフォーマンスが向上しましたが、この特定のケースではそうではありませんでした。 3月号では正しいグリッドが示されていたが、6月号ではそうではなかった。これは、特に重要なアプリケーションの場合、モデルのパフォーマンスの変化をきめ細かく監視する必要があることを示唆しています。 評価の詳細については、元の論文を参照してください。 |
<<: 最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー
>>: ラマ2 ビッグバン!バークレーは実機テストで8位、iPhoneでローカル実行可能、多数のアプリが無料でプレイ可能、ルカンも夢中
パターン認識や機械学習のファンであれば、機械学習では避けられない重要な問題であるサポートベクターマシ...
数百メガバイトのサイズのニューラル ネットワークの場合、モデル圧縮によりメモリ使用量、通信帯域幅、計...
ディープラーニングは、機械学習の分野で最も注目されているテクノロジーです。ディープラーニング フレー...
1956年、人工知能元年。その夏、米国ニューハンプシャー州ハノーバーの小さな町にある美しいアイビーリ...
長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
AI を活用して財務管理や投資を行いたいと考えていますか? [[351941]]好むと好まざるとにか...
顔認識システムは私たちの都市に多くの利便性をもたらしました。しかし、多くの国では顔認識に対する抵抗が...