ChatGPT も「逆方向に学習」するのでしょうか?

継続的に学習することで向上していくことは、現代の AI の大きなセールスポイントの 1 つです。しかし、先週発表された新たな研究によると、ChatGPT は時間の経過とともに特定のタスクで悪化する可能性があることが示唆されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者による論文草稿によると、最近人気のChatGPTの基礎となっている2つのOpenAI大規模言語モデル（LLM）であるGPT-3.5とGPT-4の結果にかなりのドリフトが検出されたという。

3人の研究者（スタンフォード大学の助教授で、Databricksの共同創設者でありApache Sparkの開発者でもあるマテイ・ザハリア氏、カリフォルニア大学バークレー校のリンジャオ・チェン氏とジェームズ・ゾウ氏を含む）は、2023年3月にGPT-3.5、2023年6月にGPT-4という2つの異なるバージョンのLLMをテストした。

研究者らは、数学の問題、デリケートな/危険な質問への回答、世論調査への回答、マルチホップの知識集約型質問への回答、コードの生成、米国医師免許試験の受験、視覚的推論など、AI タスクのテストベッドで 4 つのモデルを実行しました。

結果は、LLM による回答にかなりのばらつきがあることを示しました。特に研究者らは、GPT-4 が数学の問題を解く際に 3 月よりも 6 月の方が成績が悪かったことを発見しました。 Chain of Thought (COT)プロンプトを使用して素数を正しく識別する精度では、GPT-4の精度は3月の84.0%から6月の51.1%に低下したことが示されました。一方、同じテストにおけるGPT-3.5の精度は、3月の49.6％から6月の76.2％に上昇した。

著者らは、なぜ GPT-4 の精度がそれほど低下したのかを考え、COT の処理動作が異なっていることを観察しました。 3 月のバージョンでは、COT のプロンプトで研究者が要求したように、タスクが複数のステップに分割されています。しかし、GPT-4 の 6 月バージョンでは中間ステップや説明が示されず、単に (誤って)「いいえ」という答えが生成されました。

2番目の数学の問題、「幸せな」数字を見つける（「幸せな」数字とは、整数を代入したときに平方和が1になる数字です）」という問題でも、同様のレベルのドリフトが見られました、と研究者らは書いています。研究者らは、「このタスクで大幅なパフォーマンスのドリフトが観察された」と書いており、GPT-4の精度は3月に83.6％から35.2％に低下し、GPT-3.5の精度は6月に30.6％から48.2％に増加しました。ここでも、GPT-4は研究者らが発行したCOTコマンドに従わなかった。

研究者がLLMにデリケートな質問やリスクのある質問をした場合にも変化が観察されました。 GPT-4 の質問に答える意欲は時間の経過とともに減少し、3 月の 21.0% から 6 月の 5.0% になりました。対照的に、GPT-3.5 はよりおしゃべりになり、2.0% から 5.0% に増加しました。研究者らは、OpenAIがGPT-4で「より強力な安全層」を採用したのに対し、GPT-3.5は「より保守的でなくなった」と結論付けた。

世論調査のテストでは、GPT-4 が意見を提出する可能性が 3 月の 97.6% から 3 月の 22.1% に大幅に低下し、長さ (または単語数) が 30 パーセントポイント近く増加したことが示されました。 GPT-3.5 の回答率と長さにはほとんど変化がありませんでした。

「マルチホップ推論」を必要とする複雑な質問に答える場合、パフォーマンスに大きな違いがあることがわかりました。研究者らは、LangChain のインスタントエンジニアリング機能と HotpotQA Agent (マルチホップの質問に回答するため) を組み合わせ、GPT-4 の完全一致回答生成の精度が 1.2% から 37.8% に向上したことを指摘しました。ただし、GPT-3.5 の「完全一致」成功率は 22.8% から 14.0% に低下しました。

コード生成に関しては、研究者らは両方の LLM の出力の実行可能性が低下していることを確認しました。 GPT-4 の出力は 3 月には直接実行可能率が 50% を超えていましたが、6 月には 10% にまで低下し、GPT-3.5 でも同様に低下しました。研究者たちは、GPT が Python 出力に余分な句読点などの非コードテキストを追加し始めたことを発見しました。彼らは、追加の非コードテキストはブラウザでコードをレンダリングしやすくするためのものだが、コードを実行不可能にしてしまうと論じた。

GPT-4 の米国医師免許試験における成績は 86.6% から 82.4% にわずかに低下し、GPT-3.5 は 1 パーセントポイント未満低下して 54.7% となりました。しかし、GPT-4 が間違えた回答は時間の経過とともに変化しており、3 月の誤った回答の一部が修正されたため、LLM も正解から不正解へと変化したことを示しています。

視覚的推論テストでは、両方のモデルでわずかな改善が見られました。ただし、全体的な精度（GPT-4 では 27.4%、GPT-3.5 では 12.2%）は高くありません。研究者たちは、モデルが以前に正しく答えた質問に対して再び間違った答えを出したことを観察した。

テストの結果、GPT-3.5とGPT-4のパフォーマンスと動作が短期間で大幅に変化したことがわかったと研究者らは書いている。

「これは、アプリケーションにおける LLM のドリフト動作を継続的に評価および評価する必要があることを浮き彫りにしています。特に、ChatGPT などの LLM が時間の経過とともにどのように更新されるかは透明ではないためです」と研究者らは書いています。「私たちの研究は、LLM 機能の複数の側面を均一に改善するという課題も浮き彫りにしています。追加データによる微調整など、一部のタスクでモデルのパフォーマンスを向上させると、他のタスクでの動作に意図しない副作用が生じる可能性があります。これと一致して、GPT-3.5 と GPT-4 はどちらも一部のタスクでは悪化しますが、他のタスクでは改善します。」

<<: 5つのユニークで興味深いChatGPTコマンド

>>: 日常の問題を自動的に解決する 5 つの AI API