ChatGPT も「逆方向に学習」するのでしょうか?

ChatGPT も「逆方向に学習」するのでしょうか?

継続的に学習することで向上していくことは、現代の AI の大きなセールスポイントの 1 つです。しかし、先週発表された新たな研究によると、ChatGPT は時間の経過とともに特定のタスクで悪化する可能性があることが示唆されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者による論文草稿によると、最近人気のChatGPTの基礎となっている2つのOpenAI大規模言語モデル(LLM)であるGPT-3.5とGPT-4の結果にかなりのドリフトが検出されたという。

3人の研究者(スタンフォード大学の助教授で、Databricksの共同創設者でありApache Sparkの開発者でもあるマテイ・ザハリア氏、カリフォルニア大学バークレー校のリンジャオ・チェン氏とジェームズ・ゾウ氏を含む)は、2023年3月にGPT-3.5、2023年6月にGPT-4という2つの異なるバージョンのLLMをテストした。

研究者らは、数学の問題、デリケートな/危険な質問への回答、世論調査への回答、マルチホップの知識集約型質問への回答、コードの生成、米国医師免許試験の受験、視覚的推論など、AI タスクのテストベッドで 4 つのモデルを実行しました。

結果は、LLM による回答にかなりのばらつきがあることを示しました。特に研究者らは、GPT-4 が数学の問題を解く際に 3 月よりも 6 月の方が成績が悪かったことを発見しました。 Chain of Thought (COT)プロンプトを使用して素数を正しく識別する精度では、GPT-4の精度は3月の84.0%から6月の51.1%に低下したことが示されました。一方、同じテストにおけるGPT-3.5の精度は、3月の49.6%から6月の76.2%に上昇した。

著者らは、なぜ GPT-4 の精度がそれほど低下したのかを考え、COT の処理動作が異なっていることを観察しました。 3 月のバージョンでは、COT のプロンプトで研究者が要求したように、タスクが複数のステップに分割されています。しかし、GPT-4 の 6 月バージョンでは中間ステップや説明が示されず、単に (誤って)「いいえ」という答えが生成されました。

2番目の数学の問題、「幸せな」数字を見つける(「幸せな」数字とは、整数を代入したときに平方和が1になる数字です)」という問題でも、同様のレベルのドリフトが見られました、と研究者らは書いています。研究者らは、「このタスクで大幅なパフォーマンスのドリフトが観察された」と書いており、GPT-4の精度は3月に83.6%から35.2%に低下し、GPT-3.5の精度は6月に30.6%から48.2%に増加しました。ここでも、GPT-4は研究者らが発行したCOTコマンドに従わなかった。

研究者がLLMにデリケートな質問やリスクのある質問をした場合にも変化が観察されました。 GPT-4 の質問に答える意欲は時間の経過とともに減少し、3 月の 21.0% から 6 月の 5.0% になりました。対照的に、GPT-3.5 はよりおしゃべりになり、2.0% から 5.0% に増加しました。研究者らは、OpenAIがGPT-4で「より強力な安全層」を採用したのに対し、GPT-3.5は「より保守的でなくなった」と結論付けた。

世論調査のテストでは、GPT-4 が意見を提出する可能性が 3 月の 97.6% から 3 月の 22.1% に大幅に低下し、長さ (または単語数) が 30 パーセントポイント近く増加したことが示されました。 GPT-3.5 の回答率と長さにはほとんど変化がありませんでした。

「マルチホップ推論」を必要とする複雑な質問に答える場合、パフォーマンスに大きな違いがあることがわかりました。研究者らは、LangChain のインスタント エンジニアリング機能と HotpotQA Agent (マルチホップの質問に回答するため) を組み合わせ、GPT-4 の完全一致回答生成の精度が 1.2% から 37.8% に向上したことを指摘しました。ただし、GPT-3.5 の「完全一致」成功率は 22.8% から 14.0% に低下しました。

コード生成に関しては、研究者らは両方の LLM の出力の実行可能性が低下していることを確認しました。 GPT-4 の出力は 3 月には直接実行可能率が 50% を超えていましたが、6 月には 10% にまで低下し、GPT-3.5 でも同様に低下しました。研究者たちは、GPT が Python 出力に余分な句読点などの非コードテキストを追加し始めたことを発見しました。彼らは、追加の非コードテキストはブラウザでコードをレンダリングしやすくするためのものだが、コードを実行不可能にしてしまうと論じた。

GPT-4 の米国医師免許試験における成績は 86.6% から 82.4% にわずかに低下し、GPT-3.5 は 1 パーセントポイント未満低下して 54.7% となりました。しかし、GPT-4 が間違えた回答は時間の経過とともに変化しており、3 月の誤った回答の一部が修正されたため、LLM も正解から不正解へと変化したことを示しています。

視覚的推論テストでは、両方のモデルでわずかな改善が見られました。ただし、全体的な精度(GPT-4 では 27.4%、GPT-3.5 では 12.2%)は高くありません。研究者たちは、モデルが以前に正しく答えた質問に対して再び間違った答えを出したことを観察した。

テストの結果、GPT-3.5とGPT-4のパフォーマンスと動作が短期間で大幅に変化したことがわかったと研究者らは書いている。

「これは、アプリケーションにおける LLM のドリフト動作を継続的に評価および評価する必要があることを浮き彫りにしています。特に、ChatGPT などの LLM が時間の経過とともにどのように更新されるかは透明ではないためです」と研究者らは書いています。「私たちの研究は、LLM 機能の複数の側面を均一に改善するという課題も浮き彫りにしています。追加データによる微調整など、一部のタスクでモデルのパフォーマンスを向上させると、他のタスクでの動作に意図しない副作用が生じる可能性があります。これと一致して、GPT-3.5 と GPT-4 はどちらも一部のタスクでは悪化しますが、他のタスクでは改善します。」

<<:  5つのユニークで興味深いChatGPTコマンド

>>:  日常の問題を自動的に解決する 5 つの AI API

ブログ    

推薦する

普及モデルはどのようにして新しい世代の意思決定エージェントを構築するのでしょうか?自己回帰を超えて長いシーケンス計画軌道を生成する

部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ...

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

人工知能は現代のビジネス界に多くの変化をもたらしています。多くの企業が AI を活用して顧客をより深...

機械学習に関する12の現実世界の真実

導入現実世界で働くときには、直面しなければならない事実がいくつかあります。この記事ではそれについて説...

5G、AI、IoTが「インテリジェントな接続」を実現する方法

5G、人工知能(AI)、モノのインターネット(IoT)技術の発展により、あらゆるものがインテリジェン...

AI音声アシスタントの台頭:利便性とセキュリティのバランス

ChatGPT は私たちが知る限り最新の音声アシスタントです。 SiriやAlexaなどの企業は長年...

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

4月20日の最新ニュースは、百度がApollp Robotaxi自動運転タクシーサービスの全面オー...

Google BardとChatGPT、どちらを選ぶべきでしょうか?

こんにちは、ルガです。今日は、人工知能 (AI) エコシステムに関連するテクノロジーについて、Goo...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

機械学習を利用するハッカーを心配していますか?データを盗む7つの新しい方法を知る

機械学習は、大規模なデータセットを分析してパターンを識別する能力があることで知られています。基本的に...

機械学習の卒業生は就職に不安を感じ始めています!卒業生と企業のどちらがより厳しいでしょうか?

機械学習を専攻する学生も就職について不安を感じ始めているのでしょうか?昨日、あるネットユーザーがRe...

EUが新たなAI規制を導入

欧州委員会は、ヨーロッパを信頼できる人工知能(AI)の世界的な中心にすることを目指して、2021年4...

人工知能の時代において、女の子が将来勝てるようにするために親はどのような教育理念を持つべきでしょうか?

私は二人の女の子の母親です。親は子供に何でも良いものを残そうとすると言われていますが、子育ての過程で...

...