ChatGPT も「逆方向に学習」するのでしょうか?

ChatGPT も「逆方向に学習」するのでしょうか?

継続的に学習することで向上していくことは、現代の AI の大きなセールスポイントの 1 つです。しかし、先週発表された新たな研究によると、ChatGPT は時間の経過とともに特定のタスクで悪化する可能性があることが示唆されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者による論文草稿によると、最近人気のChatGPTの基礎となっている2つのOpenAI大規模言語モデル(LLM)であるGPT-3.5とGPT-4の結果にかなりのドリフトが検出されたという。

3人の研究者(スタンフォード大学の助教授で、Databricksの共同創設者でありApache Sparkの開発者でもあるマテイ・ザハリア氏、カリフォルニア大学バークレー校のリンジャオ・チェン氏とジェームズ・ゾウ氏を含む)は、2023年3月にGPT-3.5、2023年6月にGPT-4という2つの異なるバージョンのLLMをテストした。

研究者らは、数学の問題、デリケートな/危険な質問への回答、世論調査への回答、マルチホップの知識集約型質問への回答、コードの生成、米国医師免許試験の受験、視覚的推論など、AI タスクのテストベッドで 4 つのモデルを実行しました。

結果は、LLM による回答にかなりのばらつきがあることを示しました。特に研究者らは、GPT-4 が数学の問題を解く際に 3 月よりも 6 月の方が成績が悪かったことを発見しました。 Chain of Thought (COT)プロンプトを使用して素数を正しく識別する精度では、GPT-4の精度は3月の84.0%から6月の51.1%に低下したことが示されました。一方、同じテストにおけるGPT-3.5の精度は、3月の49.6%から6月の76.2%に上昇した。

著者らは、なぜ GPT-4 の精度がそれほど低下したのかを考え、COT の処理動作が異なっていることを観察しました。 3 月のバージョンでは、COT のプロンプトで研究者が要求したように、タスクが複数のステップに分割されています。しかし、GPT-4 の 6 月バージョンでは中間ステップや説明が示されず、単に (誤って)「いいえ」という答えが生成されました。

2番目の数学の問題、「幸せな」数字を見つける(「幸せな」数字とは、整数を代入したときに平方和が1になる数字です)」という問題でも、同様のレベルのドリフトが見られました、と研究者らは書いています。研究者らは、「このタスクで大幅なパフォーマンスのドリフトが観察された」と書いており、GPT-4の精度は3月に83.6%から35.2%に低下し、GPT-3.5の精度は6月に30.6%から48.2%に増加しました。ここでも、GPT-4は研究者らが発行したCOTコマンドに従わなかった。

研究者がLLMにデリケートな質問やリスクのある質問をした場合にも変化が観察されました。 GPT-4 の質問に答える意欲は時間の経過とともに減少し、3 月の 21.0% から 6 月の 5.0% になりました。対照的に、GPT-3.5 はよりおしゃべりになり、2.0% から 5.0% に増加しました。研究者らは、OpenAIがGPT-4で「より強力な安全層」を採用したのに対し、GPT-3.5は「より保守的でなくなった」と結論付けた。

世論調査のテストでは、GPT-4 が意見を提出する可能性が 3 月の 97.6% から 3 月の 22.1% に大幅に低下し、長さ (または単語数) が 30 パーセントポイント近く増加したことが示されました。 GPT-3.5 の回答率と長さにはほとんど変化がありませんでした。

「マルチホップ推論」を必要とする複雑な質問に答える場合、パフォーマンスに大きな違いがあることがわかりました。研究者らは、LangChain のインスタント エンジニアリング機能と HotpotQA Agent (マルチホップの質問に回答するため) を組み合わせ、GPT-4 の完全一致回答生成の精度が 1.2% から 37.8% に向上したことを指摘しました。ただし、GPT-3.5 の「完全一致」成功率は 22.8% から 14.0% に低下しました。

コード生成に関しては、研究者らは両方の LLM の出力の実行可能性が低下していることを確認しました。 GPT-4 の出力は 3 月には直接実行可能率が 50% を超えていましたが、6 月には 10% にまで低下し、GPT-3.5 でも同様に低下しました。研究者たちは、GPT が Python 出力に余分な句読点などの非コードテキストを追加し始めたことを発見しました。彼らは、追加の非コードテキストはブラウザでコードをレンダリングしやすくするためのものだが、コードを実行不可能にしてしまうと論じた。

GPT-4 の米国医師免許試験における成績は 86.6% から 82.4% にわずかに低下し、GPT-3.5 は 1 パーセントポイント未満低下して 54.7% となりました。しかし、GPT-4 が間違えた回答は時間の経過とともに変化しており、3 月の誤った回答の一部が修正されたため、LLM も正解から不正解へと変化したことを示しています。

視覚的推論テストでは、両方のモデルでわずかな改善が見られました。ただし、全体的な精度(GPT-4 では 27.4%、GPT-3.5 では 12.2%)は高くありません。研究者たちは、モデルが以前に正しく答えた質問に対して再び間違った答えを出したことを観察した。

テストの結果、GPT-3.5とGPT-4のパフォーマンスと動作が短期間で大幅に変化したことがわかったと研究者らは書いている。

「これは、アプリケーションにおける LLM のドリフト動作を継続的に評価および評価する必要があることを浮き彫りにしています。特に、ChatGPT などの LLM が時間の経過とともにどのように更新されるかは透明ではないためです」と研究者らは書いています。「私たちの研究は、LLM 機能の複数の側面を均一に改善するという課題も浮き彫りにしています。追加データによる微調整など、一部のタスクでモデルのパフォーマンスを向上させると、他のタスクでの動作に意図しない副作用が生じる可能性があります。これと一致して、GPT-3.5 と GPT-4 はどちらも一部のタスクでは悪化しますが、他のタスクでは改善します。」

<<:  5つのユニークで興味深いChatGPTコマンド

>>:  日常の問題を自動的に解決する 5 つの AI API

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIプロジェクトでKubernetesを使用する方法

AI プロジェクトで Kubernetes を使用する利点は何でしょうか? Kubernetes が...

Auto-Sklearn と Auto-PyTorch を使用して機械学習を自動化する方法

[[430082]] 【51CTO.com クイック翻訳】はじめに今日、機械学習 (ML) は、ビジ...

あなたのビジネスに必要な AI 処理ユニットはどれですか?

データセンターに AI を導入することを検討している場合は、まず投資すべきハードウェアとインフラスト...

もはや魅力的ではない Google は次の IBM になるのでしょうか?深刻な高齢化、イノベーションへのサポートの喪失、従業員の信頼の喪失、人材流出

ジェミニが世論に大騒ぎを引き起こした後、ピチャイ氏の辞任を求める声があらゆるところで聞かれた。過去 ...

ローコード機械学習ツール

機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...

脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

AI人材の確保をめぐる秘密の戦い:中国が勝利する可能性は?

[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...

機械学習に必須の Python ライブラリ トップ 10

[51CTO.com クイック翻訳] 現在、Python は人気があり広く使用されているプログラミ...

最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。

機械学習の世界では、最適化問題は非常に重要であり、世界をより良い方向に変える可能性があります。最適化...

...

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

教育者、心理学者、親たちが、子どもがスクリーンを見る時間の長さについて議論する一方で、人工知能や機械...

MLOpsの助けにより、AIは開発の黄金期を迎えることになる

12月21日、デロイトコンサルティングが最近発表したレポートでは、企業が一貫した機械学習運用(MLO...