ChatGPT も「逆方向に学習」するのでしょうか?

ChatGPT も「逆方向に学習」するのでしょうか?

継続的に学習することで向上していくことは、現代の AI の大きなセールスポイントの 1 つです。しかし、先週発表された新たな研究によると、ChatGPT は時間の経過とともに特定のタスクで悪化する可能性があることが示唆されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者による論文草稿によると、最近人気のChatGPTの基礎となっている2つのOpenAI大規模言語モデル(LLM)であるGPT-3.5とGPT-4の結果にかなりのドリフトが検出されたという。

3人の研究者(スタンフォード大学の助教授で、Databricksの共同創設者でありApache Sparkの開発者でもあるマテイ・ザハリア氏、カリフォルニア大学バークレー校のリンジャオ・チェン氏とジェームズ・ゾウ氏を含む)は、2023年3月にGPT-3.5、2023年6月にGPT-4という2つの異なるバージョンのLLMをテストした。

研究者らは、数学の問題、デリケートな/危険な質問への回答、世論調査への回答、マルチホップの知識集約型質問への回答、コードの生成、米国医師免許試験の受験、視覚的推論など、AI タスクのテストベッドで 4 つのモデルを実行しました。

結果は、LLM による回答にかなりのばらつきがあることを示しました。特に研究者らは、GPT-4 が数学の問題を解く際に 3 月よりも 6 月の方が成績が悪かったことを発見しました。 Chain of Thought (COT)プロンプトを使用して素数を正しく識別する精度では、GPT-4の精度は3月の84.0%から6月の51.1%に低下したことが示されました。一方、同じテストにおけるGPT-3.5の精度は、3月の49.6%から6月の76.2%に上昇した。

著者らは、なぜ GPT-4 の精度がそれほど低下したのかを考え、COT の処理動作が異なっていることを観察しました。 3 月のバージョンでは、COT のプロンプトで研究者が要求したように、タスクが複数のステップに分割されています。しかし、GPT-4 の 6 月バージョンでは中間ステップや説明が示されず、単に (誤って)「いいえ」という答えが生成されました。

2番目の数学の問題、「幸せな」数字を見つける(「幸せな」数字とは、整数を代入したときに平方和が1になる数字です)」という問題でも、同様のレベルのドリフトが見られました、と研究者らは書いています。研究者らは、「このタスクで大幅なパフォーマンスのドリフトが観察された」と書いており、GPT-4の精度は3月に83.6%から35.2%に低下し、GPT-3.5の精度は6月に30.6%から48.2%に増加しました。ここでも、GPT-4は研究者らが発行したCOTコマンドに従わなかった。

研究者がLLMにデリケートな質問やリスクのある質問をした場合にも変化が観察されました。 GPT-4 の質問に答える意欲は時間の経過とともに減少し、3 月の 21.0% から 6 月の 5.0% になりました。対照的に、GPT-3.5 はよりおしゃべりになり、2.0% から 5.0% に増加しました。研究者らは、OpenAIがGPT-4で「より強力な安全層」を採用したのに対し、GPT-3.5は「より保守的でなくなった」と結論付けた。

世論調査のテストでは、GPT-4 が意見を提出する可能性が 3 月の 97.6% から 3 月の 22.1% に大幅に低下し、長さ (または単語数) が 30 パーセントポイント近く増加したことが示されました。 GPT-3.5 の回答率と長さにはほとんど変化がありませんでした。

「マルチホップ推論」を必要とする複雑な質問に答える場合、パフォーマンスに大きな違いがあることがわかりました。研究者らは、LangChain のインスタント エンジニアリング機能と HotpotQA Agent (マルチホップの質問に回答するため) を組み合わせ、GPT-4 の完全一致回答生成の精度が 1.2% から 37.8% に向上したことを指摘しました。ただし、GPT-3.5 の「完全一致」成功率は 22.8% から 14.0% に低下しました。

コード生成に関しては、研究者らは両方の LLM の出力の実行可能性が低下していることを確認しました。 GPT-4 の出力は 3 月には直接実行可能率が 50% を超えていましたが、6 月には 10% にまで低下し、GPT-3.5 でも同様に低下しました。研究者たちは、GPT が Python 出力に余分な句読点などの非コードテキストを追加し始めたことを発見しました。彼らは、追加の非コードテキストはブラウザでコードをレンダリングしやすくするためのものだが、コードを実行不可能にしてしまうと論じた。

GPT-4 の米国医師免許試験における成績は 86.6% から 82.4% にわずかに低下し、GPT-3.5 は 1 パーセントポイント未満低下して 54.7% となりました。しかし、GPT-4 が間違えた回答は時間の経過とともに変化しており、3 月の誤った回答の一部が修正されたため、LLM も正解から不正解へと変化したことを示しています。

視覚的推論テストでは、両方のモデルでわずかな改善が見られました。ただし、全体的な精度(GPT-4 では 27.4%、GPT-3.5 では 12.2%)は高くありません。研究者たちは、モデルが以前に正しく答えた質問に対して再び間違った答えを出したことを観察した。

テストの結果、GPT-3.5とGPT-4のパフォーマンスと動作が短期間で大幅に変化したことがわかったと研究者らは書いている。

「これは、アプリケーションにおける LLM のドリフト動作を継続的に評価および評価する必要があることを浮き彫りにしています。特に、ChatGPT などの LLM が時間の経過とともにどのように更新されるかは透明ではないためです」と研究者らは書いています。「私たちの研究は、LLM 機能の複数の側面を均一に改善するという課題も浮き彫りにしています。追加データによる微調整など、一部のタスクでモデルのパフォーマンスを向上させると、他のタスクでの動作に意図しない副作用が生じる可能性があります。これと一致して、GPT-3.5 と GPT-4 はどちらも一部のタスクでは悪化しますが、他のタスクでは改善します。」

<<:  5つのユニークで興味深いChatGPTコマンド

>>:  日常の問題を自動的に解決する 5 つの AI API

ブログ    
ブログ    
ブログ    

推薦する

データコレクターでリアルタイム機械学習に TensorFlow を使用する方法

【51CTO.com クイック翻訳】ビジネス ユーザーとアプリケーションがさまざまなソースからの生デ...

中国の人工知能産業市場はどれくらい大きいのでしょうか? 2021年の6つの主要トレンド

2016年、AlphaGoが囲碁九段の名人であるイ・セドル氏を破り、大きな話題となり、人工知能の話題...

マスク氏に敵対的買収の疑い!ツイッター株を受け取ったが取締役会には参加せず、訴訟を起こされている

これはすべて悪意のある計画ですか? ツイッター株を7000万株以上購入した後、マスク氏は取締役会への...

デジタルツインブレイン:生物と人工知能の架け橋

人間の脳の構造にヒントを得た神経科学と AI 技術の最近の一連の進歩により、知性の謎を解き明かす新た...

...

AIGCの投資刺激策のおかげで、マイクロソフトとグーグルのクラウドコンピューティング事業は大幅に成長した

MicrosoftとGoogleはAI市場の支配を競っており、両社ともAIハードウェアに多額の投資を...

5Gについて知っておくべきことは何ですか?

1G の時代では、電話をかけたり受けたりすることしかできませんでした。 2G 時代は、電話をかけた...

なぜ人工知能 + ヘルスケアは投資家に人気があるのでしょうか? 人工知能は医療問題を解決できるのでしょうか?

2018 年には、製薬会社上位 10 社だけで 3,000 億ドルを超える収益を生み出すでしょう。...

RWKV の紹介: リニア トランスフォーマーの台頭と代替案の検討

RWKV ポッドキャストからの私の考えの一部を要約すると次のようになります: https://www...

...

時代の流れに乗り、華麗に変革を遂げる UiPath RPA が上海ノキアベルの新たな航海をサポートします。

上海ノキアベル株式会社(以下、「ノキアベル」)は、ノキアグループと中国保利集団の子会社である華新郵電...

機械学習における特徴選択の3つの代替手法

ソレダッド・ガリ翻訳者:趙青棠企画丨孫淑娇、梁策インターネットで「特徴選択」を検索してみると、特徴選...

AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

[[263771]] 5Gの進歩に伴い、コスト面でも速度面でも、中国の5Gなしでは5Gを推進するの...

過去10年間のGoogleアルゴリズムの変化

Google のアルゴリズムは毎年 500 ~ 600 回も変更されますが、その多くは小さな変更です...