スタンフォード大学の研究によると、AIチャットボットChatGPTのパフォーマンスは非常に不安定であることが判明

スタンフォード大学の研究によると、AIチャットボットChatGPTのパフォーマンスは非常に不安定であることが判明

9月7日、スタンフォード大学の新たな研究により、人気の生成型人工知能(AI)チャットボット「ChatGPT」の機能が数か月にわたって変動していることが判明した。

スタンフォード大学のチームは、数か月にわたって ChatGPT がさまざまなタスクをどのように処理するかを評価しました。彼らは、ChatGPT の機能が時間の経過とともに一貫性を失っていることを発見しました。現在、ChatGPT には、無料の GPT-3.5 モデルと、よりスマートで高速な有料の GPT-4 バージョンの 2 つのバージョンがあります。 研究者らは3月にGPT-4が97.6%の精度で素数を識別し、数学の問題を効果的に解くことができることを発見した。 3か月後、その精度は2.4パーセントに低下しました。一方、GPT-3.5 は精度が 7.4% から 86.8% に向上し、大幅に改善しました。

研究者たちは、コードの記述と視覚的推論においても同様の変動があることに気づきました。スタンフォード大学のコンピューターサイエンス教授、ジェームズ・ゾウ氏は次のように述べている。「大規模な言語モデルを調整して、一部のタスクでのパフォーマンスを向上させると、他のタスクでのモデルのパフォーマンスに悪影響を与える予期しない結果が多数発生する可能性があります。モデルが質問に答える方法にはあらゆる種類の相互依存性があり、それが私たちが観察しているような動作の低下につながる可能性があります。」

研究者たちは、この結果はChatGPTのパフォーマンスの正確さを真に反映したものではなく、むしろモデルを微調整したことによる意図しない結果を示していると考えています。基本的に、 1 つのタスクを改善するためにモデルの一部を変更すると、他のタスクに影響が出る可能性があります。 ChatGPT がどのように動作するのか誰も知らず、そのコードはオープンソースではないため、なぜそうなるのかを突き止めるのは困難です。

時間が経つにつれて、研究者たちはChatGPTの応答の精度が低下するだけでなく、その理由を説明しなくなることに気づいた。

ChatGPT の動作方法により、そのパフォーマンスを調査して測定することが困難な場合があり、この研究では、ChatGPT のようなツールを駆動する大規模言語モデル (LLM) のパフォーマンスの変化を観察し評価する必要性を強調しています。この研究はarXivで公開されており、査読待ちです。こちらがリンクです。

<<:  ユネスコは世界初の生成型AI教育ガイドを発行し、各国に関連法規制の策定、教師研修の実施を要請

>>:  生成 AI は私たちに必要な技術革命でしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPTは故意に嘘をついたのでしょうか?ハーバード大学がITIを提案: モデルの信頼性を2倍にし、計算オーバーヘッドをほぼゼロにする

ChatGPT などの大規模な言語モデルは、回答に誤った情報を出力することが多く、ユーザーを誤解させ...

AIは50個の三角形を使って、ポストモダンな雰囲気を持つモナリザの抽象版を描きます

[[425382]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

毎日 12 時に出勤し、ガールフレンドと過ごすために定時に退勤するプログラマーである私が、なぜいつも残業するのでしょうか。 !

社内で髪の多いプログラマートップ3の1人として、私はいつも髪に頼って残業しています。若い人たち、なぜ...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

畳み込みニューラル ネットワークの設計を始めたいですか?これは包括的なデザインガイドです

画像分類を始めたいが、どこから始めればよいか分からない。どの事前トレーニング済みネットワークを使用す...

情報格差を打破せよ!大規模モデル向けの驚異的な 3D 視覚化ツールです。

最近、ニュージーランド出身のブレンダン・バイクロフトという男がテクノロジー界で大流行を巻き起こしてい...

ICML 2023 優秀論文賞発表!北京大学の卒業生が作品で賞を受賞、3人の中国人作家が作品に参加、DeepMindとAppleも選出

ICML 2023 の賞品が発表されました!今年は32件の候補論文の中から6件が優秀論文賞を受賞しま...

顔認識会社Clearviewのソースコードがサーバーの設定ミスにより公開される

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...

このバイオメディカル AI アプリケーションは信頼できますか?まずはシリコンバレーのトップベンチャーキャピタリストに6つの質問に答えてください

[[375650]]生物学分野における人工知能の応用は飛躍的に進歩しています。創薬、診断開発からヘル...

IBM Watson Healthの大規模レイオフによるAI導入の苦痛

少し前、The Register紙はIBMの内部情報筋が、ワトソン・ヘルス部門が従業員の約50%から...

ロボットが自閉症児の社会スキルの発達を助ける

自閉症は、社会的、感情的、コミュニケーション的、行動的な課題を伴う発達障害です。自閉症と診断された子...