スタンフォード大学とカリフォルニア大学バークレー校(UCLA)の研究者による新しい研究では、これらの大規模言語モデル(LLM)の動作が「大幅なドリフト」を起こしていることを示す証拠がいくつか示されていますが、それは必ずしも能力の低下を意味するものではありません。 この調査結果は、ChatGPT のようなブラックボックス AI システム上にアプリを構築することのリスクについてユーザーに警告しており、時間の経過とともに一貫性のない、または予測できない結果が生じる可能性があります。その理由は、GPT などのモデルがどのようにトレーニングされ、更新されるかに透明性が欠けており、パフォーマンスの変化を予測したり説明したりすることが不可能だからです。 ChatGPTのパフォーマンス低下についてユーザーが不満を訴える今年5月には、OpenAIフォーラムで、GPT-4が以前はうまくできていた処理が難しくなっているとユーザーが不満を漏らしていた。一部のユーザーは、パフォーマンスの低下だけでなく、OpenAI の対応と説明の欠如にも不満を抱いていました。 Business Insiderは7月12日、ユーザーはGPT-4が以前の推論機能やその他の出力に比べて「怠惰」または「愚か」になったと感じていると報じた。 OpenAIからの返答がなかったため、業界の専門家たちはGPT-4のパフォーマンス低下の理由について推測したり調査したりし始めました。 OpenAI は ChatGPT の実行コストを削減するために、API の背後でより小さなモデルを使用したと考える人もいます。他の人々は、同社が複数の小規模な特化モデルを汎用 LLM 1 つに置き換えて、専門家混合 (MOE) アプローチを実行していると推測しました。 さまざまな疑問に直面して、OpenAIはGPT-4を意図的に愚かにしたという主張を否定した。 「まったく逆です。私たちは新しいバージョンを以前のバージョンよりも賢くしています」とOpenAIの製品担当副社長ピーター・ウェリンダー氏はツイートした。「たくさん使えば、以前は気づかなかった問題に気づき始めるだろうというのが前提です。」 トップ大学がChatGPTのパフォーマンスをテストChatGPTの動作が時間の経過とともにどのように変化するかを検証するために、スタンフォード大学とUCLAの研究者は、それぞれ2023年3月と6月にGPT-3.5とGPT-4の2つのバージョンをテストしました。 彼らは、数学の問題、デリケートな質問への回答、コード生成、視覚的推論という 4 つの一般的なベンチマーク タスクでこれらのモデルを評価しました。これらは、LLM を評価するためによく使用される種類の多様なタスクであり、比較的客観的であるため、評価が容易です。 研究者たちは2つのモデルのパフォーマンスを評価するために2セットの指標を使用しました。主な指標はタスクに固有のものです (例: 数学的正確性、コーディングの簡単な実行)。また、詳細度(出力の長さ)と重複度(2 つの LLM バージョンの回答間の類似度)も追跡しました。 ChatGPTのパフォーマンスは3月から6月にかけて低下している。数学の問題では、研究者らは法学修士課程の学生の推論能力を刺激するためによく使用される「思考連鎖」プロンプトを使用した。調査結果では、モデルのパフォーマンスに大きな変化が見られました。3月から6月にかけて、GPT-4の精度は97.6%から2.4%に低下し、応答の長さは90%以上も減少しました。 GPT-3.5 は逆の傾向を示し、精度は 7.4% から 86.8% に上昇し、冗長性は 40% 増加しました。 研究者らは、「この興味深い現象は、同じプロンプト方法、たとえ広く採用されている方法(思考連鎖など)であっても、LLM のパフォーマンス ドリフトによってパフォーマンスが大幅に異なる可能性があることを示唆している」と述べています。 デリケートな質問に答える場合、LLM は物議を醸す質問に答える頻度で評価されます。 3月から6月にかけて、GPT-4の直接回答率は21%から5%に低下し、モデルがより保守的になったことを示しています。同時に、GPT-3.5 の直接回答率は 2% から 8% に増加しました。両モデルとも、3月のバージョンと比較して、6月に不適切な質問を拒否する際の説明が少なくなりました。 「これらのLLMサービスはより保守的になったかもしれないが、特定の質問に答えることを拒否する理由も少なくなっている」と研究者らは書いている。 コード生成プロセス中に、研究者は、コードを実行して評価するオンライン審査員に LLM 出力を提出することで、LLM 出力が直接実行可能かどうかをテストしました。結果によると、3 月には GPT-4 出力の 50% 以上が直接実行可能でしたが、6 月には 10% にしかならなかったことがわかりました。 ChatGPT 3.5 の場合、実行可能ファイルの出力は 3 月の 22% から 6 月の 2% に減少しました。 6 月のバージョンでは、コード スニペットの周囲に実行不可能なシーケンスが頻繁に追加されました。 「LLM で生成されたコードが大規模なソフトウェア パイプライン内でいつ使用されるかを判断するのは特に困難です」と研究者らは警告している。 視覚的推論については、研究者らは抽象推論コーパス (ARC) データセットの例のサブセットでモデルを評価しました。 ARC は、抽象的なルールを推論するモデルの能力をテストするために設計されたビジュアルパズルのコレクションです。 GPT-4 と GPT-3.5 の両方でパフォーマンスがわずかに向上したことがわかりました。しかし、全体的なパフォーマンスはまだ低く、GPT-4 では 27.4%、GPT-3.5 では 12.2% となっています。しかし、GPT-4の6月版では、3月に正しく回答していたいくつかの質問に誤りがありました。 「これは、特に重要なアプリケーションにおいて、きめ細かいドリフト監視の必要性を浮き彫りにしている」と研究者らは書いている。 ChatGPTのパフォーマンス低下は誤解かもしれない論文が発表された後、プリンストン大学のコンピューター科学者で教授のアルビンド・ナラヤナン氏とコンピューター科学者のサヤシュ・カプール氏は、一部のメディアが論文の結果を誤解し、GPT-4が悪化したと信じていたと考えた。 「残念ながら、これはメディアで報じられた論文の結果を単純化しすぎたものだ」と2人は記事の中で述べた。「結果は興味深いが、いくつかの手法には疑問が残る」 たとえば、評価で使用される 500 個の数学の問題はすべて「数 X は素数ですか?」であり、データセット内のすべての数は素数です。 GPT-4 の 3 月バージョンでは、ほぼ常にその数が素数であると推測しましたが、6 月バージョンでは、ほぼ常にその数が合成数であると推測しました。 「著者らは、素数のみをテストしたため、パフォーマンスが大幅に低下したと解釈している」とナラヤナン氏とカプール氏は論文に記している。「GPT-4を500個の合成数でテストしたところ、このパフォーマンスの低下は見られなくなった。」 全体として、ナラヤナン氏とカプール氏は、ChatGPT の動作は変化するが、それが必ずしも能力が低下することを意味するわけではないと主張しています。 ChatGPT のような AI アプリケーションはまだ信頼できますか?論文の調査結果は必ずしもモデルが悪化したことを示唆しているわけではないが、モデルの挙動が変化したことは確認している。 研究者らは、GPT-3.5 と GPT-4 の動作の変化は、実稼働アプリケーションにおける LLM の動作を継続的に評価および評価する必要性を強調していると結論付けました。 LLM をコンポーネントとして使用するソフトウェア システムを構築する際には、信頼性と説明責任を確保するために、新しい開発手法とワークフローを開発する必要があります。 パブリック API を介して LLM を使用するには、新しいソフトウェア開発プラクティスとワークフローが必要です。継続的なワークフローの一部として LLM サービスを使用するユーザーや企業に対して、研究者は継続的な監視分析を実装することを推奨しています。 この調査結果は、LLM のトレーニングと調整に使用されるデータと方法の透明性を高める必要性も浮き彫りにしています。このような透明性がなければ、その上に安定したアプリケーションを構築することは非常に困難になります。 |
<<: 自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士
>>: エッジ AI はスマート シティの持続可能な開発にどのように貢献するのでしょうか?
翻訳 | 江凡百理子杰樹校正 | ロリン最新の KDnuggets 調査では、データ サイエンティス...
毎年恒例のスーパーボウル決勝戦の前に、Amazon は「Alexa の新しい形」というもう一つの大ヒ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...
AIはコンサルティング業界に新たな春をもたらすでしょうか?大手コンサルティング会社の AI 開発部...
[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...
マスク氏のxAI、初の公開研究成果がここに!共著者の一人は、xAI の創設メンバーであり Shing...
6月30日、ソーシャルメディアプラットフォームはユーザーエクスペリエンスを向上させるためにAIアル...
近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...
対話型音声応答 (IVR) システムにおける人工知能 (AI) の変革的役割と、それが IVR テス...
GoogleのGeminiは今年初めのAI製品戦争ではあまり注目されなかったが、世界最先端のAI組織...