スタンフォード大学は、GPT-4 が愚かになったことを確認しました。 OpenAIの最新の回答: 確かに「知能の低下」は起きている

スタンフォード大学は、GPT-4 が愚かになったことを確認しました。 OpenAIの最新の回答: 確かに「知能の低下」は起きている

写真

大型模型天井GPT-4、だんだんと鈍くなってきているのでしょうか?

これまでにも多くのユーザーが疑問を呈し、多くの証拠を投稿してきました。これに対して、OpenAIは7月14日に次のように明言した。「GPT 4を愚かにしたわけではありません。それどころか、新しいバージョンが出るたびにGPT 4は以前よりも賢くなります。」

写真

ピーター・ウェリンダーはOpenAIのプロダクト担当副社長です。

しかし、OpenAIの主張を検証するために、スタンフォード大学とカリフォルニア大学バークレー校の3人の研究者が、3月から6月までのChatGPTのパフォーマンスの変化を調査した。

写真

論文アドレス: https://arxiv.org/abs/2307.09009

評価対象には、GPT-3.5 と GPT-4 という 2 つの大規模モデルが含まれ、数学の問題、機密性の高い/危険な質問への回答、コード生成、視覚的推論という 4 つのタスクでテストされます。

調査の結果、GPT-4 のパフォーマンスは確かに低下していたことが判明しました。

たとえば、数学の問題では、GPT-4 の 2023 年 3 月バージョンは 97.6% の精度で素数を識別できましたが、GPT-4 の 2023 年 6 月バージョンはこのタスクでのパフォーマンスが低く (精度はわずか 2.4%)、一貫した思考プロンプトを無視しました。

写真

このような科学的な実験的証拠に応えて、OpenAIはブログ投稿「関数呼び出しとその他のAPIアップデート」を更新し、一部のタスクのパフォーマンスが実際に低下したと述べた。

新しいモデルをリリースする必要があるかどうかを判断するために、多数の評価指標を検討します。ほとんどの指標は改善されていますが、パフォーマンスが悪化するタスクもいくつかある可能性があります。

新しいモデルをリリースするかどうかは、多数の評価指標に基づいて決定されます。新しいモデルのほとんどの指標は改善されていますが、一部のタスクではモデルのパフォーマンスが低下する可能性があります。

これが、API ユーザーがモデル バージョンを固定できるようにする理由です。たとえば、最新のモデル バージョンを指す汎用 gpt-4 の代わりに gpt-4-0314 を使用できます。

このため、API ユーザーは固定バージョン モデルを使用できます。たとえば、最新の gpt-4 バージョンを使用する代わりに、ユーザーは gpt-4-0314 を使用することを選択できます。

個別に固定された各モデルは安定しており、出力に影響を与える変更は行われません。

さらに、OpenAI はモデルの修正バージョンに対して、出力に影響を与える可能性のある変更は行いません。

では、GPT-4 は具体的にどのタスクで劣化したのでしょうか?論文の詳細を見てみましょう。

実験プロセスとその他の結論

写真

この論文では、著者らは各タスクの主なパフォーマンス指標を設定しています。たとえば、数学の問題を解くタスクの場合、主なパフォーマンス指標は正確性であり、デリケートな質問に答えるタスクの場合、主なパフォーマンス指標は回答率です。さらに、すべてのタスクに対して、冗長性と重複という 2 つの共通の補完的なメトリックを設定しました。

写真

前述のように、数学の問題テストでは、著者らは素数判定問題を解く際のGPT-4とGPT-3.5の「時間パフォーマンス」を研究しました。実験方法は、Chain-of-Thought 法を使用してデータ セット内の 500 の質問に答えることです。

結果は、2つのモデルに明らかな矛盾が見られることを示しました。GPT-4の精度は3月の97.6%から6月の2.4%に低下しました。同時に、GPT-3.5の精度は7.4%から86.8%に向上しました。さらに、GPT-4 の回答はより簡潔ですが、GPT-3.5 の回答はより長くなります。

この違いの理由は、思考連鎖効果に関係している可能性があります。例えば、3 月版の GPT-4 では、思考連鎖の手順をうまくたどって 17077 が素数かどうかを判断できましたが、6 月版では直接「いいえ」と回答しました。 3 月の GPT-3.5 では、最初に「いいえ」と答えてから理由を述べる傾向がありましたが、6 月のバージョンではこの問題が修正され、最初に推論手順を正しく記述してから正しい答え「はい」が示されるようになりました。これは、思考連鎖などの同じプロンプト方法であっても、モデルの変更によりパフォーマンスが大きく異なる可能性があることを示唆しています。

センシティブな質問のテストでは、著者らは、大規模モデルでは直接回答できないセンシティブな質問 100 件のデータセットを作成し、すべての回答に手動でラベルを付けました。

写真

結果によると、3月から6月の間​​に、センシティブな質問に直接答えるGPT-4の割合は21.0%から5.0%に減少し、GPT-3.5の割合は2.0%から8.0%に増加しました。これは、GPT-4はセキュリティが強化されているのに対し、GPT-3.5には対応する操作がないことが原因であると考えられます。

同時に、GPT-4 の応答のテキストの長さは 600 語以上から約 140 語に短縮されました。

一方、大規模モデルの「ジェイルブレイク」は、サービスのセキュリティに大きな脅威をもたらします。著者らは、架空のストーリーを構築して大規模モデルをフィルタリングされていない非道徳的なチャットボットのように動作させる AIM (always intelligence and Machiavellian) と呼ばれる攻撃を使用しました。

結果は、AIM 攻撃を受けた場合、GPT-4 と GPT-3.5 の両方の応答率が大幅に増加したことを示しています。ただし、GPT-4 の防御はアップデート後に大幅に強化され、3 月の回答率が 78% から 6 月の 31.0% に向上しましたが、GPT-3.5 の回答率はそれほど変化せず、わずか 4% の減少にとどまりました。これは、GPT-4 が GPT-3.5 よりも脱獄攻撃に対して防御力が高いことを示しています。

写真

コード生成能力テストでは、著者らは最新の 50 個の LeetCode「簡単な」問題を含む新しいコード生成データセットを作成しました。結果によると、「直接実行可能な」ビルドの数は 3 月から 6 月にかけて減少しました。

上の図に示すように、3 月には GPT-4 によって生成された結果の 50% 以上が「直接実行可能」でしたが、6 月には 10% しか残っていませんでした。 GPT-3.5 でも状況は同様で、2 つのモデルで生成された結果の冗長性もわずかに増加しています。

この点に関して、スタンフォード大学の研究者は、生成されたコードに非コードテキストが追加されることが原因ではないかと推測している。

写真

上図に示すように、3月と6月にGPT-4によって生成されたコードには違いがあります。たとえば、6 月のバージョンでは、コード スニペットの前後に「python」と「'''」が追加され、コード ブロックをマークするために使用できるほか、より多くのコメントも生成されます。

視覚的推論テストでは、研究者は評価に ARC データセットを使用しました。このデータセットのタスクは、いくつかの例が与えられた入力メッシュに基づいて出力メッシュを作成することです。

写真

図1: 視覚的推論の全体的なパフォーマンス

3月版から6月版にかけて、GPT-4とGPT-3.5の全体的なパフォーマンスは約2%向上しました。生成された長さはほぼ同じままです。

GPT-4 と GPT-3.5 の両方のパフォーマンスの向上はわずかです。しかし、3 月版と 6 月版では、ビジュアル パズルのクエリの 90% で同じ結果が出ました。これらのサービスの全体的なパフォーマンスも低く、GPT-4 の精度は 27.4%、GPT-3.5 の精度は 12.2% です。

専門家は推測する:おそらくそれはMoE技術に関連している

GPT-4 が愚かになることに関して、学術界では以前、その後の RLHF トレーニングによって GPT-4 はより人間に近づき、つまり人間の指示に従順になり、人間の価値観に沿ったものになったものの、GPT-4 自身の推論能力やその他の能力も低下したという見解がありました。

言い換えれば、人間による過酷な「教化」によって、GPT-4 の大脳葉の白質が除去されたのです。

写真

一部の専門家は、GPT が愚かになる理由は、その「専門家の混合」(MOE) 構造に関連していると考えています。

MoE 技術は、ニューラル ネットワークの分野で開発された統合学習技術です。数兆個のパラメータを持つモデルをトレーニングするための重要な技術でもあります。この段階では、モデルの規模が大きくなるにつれて、トレーニング コストも増加しています。MoE 技術は、一部のニューラル ネットワークを動的にアクティブ化できるため、計算量を増やすことなく、モデル パラメータの数を大幅に増やすことができます。

具体的には、MoE は予測モデリングタスクをいくつかのサブタスクに分解し、各サブタスクでエキスパートモデルをトレーニングし、予測する入力に基づいてどのエキスパートを信頼するかを学習し、予測結果を組み合わせるゲーティングモデルを開発します。

MoE テクノロジーが GPT-4 に適用されると、GPT-4 のこれらの小さなエキスパート モデルは、さまざまなタスクや分野に合わせてトレーニングされます。たとえば、生物学、物理学、化学などの小さな GPT-4 エキスパート モデルを作成できます。その後、ユーザーが GPT-4 に質問すると、新しいシステムはどのエキスパート モデルに質問を送信するかを認識します。また、念のため、新しいシステムでは 2 つ以上のエキスパート モデルにクエリを送信し、その結果を組み合わせる可能性があります。

業界の専門家はこのアプローチを「テセウスの船」と表現し、OpenAI が時間の経過とともに GPT-4 のさまざまな部分を置き換えることを意味しています。「OpenAI は GPT-4 を小さな艦隊に変えつつあります。」

注: テセウスの船は、物体のすべての構成要素が完全に置き換えられた後も物体が元のアイデンティティを保持するかどうかという哲学的なパラドックスを探求する古代ギリシャの思考実験です。つまり、船のすべての部品が交換された後でも、その船は元の船のままでしょうか?

そのため、GPT-4の愚かさは、MoEのトレーニング方法に関係している可能性が高い。「ユーザーがGPT-4をテストするとき、私たちはさまざまな質問をします。小規模なGPT-4エキスパートモデルはそれほどうまくいきませんが、私たちのデータを集めているので、改善して学習します」とスタンフォード大学の非常勤教授、シャロン・ゾウ氏は紹介した。

写真

専門的な研究チームに加えて、AIに関心のあるネットユーザーも独自の方法でAI機能の変化を追跡しています。たとえば、誰かが GPT-4 に 1 日に 1 回ユニコーンを描くように依頼し、それを Web サイトで公開記録したとします。上図の通り、現在の形状です。

写真

実際のところ、4月14日から現在に至るまで、ユニコーンの全体的な形はまだ見られていません。

<<:  Wolfram言語の父: ChatGPT は何ができるのか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

施設管理の未来: 2024 年までの業界動向

2024 年に向けて、業界では建物の管理と保守の方法に影響を与えるいくつかの刺激的な変化が起こるでし...

Zhiyuanは3億個のセマンティックベクトルモデルトレーニングデータを公開し、BGEモデルは反復と更新を続けています

大規模モデルの開発と応用が急速に発展するにつれ、大規模モデルの中核となる基本コンポーネントとしての埋...

人工知能は医療現場の診断や治療の決定に役立つ

必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...

液体冷却が高性能コンピューティング インフラストラクチャに関連する課題を克服する方法

新型コロナウイルス感染症の流行から2、3年が経ち、私たちの日常生活の機能を維持するために、データセン...

研究者はディープラーニングを使用して巡回セールスマン問題を解決する上でどの程度進歩しましたか?

組合せ最適化問題の背景組み合わせ最適化は、NP 困難な制約付き最適化問題を解決することを目的とした、...

...

銀行は人工知能を導入し、スマートな顧客サービス以上のものを提供している

[[433578]]最近、ある有名なメディア関係者が銀行からカスタマーサービスに電話を受け、しばらく...

...

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

[51CTO.com クイック翻訳] Facebook を利用する何十億もの人々にとって、私たちのサ...

OpenAIも996に取り組んでいますか?元従業員が告白:コード貢献度4位、6日間勤務することが多かった

AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...

会話型AIを導入する際に考慮すべき6つの質問

会話型人工知能 (AI) プロジェクトを正常に展開することは、他のデジタル ビジネス プロセスのアッ...

...

約 200 以上の自動運転データセットの包括的な調査!データクローズドループプロセス全体の概要

序文と個人的な理解自動運転技術は、最新のハードウェアとディープラーニング手法の進歩により急速に発展し...

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な...