GPT-4の知能は突然低下した。OpenAIがアーキテクチャを再設計し、コストを削減して効率を高めるためにMOEを使用したことが明らかになった。公式の噂は否定されたが、ネットユーザーはそれを信じなかった。

最近、多くの OpenAI ユーザーから、GPT-4 が愚かになったという報告がありました。

写真

GPT-4 は 5 月以降、より速くコンテンツを生成するようになったと一般的に考えられていますが、コンテンツの品質は著しく低下しています。

OpenAI フォーラムには、2 か月前に同じプロンプトで生成されたコンテンツと比較すると、GPT-4 の機能は最大でも GPT-3.6 になったと述べて、独自に生成したコンテンツを投稿したユーザーもいます。

写真

彼らは皆、毎月支払わなければならない20ドルを残念に思っていると述べました。

写真

しかし、GPT-4 のヘビーユーザーからの苦情を数多く読んだ後、私は突然ため息をつき始めました。

GPT-4 は確かにはるかに先を行っています。

このリードは、他の企業の大規模モデルが数日ごとに更新バージョンをリリースし、できるだけ早く OpenAI に追いつこうと残業するほどのレベルに達しています。

一方、自社はひっそりと「コスト削減と効率アップ」と「逆アップグレード」を進め、大型モデル界における「反崩壊モデル」となった。

パフォーマンス低下の考えられる原因

ユーザーは、GPT-4 のパフォーマンスの低下について合意に達し、GPT-4 の「低下」の理由について議論し始めているようです。

海外メディアの報道によると、言語モデル分野の専門家の中には、OpenAIが大規模モデルのように動作するが実行コストが低い複数の小規模なGPT-4モデルを作成していると推測する人もいる。

Sharon Zhouという専門家によると、OpenAIはGPT-4を構築するためにMixture of Experts（MOE）と呼ばれるフレームワークを使用したとのことです。

それぞれの小規模なエキスパートモデルは、異なるタスクと主題領域でトレーニングされます。

生物学専用のミニ GPT-4 モデルや、物理学、化学などの分野専用のミニモデルが存在する可能性があります。

GPT-4 ユーザーが質問すると、新しいシステムが判断を下し、プロンプトを 1 つまたは複数の専門家モデルに送信します。

「このアイデアはしばらく前から存在しており、自然な流れだ」と周氏は語った。

周氏はこの状況を、船のさまざまな部品が徐々に交換され、船全体がゆっくりと新しい船になる「テセウスの船」に例えた。

「OpenAIはGPT-4を小型船の艦隊に変えています」と彼女は語った。

私の観点からすると、これは新しいモデルですが、多くの人はこの変更を気にしないかもしれません。「

今週、GPT-4に関する大量のパラメータ詳細がオンラインで漏洩した後、多くの有力者も、そこに記載されているMoEの部分について独自のコメントを出しました。

アレン人工知能研究所の創設CEO、オーレン・エツィオーニ氏は、外国メディアとのインタビューで次のように述べた。「これらの推測はおおよそ正確だと思うが、確実に確認する方法はない。」

MOE を使用する主な理由は、発電応答の向上と、応答の低コスト化、高速化の 2 つであると説明しました。

エツィオーニ氏は次のように付け加えた。「専門家のモデルを適切に組み合わせれば、両方の長所を活かすことができますが、何事にも言えることですが、通常はコストと品質の間にトレードオフがあります。」

この仮説が真実であれば、OpenAI はコストを削減するために実際にある程度の品質を犠牲にした可能性があります。

もうひとつの証拠は、OpenAI の創設者である Greg Brockman 氏が、自身が参加した研究の中で MOE の技術的道筋について言及したことがあることです。

「専門家混合（MoE）アプローチを使用すると、ネットワークのごく一部だけが一度に使用され、1つの入力に対する出力が計算されます。これにより、計算コストを増やすことなく、より多くのパラメータを追加できます」とブロックマン氏と同僚のリリアン・ウェン氏は論文に記しています。

写真

パフォーマンスの低下は有害なコンテンツの削除に関連している可能性があります

大物たちの技術的な観点からの分析に加え、ネットユーザーたちもさまざまな角度から推測した。

一部のネットユーザーは、OpenAIの比較的保守的な倫理方針がモデルの応答の質を低下させた可能性があると考えている。

公式 OpenAI フォーラムの GPT 関連のサブフォーラムでは、ChatGPT のパフォーマンスが「低下した」と考える人たちの中に、OpenAI が新しいコンテンツ制限を採用する前は、ChatGPT は Prompt の包括性の点で大きく変化していたと述べる人が多かった。

これは、OpenAI が安全上の理由からモデルの出力機能と範囲を制御した可能性があるという見解を間接的に裏付けています。

写真

YCombinatorでの議論の中で、一部のネットユーザーは、OpenAIが安全性の問題に対する懸念を発表し始めてから、モデルのパフォーマンスがどんどん悪化していると指摘した。

GPT-4 が最初にリリースしたレポートにある、TikZ (TikZ はおそらく LaTex でグラフィック要素を作成するための最も複雑で強力なツールです) を使用してユニコーンを描くタスクを例に挙げてみましょう。GPT-4 のその後のリリースでは、レポートの結果を再現することが難しく、パフォーマンスはどんどん悪化しました。

写真

一方、ネットユーザーは、GPT-4 のパフォーマンスが低下した理由は、安全上の理由から人間が一連の矛盾した信念を GPT-4 に植え付けたことにあるのではないかと考えています。

安全上の理由から「悪い考え」を排除するというこのアプローチは、明らかに GPT-4 が物事をより深く理解することを妨げるでしょう。

写真

実際、OpenAI は暴力、人種差別、ヘイトスピーチなどの悪意のある行為を防ぐためにさまざまなフィルターを設定しています。

ただし、これらのフィルターは、小説の執筆、ブレーンストーミング、その他の創造的な作業などの通常の使用を妨げることがよくあります。

これらの変更の影響を測定することは困難ですが、OpenAI の創設者 Sam Altman 氏は、ポリシーの制限がユーザーエクスペリエンスに支障をきたすことを認めました。

写真

さらに、5月29日に行われたHumanloopの共同設立者Raza氏とSam Altman氏との会話の中で、Altman氏はOpenAIは現在GPUの数によって厳しく制限されていると述べた。

写真

ChatGPT のユーザー数が 1 億人を突破し、月間アクティブ回数が 18 億回に達したため、OpenAI のサーバーは頻繁に過負荷状態になりました。

コンピューティング能力の不足により、多くの短期計画が遅れただけでなく、GPT の回答コンテンツの信頼性について顧客から多くの苦情や論争が発生しました。