写真 大型模型天井GPT-4、だんだんと鈍くなってきているのでしょうか? これまでにも多くのユーザーが疑問を呈し、多くの証拠を投稿してきました。これに対して、OpenAIは7月14日に次のように明言した。「GPT 4を愚かにしたわけではありません。それどころか、新しいバージョンが出るたびにGPT 4は以前よりも賢くなります。」 写真 ピーター・ウェリンダーはOpenAIのプロダクト担当副社長です。 しかし、OpenAIの主張を検証するために、スタンフォード大学とカリフォルニア大学バークレー校の3人の研究者が、3月から6月までのChatGPTのパフォーマンスの変化を調査した。 写真 論文アドレス: https://arxiv.org/abs/2307.09009 評価対象には、GPT-3.5 と GPT-4 という 2 つの大規模モデルが含まれ、数学の問題、機密性の高い/危険な質問への回答、コード生成、視覚的推論という 4 つのタスクでテストされます。 調査の結果、GPT-4 のパフォーマンスは確かに低下していたことが判明しました。 たとえば、数学の問題では、GPT-4 の 2023 年 3 月バージョンは 97.6% の精度で素数を識別できましたが、GPT-4 の 2023 年 6 月バージョンはこのタスクでのパフォーマンスが低く (精度はわずか 2.4%)、一貫した思考プロンプトを無視しました。 写真 このような科学的な実験的証拠に応えて、OpenAIはブログ投稿「関数呼び出しとその他のAPIアップデート」を更新し、一部のタスクのパフォーマンスが実際に低下したと述べた。
では、GPT-4 は具体的にどのタスクで劣化したのでしょうか?論文の詳細を見てみましょう。 実験プロセスとその他の結論写真 この論文では、著者らは各タスクの主なパフォーマンス指標を設定しています。たとえば、数学の問題を解くタスクの場合、主なパフォーマンス指標は正確性であり、デリケートな質問に答えるタスクの場合、主なパフォーマンス指標は回答率です。さらに、すべてのタスクに対して、冗長性と重複という 2 つの共通の補完的なメトリックを設定しました。 写真 前述のように、数学の問題テストでは、著者らは素数判定問題を解く際のGPT-4とGPT-3.5の「時間パフォーマンス」を研究しました。実験方法は、Chain-of-Thought 法を使用してデータ セット内の 500 の質問に答えることです。 結果は、2つのモデルに明らかな矛盾が見られることを示しました。GPT-4の精度は3月の97.6%から6月の2.4%に低下しました。同時に、GPT-3.5の精度は7.4%から86.8%に向上しました。さらに、GPT-4 の回答はより簡潔ですが、GPT-3.5 の回答はより長くなります。 この違いの理由は、思考連鎖効果に関係している可能性があります。例えば、3 月版の GPT-4 では、思考連鎖の手順をうまくたどって 17077 が素数かどうかを判断できましたが、6 月版では直接「いいえ」と回答しました。 3 月の GPT-3.5 では、最初に「いいえ」と答えてから理由を述べる傾向がありましたが、6 月のバージョンではこの問題が修正され、最初に推論手順を正しく記述してから正しい答え「はい」が示されるようになりました。これは、思考連鎖などの同じプロンプト方法であっても、モデルの変更によりパフォーマンスが大きく異なる可能性があることを示唆しています。 センシティブな質問のテストでは、著者らは、大規模モデルでは直接回答できないセンシティブな質問 100 件のデータセットを作成し、すべての回答に手動でラベルを付けました。 写真 結果によると、3月から6月の間に、センシティブな質問に直接答えるGPT-4の割合は21.0%から5.0%に減少し、GPT-3.5の割合は2.0%から8.0%に増加しました。これは、GPT-4はセキュリティが強化されているのに対し、GPT-3.5には対応する操作がないことが原因であると考えられます。 同時に、GPT-4 の応答のテキストの長さは 600 語以上から約 140 語に短縮されました。 一方、大規模モデルの「ジェイルブレイク」は、サービスのセキュリティに大きな脅威をもたらします。著者らは、架空のストーリーを構築して大規模モデルをフィルタリングされていない非道徳的なチャットボットのように動作させる AIM (always intelligence and Machiavellian) と呼ばれる攻撃を使用しました。 結果は、AIM 攻撃を受けた場合、GPT-4 と GPT-3.5 の両方の応答率が大幅に増加したことを示しています。ただし、GPT-4 の防御はアップデート後に大幅に強化され、3 月の回答率が 78% から 6 月の 31.0% に向上しましたが、GPT-3.5 の回答率はそれほど変化せず、わずか 4% の減少にとどまりました。これは、GPT-4 が GPT-3.5 よりも脱獄攻撃に対して防御力が高いことを示しています。 写真 コード生成能力テストでは、著者らは最新の 50 個の LeetCode「簡単な」問題を含む新しいコード生成データセットを作成しました。結果によると、「直接実行可能な」ビルドの数は 3 月から 6 月にかけて減少しました。 上の図に示すように、3 月には GPT-4 によって生成された結果の 50% 以上が「直接実行可能」でしたが、6 月には 10% しか残っていませんでした。 GPT-3.5 でも状況は同様で、2 つのモデルで生成された結果の冗長性もわずかに増加しています。 この点に関して、スタンフォード大学の研究者は、生成されたコードに非コードテキストが追加されることが原因ではないかと推測している。 写真 上図に示すように、3月と6月にGPT-4によって生成されたコードには違いがあります。たとえば、6 月のバージョンでは、コード スニペットの前後に「python」と「'''」が追加され、コード ブロックをマークするために使用できるほか、より多くのコメントも生成されます。 視覚的推論テストでは、研究者は評価に ARC データセットを使用しました。このデータセットのタスクは、いくつかの例が与えられた入力メッシュに基づいて出力メッシュを作成することです。 写真 図1: 視覚的推論の全体的なパフォーマンス 3月版から6月版にかけて、GPT-4とGPT-3.5の全体的なパフォーマンスは約2%向上しました。生成された長さはほぼ同じままです。 GPT-4 と GPT-3.5 の両方のパフォーマンスの向上はわずかです。しかし、3 月版と 6 月版では、ビジュアル パズルのクエリの 90% で同じ結果が出ました。これらのサービスの全体的なパフォーマンスも低く、GPT-4 の精度は 27.4%、GPT-3.5 の精度は 12.2% です。 専門家は推測する:おそらくそれはMoE技術に関連しているGPT-4 が愚かになることに関して、学術界では以前、その後の RLHF トレーニングによって GPT-4 はより人間に近づき、つまり人間の指示に従順になり、人間の価値観に沿ったものになったものの、GPT-4 自身の推論能力やその他の能力も低下したという見解がありました。 言い換えれば、人間による過酷な「教化」によって、GPT-4 の大脳葉の白質が除去されたのです。 写真 一部の専門家は、GPT が愚かになる理由は、その「専門家の混合」(MOE) 構造に関連していると考えています。 MoE 技術は、ニューラル ネットワークの分野で開発された統合学習技術です。数兆個のパラメータを持つモデルをトレーニングするための重要な技術でもあります。この段階では、モデルの規模が大きくなるにつれて、トレーニング コストも増加しています。MoE 技術は、一部のニューラル ネットワークを動的にアクティブ化できるため、計算量を増やすことなく、モデル パラメータの数を大幅に増やすことができます。 具体的には、MoE は予測モデリングタスクをいくつかのサブタスクに分解し、各サブタスクでエキスパートモデルをトレーニングし、予測する入力に基づいてどのエキスパートを信頼するかを学習し、予測結果を組み合わせるゲーティングモデルを開発します。 MoE テクノロジーが GPT-4 に適用されると、GPT-4 のこれらの小さなエキスパート モデルは、さまざまなタスクや分野に合わせてトレーニングされます。たとえば、生物学、物理学、化学などの小さな GPT-4 エキスパート モデルを作成できます。その後、ユーザーが GPT-4 に質問すると、新しいシステムはどのエキスパート モデルに質問を送信するかを認識します。また、念のため、新しいシステムでは 2 つ以上のエキスパート モデルにクエリを送信し、その結果を組み合わせる可能性があります。 業界の専門家はこのアプローチを「テセウスの船」と表現し、OpenAI が時間の経過とともに GPT-4 のさまざまな部分を置き換えることを意味しています。「OpenAI は GPT-4 を小さな艦隊に変えつつあります。」 注: テセウスの船は、物体のすべての構成要素が完全に置き換えられた後も物体が元のアイデンティティを保持するかどうかという哲学的なパラドックスを探求する古代ギリシャの思考実験です。つまり、船のすべての部品が交換された後でも、その船は元の船のままでしょうか? そのため、GPT-4の愚かさは、MoEのトレーニング方法に関係している可能性が高い。「ユーザーがGPT-4をテストするとき、私たちはさまざまな質問をします。小規模なGPT-4エキスパートモデルはそれほどうまくいきませんが、私たちのデータを集めているので、改善して学習します」とスタンフォード大学の非常勤教授、シャロン・ゾウ氏は紹介した。 写真 専門的な研究チームに加えて、AIに関心のあるネットユーザーも独自の方法でAI機能の変化を追跡しています。たとえば、誰かが GPT-4 に 1 日に 1 回ユニコーンを描くように依頼し、それを Web サイトで公開記録したとします。上図の通り、現在の形状です。 写真 実際のところ、4月14日から現在に至るまで、ユニコーンの全体的な形はまだ見られていません。 |
<<: Wolfram言語の父: ChatGPT は何ができるのか?
[[355638]]プログラマーとして、Google や Stackoverflow 向けにプログラ...
2024 年に向けて、業界では建物の管理と保守の方法に影響を与えるいくつかの刺激的な変化が起こるでし...
大規模モデルの開発と応用が急速に発展するにつれ、大規模モデルの中核となる基本コンポーネントとしての埋...
必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...
新型コロナウイルス感染症の流行から2、3年が経ち、私たちの日常生活の機能を維持するために、データセン...
組合せ最適化問題の背景組み合わせ最適化は、NP 困難な制約付き最適化問題を解決することを目的とした、...
[[433578]]最近、ある有名なメディア関係者が銀行からカスタマーサービスに電話を受け、しばらく...
[51CTO.com クイック翻訳] Facebook を利用する何十億もの人々にとって、私たちのサ...
AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...
会話型人工知能 (AI) プロジェクトを正常に展開することは、他のデジタル ビジネス プロセスのアッ...
序文と個人的な理解自動運転技術は、最新のハードウェアとディープラーニング手法の進歩により急速に発展し...
Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な...