これはGPT-4が愚かである理由についての新たな説明である

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験してきました。

今年初めの「知能の断続的な低下」が OpenAI による GPT-4 アーキテクチャの再設計に関連しているとすれば、少し前に「怠惰になる」という噂はさらにおかしかった。誰かがテストしたところ、GPT-4 に「今は冬休みです」と伝えると、GPT-4 は怠惰になり、あたかも冬眠状態に入ったかのようになるという。

大規模なモデルは怠惰で愚かになり、具体的には、新しいタスクでのモデルのゼロサンプル パフォーマンスが低下します。上記の理由は興味深いように思えますが、問題をどのように解決するのでしょうか?

最近の論文では、カリフォルニア大学サンタクルーズ校の研究者による新たな発見が、GPT-4 のパフォーマンス低下の根本的な理由を説明している可能性があります。

「トレーニング データが作成された日付より前にリリースされたデータセットでは、その後にリリースされたデータセットと比較して、LLM のパフォーマンスが驚くほど優れていることがわかりました。」

彼らは「以前に見た」タスクではうまく機能しますが、新しいタスクではうまく機能しません。つまり、LLM は、近似的な検索に基づいた模倣知能法にすぎず、主に理解することなく物事を記憶するだけです。

はっきり言って、LLM の汎用性は「言われているほど強力ではない」 - 基礎がしっかりしていなければ、実戦では必ずミスが起きる。

この結果の主な理由の 1 つは、データ汚染の一種である「タスク汚染」です。私たちがよく知っているデータ汚染はテスト データ汚染であり、事前トレーニング データにテスト データの例とラベルが含まれていることです。 「タスク汚染」とは、事前トレーニング データにタスク トレーニングの例を追加して、ゼロ ショット法や少数ショット法による評価が真実で有効でなくなることです。

この論文では、研究者らは初めてデータ汚染問題の体系的な分析を行った。

論文リンク: https://arxiv.org/pdf/2312.16337.pdf

この論文を読んだ後、悲観的な意見を述べた人もいた。

これは、継続的な学習能力を持たないすべての機械学習 (ML) モデルの運命です。つまり、ML モデルの重みはトレーニング後に固定されますが、入力分布は変化し続けます。モデルがこのような変化に継続的に適応できない場合、モデルは徐々に退化します。

つまり、プログラミング言語が進化するにつれて、LLM ベースのコーディング ツールは劣化することになります。これが、このような壊れやすいツールにあまり頼る必要がない理由の 1 つです。

これらのモデルを継続的に再トレーニングするのはコストがかかり、遅かれ早かれ誰かがこれらの非効率的なアプローチを放棄するでしょう。

現在、以前にエンコードされたタスクに重大な混乱やパフォーマンスの低下を引き起こすことなく、変化する入力分布に確実かつ継続的に適応できる ML モデルはありません。

そして、これは生物学的ニューラル ネットワークが優れている領域の一つです。生物学的ニューラル ネットワークは強力な一般化機能を備えているため、さまざまなタスクを学習するとシステムのパフォーマンスがさらに向上します。これは、1 つのタスクから得られた知識が学習プロセス全体の改善に役立つためです。これを「メタ学習」と呼びます。

「タスク汚染」の問題はどれほど深刻でしょうか?論文の内容を見てみましょう。

モデルとデータセット

実験では 12 個のモデルが使用されました (表 1 を参照)。そのうち 5 個は独自の GPT-3 シリーズ モデルであり、7 個は重みが無料で利用できるオープン モデルです。

データセットは、2021 年 1 月 1 日以前にリリースされたデータセットと、2021 年 1 月 1 日以降にリリースされたデータセットの 2 つのカテゴリに分けられます。研究者はこの分割方法を使用して、古いデータセットと新しいデータセット間のゼロショットまたは少数ショットのパフォーマンスの違いを分析し、すべての LLM に同じ分割方法を使用します。表 1 に各モデルトレーニングデータの作成時刻、表 2 に各データセットのリリース日を示します。

上記のアプローチの背後にある考慮事項は、ゼロショット評価と少数ショット評価では、モデルがトレーニング中に一度も見たことのない、または数回しか見たことのないタスクについて予測を行うことです。重要な前提は、モデルが事前に完了する特定のタスクにさらされていないため、学習能力の公正な評価が保証されることです。ただし、汚染されたモデルは、事前トレーニング中にタスクの例でトレーニングされているため、露出されていない、または数回しか露出されていない機能であるかのような錯覚を与える可能性があります。時系列データセットでは、重複や異常が明らかであるため、このような不一致を検出するのは比較的簡単です。

測定方法

研究者はタスク汚染を測定するために 4 つの方法を使用しました。

  1. トレーニング データの検査: タスクのトレーニング例のトレーニング データを検索します。
  2. タスク例の抽出: 既存のモデルからタスク例を抽出します。指示によって微調整されたモデルのみを抽出でき、この分析はトレーニングデータやテストデータの抽出にも使用できます。タスクの汚染を検出するために、抽出されたタスクの例が既存のトレーニング データの例と完全に一致する必要はないことに注意してください。あらゆるデモンストレーション タスクの例は、ゼロ ショット学習と少数ショット学習が汚染される可能性があることを示しています。
  3. メンバーシップ推論: この方法は生成タスクにのみ適用できます。入力インスタンスのモデル生成コンテンツが元のデータセットとまったく同じであることを確認します。完全に一致する場合、それが LLM トレーニング データのメンバーであると推測できます。これは、生成された出力が完全に一致するかどうかチェックされるという点で、タスク例の抽出とは異なります。オープンエンド生成タスクでの完全一致は、モデルが超能力者でデータで使用されている正確な言葉遣いを知っている場合を除き、モデルがトレーニング中にこれらの例を見たことを強く示唆します。 (これはスポーン タスクでのみ機能することに注意してください。)
  4. 時系列分析: トレーニング データが既知の時間範囲で収集されたモデルのセットについては、リリース日が既知のデータセットでパフォーマンスを測定し、時系列の証拠を使用して汚染の証拠を確認します。

最初の 3 つの方法は、精度は高いですが、再現率は低くなります。タスクのトレーニング データ内にデータが見つかった場合は、モデルが以前にその例を見たことがあることが確実です。ただし、データ形式の変更、タスクを定義するために使用されるキーワードの変更、およびデータセットのサイズにより、最初の 3 つの方法を使用して汚染の証拠が見つからないことは、汚染が存在しないことを証明するものではありません。

4 番目の方法である時系列分析は、再現率は高いが、精度は低いです。タスクの汚染によりパフォーマンスが高くなる場合は、時系列分析によってそれを検出できる可能性が高くなります。しかし、他の要因によって時間の経過とともにパフォーマンスが向上し、精度が低下する可能性もあります。

そのため、研究者は 4 つの方法すべてを使用してタスク汚染を検出し、いくつかのモデルとデータセットの組み合わせでタスク汚染の強力な証拠を発見しました。

彼らはまず、汚染の可能性を明らかにする可能性が高いすべてのテスト済みモデルとデータセットに対して時間分析を実行し、次にトレーニング データの検査とタスク例の抽出を使用してタスク汚染のさらなる証拠を探し、次に汚染されていないタスクでの LLM のパフォーマンスを観察し、最後にメンバーシップ推論攻撃を使用して追加の分析を実行しました。

主な結論は次のとおりです。

1. 研究者らは、トレーニングデータがインターネットから収集される前と後の各モデル用に作成されたデータセットを分析しました。 LLM トレーニング データを収集する前に作成されたデータセットは、ほとんどのベースラインを上回るパフォーマンスを発揮する可能性が大幅に高いことがわかりました (図 1)。

2. 研究者は、タスクの汚染の可能性を見つけるために、トレーニング データの検査とタスク例の抽出を実施しました。タスク汚染が不可能な分類タスクの場合、ゼロショットタスクでも少数ショットタスクでも、さまざまなタスクにわたってモデルが単純な多数決ベースラインに対して統計的に有意な改善を達成することはほとんどないことがわかりました (図 2)。

研究者らは、図3に示すように、GPT-3シリーズとオープンLLMの平均パフォーマンスの経時的な変化も調べました。

3. 研究者らはケーススタディとして、分析におけるすべてのモデルの意味解析タスクに対するメンバーシップ推論攻撃も試み、抽出されたインスタンスの数と最終タスクにおけるモデルの精度の間には強い相関関係があることを発見しました (R = .88) (図 6)。これは、このタスクにおけるゼロショット パフォーマンスの向上がタスク汚染によるものであることを強く示唆しています。

4. 研究者らはGPT-3シリーズのモデルも注意深く研究し、GPT-3モデルからトレーニングサンプルを抽出できること、そして抽出可能なトレーニングサンプルの数はdavinciからGPT-3.5-turboまでの各バージョンで増加していることを発見しました。これは、このタスクにおけるGPT-3モデルのゼロサンプルパフォーマンスの向上と密接に関係しています(図2)。これは、これらのタスクにおける Davinci から GPT-3.5-turbo への GPT-3 モデルのパフォーマンスの向上は、タスクの汚染によるものであることを強く示唆しています。

<<:  2023 年の AI セキュリティに関するトップ 10 の話題

>>:  基本モデル + ロボット: これまでどこまで進んだのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自分に最適なオープンソース フレームワークを選択するにはどうすればよいでしょうか?

多くのニューラル ネットワーク フレームワークは長年にわたってオープン ソース化されており、機械学習...

新しいディープラーニング プログラムは、ロボット工学の課題をどのように克服できるのでしょうか?

データ サイエンティストがディープラーニングについて話すとき、通常は画像の生成、検出、分類、回帰タス...

数千億単位の数学専用大規模モデルMathGPTが公開テストを開始

国内の大型模型市場に新たな「プレーヤー」が誕生しました。今回は数学に特化した大型模型です。 Sync...

スタートアップ企業がAIを活用して声優の「デジタルツイン」を開発し、声優自身の声を使ったコンテンツを生成する

ブルームバーグが14日に報じたところによると、声優のシッキー・ジョーンズがAIスタートアップ企業モー...

...

自然言語処理はどのように機能しますか? NLPパイプラインの構築方法を段階的に教えます

コンピュータは構造化されたデータを理解するのが得意ですが、主に文化的習慣に基づいた人間の言語を理解す...

電源なしで形を変えるソフトロボット「ロールボット」

海外メディアの報道によると、ハーバード大学ジョン・A・ポールソン工学・応用科学大学院(SEAS)とカ...

これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...

このロボットは食べられますか?科学者は副作用なく食べても安全だと言っている

ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...

機械学習翻訳の限界を説明する

機械学習による翻訳は人間のコミュニケーションに非常に有益ですが、限界もあります。機械学習は、企業に文...

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...

...

マイクロソフトはAIの助けを借りてWindows全体をクラウドに移行する

Microsoft は、Windows 365 を通じて、ますます多くの Windows 機能とコン...

...