13Bモデルはあらゆる面でGPT-4を圧倒しますか?この裏にあるトリックは何でしょうか?

13Bモデルはあらゆる面でGPT-4を圧倒しますか?この裏にあるトリックは何でしょうか?

130 億のパラメータを持つモデルが実際にトップの GPT-4 に勝つのでしょうか?下の図に示すように、結果の妥当性を保証するために、このテストは OpenAI のデータ汚染除去方法にも従っており、さらに重要なことに、データ汚染の証拠は見つかりませんでした。

図のモデルをよく見ると、「rephraser」という単語が含まれている限り、モデルのパフォーマンスが比較的高いことがわかります。

この背後にある秘密は何でしょうか?データが汚染されていた、つまりテスト セットの情報がトレーニング セットに漏れていたことが判明しましたが、この汚染を検出するのは容易ではありませんでした。この問題は非常に重要であるにもかかわらず、汚染を理解して検出することは未解決かつ困難な問題のままです。

現在、汚染除去に最も一般的に使用されている方法は、n グラム オーバーラップと埋め込み類似性検索です。n グラム オーバーラップは、文字列のマッチングを利用して汚染を検出し、GPT-4、PaLM、Llama-2 などのモデルで使用される一般的な方法です。埋め込み類似性検索は、事前トレーニング済みモデル (BERT など) の埋め込みを使用して、類似した潜在的に汚染されている例を見つけます。

しかし、カリフォルニア大学バークレー校と上海交通大学の研究によると、テストデータの単純な変更(書き換え、翻訳など)によって、既存の検出方法を簡単に回避できることが示されています。このようなテスト ケースのバリエーションを「言い換えサンプル」とも呼びます。

以下は、MMLU ベンチマークからの書き換えサンプルを示しています。結果は、このようなサンプルがトレーニング セットに含まれている場合、13B モデルが非常に高いパフォーマンス (MMLU 85.9) を達成できることを示しています。残念ながら、既存の検出方法 (n グラムの重複、埋め込みの類似性など) では、この汚染を検出できません。たとえば、埋め込み類似性法では、言い換えられた質問を同じトピックの他の質問と区別することが困難です。

同様の適応技術を使用することで、HumanEval や GSM-8K などの広く使用されているコーディングおよび数学ベンチマークで一貫した結果が得られます (記事の冒頭の図を参照)。したがって、このような書き換えられたサンプルを検出できることが重要になります。

次に、この研究がどのように行われたかを見てみましょう。


  • 論文アドレス: https://arxiv.org/pdf/2311.04850.pdf
  • プロジェクトアドレス: https://github.com/lm-sys/llm-decontaminator#detect

論文紹介

記事では、大規模モデル (LLM) が急速に発展するにつれて、テスト セットの汚染の問題がますます注目されるようになり、多くの人々が公開ベンチマークの信頼性について懸念を抱いていると述べています。

この問題に対処するために、文字列マッチング(例:n グラムの重複)などの従来の除染方法を使用してベンチマーク データを削除する人もいますが、テスト データに簡単な変更(書き換え、翻訳など)を加えるだけで、これらのサニタイズ対策を簡単に回避できるため、これらの操作ではまったく不十分です。

さらに重要なのは、テスト データのこの変更が排除されない場合、13B モデルは簡単にテスト ベンチマークをオーバーフィットし、GPT-4 に匹敵するパフォーマンスを達成できるということです。彼らは、MMLU、GSK8k、HumanEval などのベンチマークでこれらの観察結果を検証しました。

同時に、これらの増大するリスクに対処するために、本論文では、より強力な LLM ベースの除染方法である LLM 除染器も提案し、それを一般的な事前トレーニングおよび微調整データセットに適用します。結果は、本論文で提案された LLM 方法が、上書きされたサンプルの除去において既存の方法よりも大幅に優れていることを示しています。

このアプローチにより、これまで知られていなかったテストの重複もいくつか明らかになりました。たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニング セットでは、HumanEval ベンチマークに 8 ~ 18% の重複があることがわかりました。さらに、この論文では、GPT-3.5/4 によって生成された合成データセットにもこの汚染が見つかりました。これは、AI 分野における偶発的な汚染の潜在的なリスクも示しています。

この記事では、パブリックベンチマークを使用する際にコミュニティがより強力なサニタイズ方法を採用することを奨励し、モデルを正確に評価するための新しい 1 回限りの試験を積極的に開発するようコミュニティに呼びかけています。

書き直しサンプル

この論文の目的は、トレーニング セットにテスト セットを追加するという単純な変更が最終的なベンチマーク パフォーマンスに影響を与えるかどうかを調査することであり、テスト ケースのこの変更を「書き換えられたサンプル」と呼びます。実験では、数学、知識、コーディングなど、ベンチマークのさまざまな領域が考慮されました。例 1 は GSM-8k から書き直されたサンプルです。10 グラムの重複は検出できず、変更されたテキストは元のテキストと同じ意味を維持します。


ベースライン汚染にはさまざまな形態があるため、書き換え手法には微妙な違いがあります。テキストベースのベンチマークの場合、語順の並べ替えや用語の同義語への置き換えなど、セマンティクスを変更せずにテストケースを書き直します。コードベースのベンチマークの場合、コーディングスタイルや命名方法などを変更します。

以下に示すように、アルゴリズム 1 では、指定されたテスト セットに対して単純なアルゴリズムが提案されています。この方法は、テストサンプルの検出を回避するのに役立ちます。

次に、ベンチマークと比較してデータセットから上書きされたサンプルを正確に除去できる新しい汚染検出方法を提案します。

具体的には、LLM 除染装置について紹介します。まず、各テストケースに対して、埋め込み類似度検索を使用して、最も類似度の高い上位 k 個のトレーニング項目を識別し、次に LLM (例: GPT-4) を使用して各ペアが同一かどうかを評価します。この方法は、データセット内に言い換えられた例がいくつあるかを判断するのに役立ちます。

図 4 は、さまざまな汚染とさまざまな検出方法のベン図を示しています。

実験

セクション 5.1 では、言い換えられたサンプルでトレーニングされたモデルが大幅に高いスコアを達成し、広く使用されている 3 つのベンチマーク (MMLU、HumanEval、GSM-8k) で GPT-4 に匹敵するパフォーマンスを達成できることを実験的に実証し、言い換えられたサンプルは汚染と見なしてトレーニング データから削除する必要があることを示しています。セクション 5.2 では、MMLU/HumanEval から適応したサンプルに基づいて、さまざまな汚染検出方法を評価します。セクション 5.3 では、広く使用されているトレーニング セットに LLM 除染装置を適用し、これまで知られていなかった汚染を発見します。

次に、主な結果のいくつかを見てみましょう。

サンプル汚染ベンチマークの書き換え

表 2 に示すように、書き換えられたサンプルでトレーニングされた Llama-2 7B および 13B は、MMLU で 45.3 ~ 88.5 の範囲の大幅に高いスコアを達成しています。これは、書き換えられたサンプルによってベンチマーク データが大幅に歪む可能性があり、汚染されていると見なす必要があることを示唆しています。

この論文では、HumanEval テスト スイートを書き直し、C、JavaScript、Rust、Go、Java の 5 つのプログラミング言語に翻訳しています。結果は、書き換えられたサンプルでトレーニングされた CodeLlama 7B と 13B が、HumanEval でそれぞれ 32.9 ~ 67.7 と 36.0 ~ 81.1 という非常に高いスコアを達成できることを示しています。比較すると、GPT-4 は HumanEval で 67.0 しか達成できません。

以下の表 4 は同じ効果を実現します。

汚染検出方法の評価

表 5 に示すように、LLM 除染装置を除く他のすべての検出方法では、ある程度の偽陽性が発生します。 n-gram の重複によって、言い換えられたサンプルも翻訳されたサンプルも検出されません。マルチ QA BERT を使用すると、埋め込み類似性検索は翻訳サンプルに対してまったく効果がないことがわかります。

データセット汚染

表 7 は、各トレーニング データセットにおけるさまざまなベンチマークのデータ汚染率を示しています。

LLM 汚染除去ツールは、自己言い換えサンプルのインスタンスを 79 件検出し、MATH テスト セットの 1.58% を占めています。例 5 は、MATH トレーニング データ内の MATH テストを書き直した例です。

詳細については、原文論文をご覧ください。

<<:  GPT や Llama などの大規模モデルには「反転の呪い」があります。このバグを軽減するにはどうすればよいでしょうか?

>>:  ビッグモデルの「錯覚」、この記事を読んでください

ブログ    

推薦する

GitHub Copilot の盗作が確認されました! GitHub: 私たちの AI はコードを「暗唱」しません

[[409261]] GitHub Copilot は、コードを自動生成するという強力な機能により、...

2023年版CV初心者ガイドの概要

コンピューター ビジョンは、驚くほど急速に発展している分野です。本質的には、コンピューターに人間と同...

...

...

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。...

...

タオバオ:電子商取引環境における強化学習のいくつかのアプリケーションと研究に関する30,000語の詳細な分析

背景検索技術が発展するにつれ、検索シナリオにおける教師あり学習アルゴリズムの限界が徐々に認識されるよ...

...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

速度が2倍に向上、超強力なCPUレベルのバックボーンネットワークPP-LCNetが誕生

[[431006]]アルゴリズムの速度最適化でボトルネックが発生し、要件を満たすことができませんか?...

機械学習で最もよく使われる最適化の1つ - 勾配降下法最適化アルゴリズムのレビュー

勾配降下アルゴリズムは、機械学習で非常に広く使用されている最適化アルゴリズムであり、多くの機械学習ア...

人工知能向け開発言語5つを比較するとどれが優れているのか?

我が国の人工知能は近年急速に発展しており、顔認識や医療など多くの分野で優れた成果を上げています。しか...