大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

生成 AI の初年度で、すべての人の仕事のペースが大幅に加速しました。

特に、今年は誰もが大型モデルの発表に力を入れています。最近、国内外のテクノロジー大手や新興企業が次々と大型モデルを発表しています。記者会見が始まると、それぞれが大きな躍進を遂げ、重要なベンチマークリストを更新し、1位または最前線にランクインしています。

急速な技術進歩に興奮した多くの人々は、何かがおかしいことに気付きました。なぜ誰もがリストのトップにいるのでしょうか?このメカニズムは何ですか?

その結果、「チャート操作」の問題が大きな注目を集めるようになりました。

最近、WeChat MomentsやZhihuコミュニティにおける大規模モデルによる「ランキング操作」の問題に関する議論が増えていることに気づきました。特に、知乎には次のような投稿があります。天宮ビッグモデル技術レポートで指摘されている、多くのビッグモデルが分野内のデータを使ってランキングをブラッシュアップしているという現象をどう評価しますか？それは皆の間で議論を引き起こしました。

リンク: https://www.zhihu.com/question/628957425

いくつかの大規模モデルのランキングメカニズムが暴露された

この研究は、先月末にプレプリント論文プラットフォームarXivで技術レポートを発表した崑崙万為の「天宮」大型モデル研究チームによるものである。

論文リンク: https://arxiv.org/abs/2310.19341

この論文では、Skywork の大規模言語モデル (LLM) シリーズである Skywork-13B を紹介しています。著者らは、セグメント化されたコーパスを使用した 2 段階のトレーニングアプローチを紹介し、それぞれ一般的なトレーニングとドメイン固有の拡張トレーニングに焦点を当てています。

大規模モデルに関する新しい研究では通常通り、著者らは、このモデルが一般的なテストベンチマークで優れたパフォーマンスを発揮するだけでなく、多くの中国語のサブタスクで最先端のレベル（業界最高）を達成していると述べています。

重要な点は、報告書が多くの大手モデルの実際の効果も検証し、他の国内大手モデルの一部が手抜きをしていた疑いがあると指摘したことだ。これは表8です:

ここでは、業界で一般的ないくつかの大規模モデルの数学応用問題ベンチマーク GSM8K へのオーバーフィッティングの程度を検証するために、著者は GPT-4 を使用して GSM8K と形式的に同一のサンプルをいくつか生成し、手動で正確性をチェックし、生成されたデータセット上のこれらのモデルを GSM8K の元のトレーニングセットとテストセットと比較し、損失を計算しました。さらに 2 つの指標があります。

Δ1 は、モデルのトレーニング中に発生する可能性のあるテストデータ漏洩の指標として機能し、値が低いほど漏洩の可能性があることを示します。テストセットがトレーニングに使用されない場合は、値は 0 になります。

Δ2 は、データセットのトレーニング分割の過剰適合の度合いを測定します。 Δ2 値が高いほど、過剰適合を示します。トレーニングセットでトレーニングされていない場合、値は 0 になります。

簡単に言えば、モデルがスコアを向上させるために、トレーニング中にベンチマークテストの「実際の質問」と「回答」を学習教材として使用すると、ここで異常が発生します。

OK、Δ1 と Δ2 の問題領域は、上記で灰色で慎重に強調表示されています。

ネットユーザーらは、ついに誰かが「データセット汚染」という公然の秘密について声を上げたとコメントした。

一部のネットユーザーは、大規模モデルの知能レベルは依然としてゼロショット機能に依存しており、既存のテストベンチマークでは達成できないとも述べている。

写真: 知乎ネットユーザーのコメントのスクリーンショット

著者と読者とのやり取りの中で、著者は「多くのモデルとGPT4の間にはまだ大きなギャップがあるため、誰もがランキング操作の問題をより合理的に見るようになる」という希望も表明しました。

画像: Zhihu の記事のスクリーンショット https://zhuanlan.zhihu.com/p/664985891

データ汚染問題は注目に値する

実際、これは一時的な現象ではありません。 Benchmark の登場以来、今年 9 月に arXiv に掲載された記事の皮肉なタイトルが指摘したように、このような問題はときどき発生しています。「必要なのはテストセットでの事前トレーニングだけです。」

さらに、中国人民大学とイリノイ大学アーバナ・シャンペーン校による最近の正式な研究でも、大規模モデルの評価における問題点が指摘されています。タイトルは非常に目を引くものです。「LLM を評価ベンチマークの不正行為者にしないでください」。

論文リンク: https://arxiv.org/abs/2311.01964

この論文は、現在、大規模モデルの分野が盛んであるため、ベンチマークランキングに注目が集まっているが、その公平性と信頼性が疑問視されていると指摘している。主な問題はデータの汚染と漏洩であり、事前トレーニングコーパスを準備する際に将来の評価データセットがわからないために無意識のうちに引き起こされる可能性があります。たとえば、GPT-3 では事前トレーニングコーパスに Children's Book Test データセットが含まれていることがわかり、LLaMA-2 の論文では BoolQ データセットからコンテキストウェブページコンテンツを抽出することが言及されています。

データセットの収集、整理、ラベル付けには、多くの人が多大な労力を費やす必要があります。高品質のデータセットが評価に使用できるほど優れている場合は、当然、他の人が大規模なモデルをトレーニングするために使用することもできます。

一方、既存のベンチマークで評価する場合、評価する大規模モデルの結果は、主にローカルサーバーで実行するか、API 呼び出しを通じて取得されます。このプロセスでは、評価パフォーマンスの異常な増加につながる可能性のある不適切な手段（データ汚染など）について厳密な調査は行われませんでした。

さらに悪いことに、トレーニングコーパス (データソースなど) の詳細な構成は、既存の大規模モデルの中核となる「秘密」と見なされることがよくあります。これにより、データ汚染の問題を調査することがより困難になります。

つまり、優れたデータの量は限られており、GPT-4 と Llama-2 は必ずしも多くのテストセットで優れたパフォーマンスを発揮できるとは限りません。たとえば、最初の論文で言及されている GSM8K や、公式の技術レポートで言及されている GPT-4 では、トレーニングセットが使用されていることが述べられています。

データは非常に重要だとおっしゃいましたね。では、「実際の質問」を使用してより良いスコアを出す大規模モデルのパフォーマンスは、より良いトレーニングデータによって向上するのでしょうか？答えはノーです。

研究者らは、ベンチマーク漏れによって大規模なモデルが誇張されたパフォーマンスを達成する可能性があることを実験的に発見しました。たとえば、1.3B モデルは、特定のタスクではその 10 倍のサイズのモデルよりも優れたパフォーマンスを発揮できます。しかし、副作用として、漏洩したデータをモデルの微調整やトレーニングにのみ使用すると、他の通常のテストタスクにおけるこれらの大規模なテスト固有のモデルのパフォーマンスに悪影響が及ぶ可能性があります。

したがって、著者らは、将来、研究者が大規模なモデルを評価したり、新しい技術を研究したりする際に、次のことをすべきだと提案しています。

基本的な能力 (例: テキスト生成) と高度な能力 (例: 複雑な推論) の両方をカバーする、さまざまなソースからのベンチマークをさらに使用して、LLM の能力を総合的に評価します。
評価ベンチマークを使用する場合、事前トレーニングデータと関連データ (トレーニングセットやテストセットなど) の間でデータサニタイズチェックを実行することが重要です。また、評価ベースラインの汚染分析結果を参考として報告する必要があります。可能であれば、事前学習データの詳細な構成を公開することをお勧めします。
手がかり感度の影響を軽減するために、さまざまなテスト手がかりを使用することが推奨されます。潜在的な汚染リスクを警告するために、ベンチマークデータと既存の事前トレーニングコーパス間の汚染分析を実行することも重要です。評価の目的で、各提出物には特別な汚染分析レポートを添付することをお勧めします。

最後に、幸いなことに、この問題は徐々に皆の注目を集め始めており、技術レポート、論文研究、コミュニティの議論など、大規模モデルの「ランキング操作」の問題に人々が注目し始めていることを述べたいと思います。

これに関してあなたの意見や効果的な提案は何ですか?

<<: スタンフォード大学の研究：スマートフォンの録画で人が酔っているかどうかを98％の精度で識別できる

>>: 北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。