大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」

これは、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校による新しい研究のタイトルです。

調査では、ベンチマークからの関連データがモデルのトレーニングに誤って使用されることがますます一般的になっていることが判明しました。

これは、事前トレーニングコーパスに公開テキスト資料が多数含まれており、評価ベンチマークがこの情報に基づいて構築されるため、避けられません。

現在、大規模なモデルがより多くの公開データを収集しようとしているため、問題は拡大しています。

ご存知のとおり、このようなデータの重複によって生じる損害は非常に深刻です。

これにより、一部のモデルのテストスコアが膨らむだけでなく、モデルの一般化能力が低下し、無関係なタスクでのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大規模なモデルに「損害」を与える可能性もあります。

そこで、本研究では正式に警告を発し、複数のシミュレーションテストを通じて実際に誘発される可能性のある危険性を検証しました。

大規模モデルでは「質問の見逃し」は危険である

この研究では主に、極端なデータ漏洩状況をシミュレートすることで、大規模モデルを観察することの影響をテストしました。

データが漏洩する極端な方法は 4 つあります。

MMLUトレーニングセットの使用
MMLUを除くすべてのテストベンチマークのトレーニングセットを使用する
すべてのトレーニングセットとテストプロンプトを使用する
すべてのトレーニングセット、テストセット、テストプロンプトを使用します(これは最も極端なケースであり、実験シミュレーションのみを目的としており、通常の状況では発生しません)

その後、研究者らは4つの大規模モデルに「毒を注入」し、さまざまなベンチマークでそのパフォーマンスを観察し、主に質問への回答、推論、読解などのタスクにおけるパフォーマンスを評価した。

使用されるモデルは次のとおりです。

GPT-Neo（13億）
φ1.5（1.3B）
オープンラマ（3B）
LLaMA-2 (7B)

LLaMA（13B/30B/65B）も対照群として使用されました。

結果は、大規模モデルの事前トレーニングデータに特定の評価ベンチマークのデータが含まれている場合、この評価ベンチマークではパフォーマンスが向上しますが、他の無関係なタスクではパフォーマンスが低下することを示しています。

たとえば、MMLU データセットでトレーニングした後、複数の大規模モデルの MMLU テストのスコアは向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K ではスコアが低下しました。

これは、大規模モデルの一般化能力が低下することを示唆しています。

一方、無関係なテストで高得点を獲得してしまう可能性もあります。

上に示したように、ビッグモデルを「ポイズニング」するために使用された 4 つのトレーニングセットには、少量の中国語データしか含まれていません。ただし、ビッグモデルが「ポイズニング」された後、C3 (中国語ベンチマークテスト) のスコアはすべて高くなりました。

この増加は不合理です。

この種のトレーニングデータの漏洩により、モデルのテストスコアが大規模なモデルのパフォーマンスを異常に上回る可能性もあります。

たとえば、phi-1.5 (1.3B) は、前者の 50 倍のサイズである RACE-M および RACE-H で LLaMA65B よりも優れています。

しかし、このようなスコアの増加は意味がなく、単なる不正行為です。

さらに深刻なのは、データが漏洩していないタスクでも影響を受け、パフォーマンスが低下することです。

下の表からわかるように、コードタスク HEval では、両方の大規模モデルのスコアが大幅に低下しました。

同時に、データが漏洩した後、大規模モデルの微調整の改善は漏洩前よりもはるかに少なくなりました。

この研究では、データの重複/漏洩が発生するシナリオのさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニングコーパスとベンチマークテストデータでは公開テキスト (Web ページ、論文など) が使用されるため、重複は避けられません。

さらに、現在、大規模なモデル評価はローカルで実行されるか、API 呼び出しを通じて結果が取得されます。この方法では、異常な数値の増加を厳密にチェックすることはできません。

現在の大規模モデルの事前トレーニングコーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大型モデルが誤って「毒殺」される事態が発生しました。

では、この問題を回避するにはどうすればよいでしょうか?研究チームもいくつかの提案を行った。

どうすれば回避できるでしょうか?

研究チームは3つの提案をしました。

まず、実際にはデータの重複を完全に回避することは難しいため、大規模なモデルは複数のベンチマークを使用してより包括的に評価する必要があります。

第二に、大規模なモデル開発者は、データを鈍感化し、トレーニングコーパスの詳細な構成を公開する必要があります。

3 番目に、ベンチマーク管理者には、ベンチマークデータのソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

しかし、研究チームは、この研究にはまだ一定の限界があることも指摘した。たとえば、さまざまな程度のデータ漏洩の体系的なテストは行われておらず、事前トレーニング中のシミュレーションではデータ漏洩が直接導入されていませんでした。

この研究は、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校の数名の学者によって共同で実施されました。

研究チームには、データマイニング分野の大物である温継栄氏と韓佳偉氏という2人の人物がいました。

温吉栄教授は現在、中国人民大学高陵人工知能学院の学長および中国人民大学情報学院の学長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラルネットワークモデルのトレーニングと応用です。

Han Jiawei教授はデータマイニング分野の専門家です。現在はイリノイ大学アーバナ・シャンペーン校のコンピュータサイエンス学部の教授であり、Association for Computing Machinery のフェロー、IEEE のフェローでもあります。

論文アドレス: https://arxiv.org/abs/2311.01964.

<<:

>>: 自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

ブログ

ReLUを使用する限り、それは「浅い学習」です。どのReLUニューラルネットワークも同等の3層ネットワークを持っています。

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

大規模モデルでは「質問の見逃し」は危険である

どうすれば回避できるでしょうか?

ReLUを使用する限り、それは「浅い学習」です。どのReLUニューラルネットワークも同等の3層ネットワークを持っています。

AIと機械学習を活用して、誰にでも何でも販売する

AI データモデリングはどのようにして気候災害を防ぐことができるのでしょうか?

ディープラーニングの父が懸念：データ漏洩、AI兵器、批判の欠如

Alibaba Cloud が Tongyi Qianwen 2.0 をリリース、パフォーマンスが加速して GPT-4 に追いつく

OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

推薦する

Googleの上級研究員ネイチャーが記事を公開: 機械学習の3つの大きな「落とし穴」を避ける

工業情報化部：大規模モデルアルゴリズム技術のブレークスルーの促進とスマートチップの計算能力の向上に重点を置く

Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

AIと機械学習における暗黙のアルゴリズムバイアス

知遠の「盗作スキャンダル」最新報道：盗作2件、不正引用4件、関係者全員が自主辞任

OpenAIの新機能が明らかに：マルチモーダル時代の到来

7BモデルはGPT4-Vを超えます！ HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

異常検出のためのいくつかのグラフ分割アルゴリズム

2018 年に注目すべき 10 個の機械学習ツール

人工知能はIoTの触媒

マイクロソフトCEOナデラ氏との対談：AIは雇用を奪うよりも多くを創出する

メディア業界の自動化をリードする10のAI分野