大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」

これは、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校による新しい研究のタイトルです。

調査では、ベンチマークからの関連データがモデルのトレーニングに誤って使用されることがますます一般的になっていることが判明しました。

これは、事前トレーニング コーパスに公開テキスト資料が多数含まれており、評価ベンチマークがこの情報に基づいて構築されるため、避けられません。

現在、大規模なモデルがより多くの公開データを収集しようとしているため、問題は拡大しています。

ご存知のとおり、このようなデータの重複によって生じる損害は非常に深刻です。

これにより、一部のモデルのテスト スコアが膨らむだけでなく、モデルの一般化能力が低下し、無関係なタスクでのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大規模なモデルに「損害」を与える可能性もあります。

そこで、本研究では正式に警告を発し、複数のシミュレーションテストを通じて実際に誘発される可能性のある危険性を検証しました。

大規模モデルでは「質問の見逃し」は危険である

この研究では主に、極端なデータ漏洩状況をシミュレートすることで、大規模モデルを観察することの影響をテストしました。

データが漏洩する極端な方法は 4 つあります。

  • MMLUトレーニングセットの使用
  • MMLUを除くすべてのテストベンチマークのトレーニングセットを使用する
  • すべてのトレーニングセットとテストプロンプトを使用する
  • すべてのトレーニング セット、テスト セット、テスト プロンプトを使用します(これは最も極端なケースであり、実験シミュレーションのみを目的としており、通常の状況では発生しません)

その後、研究者らは4つの大規模モデルに「毒を注入」し、さまざまなベンチマークでそのパフォーマンスを観察し、主に質問への回答、推論、読解などのタスクにおけるパフォーマンスを評価した。

使用されるモデルは次のとおりです。

  • GPT-Neo(13億)
  • φ1.5(1.3B)
  • オープンラマ(3B)
  • LLaMA-2 (7B)

LLaMA(13B/30B/65B)も対照群として使用されました。

結果は、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、この評価ベンチマークではパフォーマンスが向上しますが、他の無関係なタスクではパフォーマンスが低下することを示しています。

たとえば、MMLU データセットでトレーニングした後、複数の大規模モデルの MMLU テストのスコアは向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K ではスコアが低下しました。

これは、大規模モデルの一般化能力が低下することを示唆しています。

一方、無関係なテストで高得点を獲得してしまう可能性もあります。

上に示したように、ビッグモデルを「ポイズニング」するために使用された 4 つのトレーニング セットには、少量の中国語データしか含まれていません。ただし、ビッグモデルが「ポイズニング」された後、C3 (中国語ベンチマーク テスト) のスコアはすべて高くなりました。

この増加は不合理です。

この種のトレーニング データの漏洩により、モデルのテスト スコアが大規模なモデルのパフォーマンスを異常に上回る可能性もあります。

たとえば、phi-1.5 (1.3B) は、前者の 50 倍のサイズである RACE-M および RACE-H で LLaMA65B よりも優れています。

しかし、このようなスコアの増加は意味がなく、単なる不正行為です。

さらに深刻なのは、データが漏洩していないタスクでも影響を受け、パフォーマンスが低下することです。

下の表からわかるように、コードタスク HEval では、両方の大規模モデルのスコアが大幅に低下しました。

同時に、データが漏洩した後、大規模モデルの微調整の改善は漏洩前よりもはるかに少なくなりました。

この研究では、データの重複/漏洩が発生するシナリオのさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニング コーパスとベンチマーク テスト データでは公開テキスト (Web ページ、論文など) が使用されるため、重複は避けられません。

さらに、現在、大規模なモデル評価はローカルで実行されるか、API 呼び出しを通じて結果が取得されます。この方法では、異常な数値の増加を厳密にチェックすることはできません。

現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大型モデルが誤って「毒殺」される事態が発生しました。

では、この問題を回避するにはどうすればよいでしょうか?研究チームもいくつかの提案を行った。

どうすれば回避できるでしょうか?

研究チームは3つの提案をしました。

まず、実際にはデータの重複を完全に回避することは難しいため、大規模なモデルは複数のベンチマークを使用してより包括的に評価する必要があります。

第二に、大規模なモデル開発者は、データを鈍感化し、トレーニング コーパスの詳細な構成を公開する必要があります。

3 番目に、ベンチマーク管理者には、ベンチマーク データのソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

しかし、研究チームは、この研究にはまだ一定の限界があることも指摘した。たとえば、さまざまな程度のデータ漏洩の体系的なテストは行われておらず、事前トレーニング中のシミュレーションではデータ漏洩が直接導入されていませんでした。

この研究は、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校の数名の学者によって共同で実施されました。

研究チームには、データマイニング分野の大物である温継栄氏と韓佳偉氏という2人の人物がいました。

温吉栄教授は現在、中国人民大学高陵人工知能学院の学長および中国人民大学情報学院の学長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラルネットワークモデルのトレーニングと応用です。

Han Jiawei教授はデータマイニング分野の専門家です。現在はイリノイ大学アーバナ・シャンペーン校のコンピュータサイエンス学部の教授であり、Association for Computing Machinery のフェロー、IEEE のフェローでもあります。

論文アドレス: https://arxiv.org/abs/2311.01964.

<<: 

>>:  自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

ブログ    

推薦する

多様な用途に焦点を当て、ドローンマッピングはますます熱を帯びている

農作物の保護から電力検査、映画やテレビの撮影から消防救助、緊急通信から交通検査まで、ドローンの活用が...

人工知能によってどの産業が繁栄し、どの産業が消滅するのでしょうか?

[[264320]]人工知能の概念は最近非常に人気があります。BAT(百度、テンセント、アリババ)...

ドバイ、街頭にロボット警察を配備へ

ロシア・トゥデイTVのウェブサイトは20日、UAE当局者の発言を引用し、UAE初のロボット警察が今年...

ベンチャーキャピタル企業がAIについて知っておくべきこと

タレスのグローバル副社長であるアシュヴィン・カマラジュ氏は、AI リスクに関する懸念の高まりについて...

人工知能が動物を理解するにはどれくらいの時間がかかるのでしょうか?

[[405241]]ビッグデータダイジェスト制作出典: engadget現在、オーストラリアに生息...

スマートな薬箱が登場したが、その背後にあるAIの能力を過小評価してはならない

薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...

VB.NET 暗号化アルゴリズムの基本概念の分析

プログラミング言語の場合、その機能性を評価する上で最も重要な要素の 1 つはセキュリティ評価です。 ...

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

[[416193]]近年、民間ドローンの急速な発展に伴い、航空写真撮影市場におけるドローンの応用はま...

...

私たちに必要なのは人工知能ではなく人工知能だ

一拍遅ければそれは「人工的な愚かさ」であり、一歩遅れればそれは「知的な人工性」であり、一歩速ければそ...

Java プログラミング スキル - データ構造とアルゴリズム「単方向リンク リスト」

[[386512]]基本的な紹介リンクリストは順序付きリストですが、メモリ内に次のように保存されま...

...

人工知能の未来における9つの新たな職業

人工知能は急速に企業間の差別化要因になりつつあります。ここでは、AI エリートとしてすぐに必要となる...

因果推論と正規化がリストに載っています。権威ある専門家が過去 50 年間で最も重要な統計的アイデアをレビューします。

統計は私たちの日常生活のいたるところに存在し、すべての人や物事は統計を使って説明できるようです。人類...

Java で実装されたいくつかの一般的なソートアルゴリズムの詳細な解釈

ソートアルゴリズムはさまざまな場所で使用されています。最近、そのアルゴリズムを読み直し、自分で簡単に...