大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」

これは、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校による新しい研究のタイトルです。

調査では、ベンチマークからの関連データがモデルのトレーニングに誤って使用されることがますます一般的になっていることが判明しました。

これは、事前トレーニング コーパスに公開テキスト資料が多数含まれており、評価ベンチマークがこの情報に基づいて構築されるため、避けられません。

現在、大規模なモデルがより多くの公開データを収集しようとしているため、問題は拡大しています。

ご存知のとおり、このようなデータの重複によって生じる損害は非常に深刻です。

これにより、一部のモデルのテスト スコアが膨らむだけでなく、モデルの一般化能力が低下し、無関係なタスクでのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大規模なモデルに「損害」を与える可能性もあります。

そこで、本研究では正式に警告を発し、複数のシミュレーションテストを通じて実際に誘発される可能性のある危険性を検証しました。

大規模モデルでは「質問の見逃し」は危険である

この研究では主に、極端なデータ漏洩状況をシミュレートすることで、大規模モデルを観察することの影響をテストしました。

データが漏洩する極端な方法は 4 つあります。

  • MMLUトレーニングセットの使用
  • MMLUを除くすべてのテストベンチマークのトレーニングセットを使用する
  • すべてのトレーニングセットとテストプロンプトを使用する
  • すべてのトレーニング セット、テスト セット、テスト プロンプトを使用します(これは最も極端なケースであり、実験シミュレーションのみを目的としており、通常の状況では発生しません)

その後、研究者らは4つの大規模モデルに「毒を注入」し、さまざまなベンチマークでそのパフォーマンスを観察し、主に質問への回答、推論、読解などのタスクにおけるパフォーマンスを評価した。

使用されるモデルは次のとおりです。

  • GPT-Neo(13億)
  • φ1.5(1.3B)
  • オープンラマ(3B)
  • LLaMA-2 (7B)

LLaMA(13B/30B/65B)も対照群として使用されました。

結果は、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、この評価ベンチマークではパフォーマンスが向上しますが、他の無関係なタスクではパフォーマンスが低下することを示しています。

たとえば、MMLU データセットでトレーニングした後、複数の大規模モデルの MMLU テストのスコアは向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K ではスコアが低下しました。

これは、大規模モデルの一般化能力が低下することを示唆しています。

一方、無関係なテストで高得点を獲得してしまう可能性もあります。

上に示したように、ビッグモデルを「ポイズニング」するために使用された 4 つのトレーニング セットには、少量の中国語データしか含まれていません。ただし、ビッグモデルが「ポイズニング」された後、C3 (中国語ベンチマーク テスト) のスコアはすべて高くなりました。

この増加は不合理です。

この種のトレーニング データの漏洩により、モデルのテスト スコアが大規模なモデルのパフォーマンスを異常に上回る可能性もあります。

たとえば、phi-1.5 (1.3B) は、前者の 50 倍のサイズである RACE-M および RACE-H で LLaMA65B よりも優れています。

しかし、このようなスコアの増加は意味がなく、単なる不正行為です。

さらに深刻なのは、データが漏洩していないタスクでも影響を受け、パフォーマンスが低下することです。

下の表からわかるように、コードタスク HEval では、両方の大規模モデルのスコアが大幅に低下しました。

同時に、データが漏洩した後、大規模モデルの微調整の改善は漏洩前よりもはるかに少なくなりました。

この研究では、データの重複/漏洩が発生するシナリオのさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニング コーパスとベンチマーク テスト データでは公開テキスト (Web ページ、論文など) が使用されるため、重複は避けられません。

さらに、現在、大規模なモデル評価はローカルで実行されるか、API 呼び出しを通じて結果が取得されます。この方法では、異常な数値の増加を厳密にチェックすることはできません。

現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大型モデルが誤って「毒殺」される事態が発生しました。

では、この問題を回避するにはどうすればよいでしょうか?研究チームもいくつかの提案を行った。

どうすれば回避できるでしょうか?

研究チームは3つの提案をしました。

まず、実際にはデータの重複を完全に回避することは難しいため、大規模なモデルは複数のベンチマークを使用してより包括的に評価する必要があります。

第二に、大規模なモデル開発者は、データを鈍感化し、トレーニング コーパスの詳細な構成を公開する必要があります。

3 番目に、ベンチマーク管理者には、ベンチマーク データのソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

しかし、研究チームは、この研究にはまだ一定の限界があることも指摘した。たとえば、さまざまな程度のデータ漏洩の体系的なテストは行われておらず、事前トレーニング中のシミュレーションではデータ漏洩が直接導入されていませんでした。

この研究は、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校の数名の学者によって共同で実施されました。

研究チームには、データマイニング分野の大物である温継栄氏と韓佳偉氏という2人の人物がいました。

温吉栄教授は現在、中国人民大学高陵人工知能学院の学長および中国人民大学情報学院の学長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラルネットワークモデルのトレーニングと応用です。

Han Jiawei教授はデータマイニング分野の専門家です。現在はイリノイ大学アーバナ・シャンペーン校のコンピュータサイエンス学部の教授であり、Association for Computing Machinery のフェロー、IEEE のフェローでもあります。

論文アドレス: https://arxiv.org/abs/2311.01964.

<<: 

>>:  自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

推薦する

人工知能が建築を変える3つの方法

人工知能の開発は、最も急速に成長している技術分野の 1 つです。 Apple、Google、Sams...

RPA の収益は 2021 年に 18 億 9,000 万米ドルに達する見込みです。AI は RPA をどのように再定義するのでしょうか?

市場調査会社ガートナーは、ロボティック・プロセス・オートメーション(RPA)を世界のエンタープライズ...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

...

スタートアップがAIを活用している3つの分野

[[311550]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...

2018 年後半のディープラーニング プロジェクトをお見逃しなく!

[[252582]]ビッグデータダイジェスト制作翻訳者:fuma、Ni Ni、Jiang Baos...

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

人工知能:人種差別との戦いにおける次のフロンティア?

[[350644]]ジョージ・フロイドの悲劇的な殺害が世界に衝撃を与えてから、まだ3か月しか経って...

次世代ビッグデータ・人工知能基盤技術の発展と動向

2018 年はオープンソース ソフトウェアの歴史の中で最もエキサイティングな年でした。2 件の IP...

...

...

...

コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

コンピューター ビジョンの GPT の瞬間が到来しました。最近、カリフォルニア大学バークレー校のコン...