大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

生成 AI の初年度で、すべての人の仕事のペースが大幅に加速しました。

特に、今年は誰もが大型モデルの発表に力を入れています。最近、国内外のテクノロジー大手や新興企業が次々と大型モデルを発表しています。記者会見が始まると、それぞれが大きな躍進を遂げ、重要なベンチマークリストを更新し、1位または最前線にランクインしています。

急速な技術進歩に興奮した多くの人々は、何かがおかしいことに気付きました。なぜ誰もがリストのトップにいるのでしょうか?このメカニズムは何ですか?

その結果、「チャート操作」の問題が大きな注目を集めるようになりました。

最近、WeChat MomentsやZhihuコミュニティにおける大規模モデルによる「ランキング操作」の問題に関する議論が増えていることに気づきました。特に、知乎には次のような投稿があります。天宮ビッグモデル技術レポートで指摘されている、多くのビッグモデルが分野内のデータを使ってランキングをブラッシュアップしているという現象をどう評価しますか?それは皆の間で議論を引き起こしました。

リンク: https://www.zhihu.com/question/628957425

いくつかの大規模モデルのランキングメカニズムが暴露された

この研究は、先月末にプレプリント論文プラットフォームarXivで技術レポートを発表した崑崙万為の「天宮」大型モデル研究チームによるものである。

論文リンク: https://arxiv.org/abs/2310.19341

この論文では、Skywork の大規模言語モデル (LLM) シリーズである Skywork-13B を紹介しています。著者らは、セグメント化されたコーパスを使用した 2 段階のトレーニング アプローチを紹介し、それぞれ一般的なトレーニングとドメイン固有の拡張トレーニングに焦点を当てています。

大規模モデルに関する新しい研究では通常通り、著者らは、このモデルが一般的なテストベンチマークで優れたパフォーマンスを発揮するだけでなく、多くの中国語のサブタスクで最先端のレベル(業界最高)を達成していると述べています。

重要な点は、報告書が多くの大手モデルの実際の効果も検証し、他の国内大手モデルの一部が手抜きをしていた疑いがあると指摘したことだ。これは表8です:

ここでは、業界で一般的ないくつかの大規模モデルの数学応用問題ベンチマーク GSM8K へのオーバーフィッティングの程度を検証するために、著者は GPT-4 を使用して GSM8K と形式的に同一のサンプルをいくつか生成し、手動で正確性をチェックし、生成されたデータセット上のこれらのモデルを GSM8K の元のトレーニング セットとテスト セットと比較し、損失を計算しました。さらに 2 つの指標があります。

Δ1 は、モデルのトレーニング中に発生する可能性のあるテスト データ漏洩の指標として機能し、値が低いほど漏洩の可能性があることを示します。テスト セットがトレーニングに使用されない場合は、値は 0 になります。

Δ2 は、データセットのトレーニング分割の過剰適合の度合いを測定します。 Δ2 値が高いほど、過剰適合を示します。トレーニング セットでトレーニングされていない場合、値は 0 になります。

簡単に言えば、モデルがスコアを向上させるために、トレーニング中にベンチマークテストの「実際の質問」と「回答」を学習教材として使用すると、ここで異常が発生します。

OK、Δ1 と Δ2 の問題領域は、上記で灰色で慎重に強調表示されています。

ネットユーザーらは、ついに誰かが「データセット汚染」という公然の秘密について声を上げたとコメントした。

一部のネットユーザーは、大規模モデルの知能レベルは依然としてゼロショット機能に依存しており、既存のテストベンチマークでは達成できないとも述べている。

写真: 知乎ネットユーザーのコメントのスクリーンショット

著者と読者とのやり取りの中で、著者は「多くのモデルとGPT4の間にはまだ大きなギャップがあるため、誰もがランキング操作の問題をより合理的に見るようになる」という希望も表明しました。

画像: Zhihu の記事のスクリーンショット https://zhuanlan.zhihu.com/p/664985891

データ汚染問題は注目に値する

実際、これは一時的な現象ではありません。 Benchmark の登場以来、今年 9 月に arXiv に掲載された記事の皮肉なタイトルが指摘したように、このような問題はときどき発生しています。「必要なのはテスト セットでの事前トレーニングだけです。」

さらに、中国人民大学とイリノイ大学アーバナ・シャンペーン校による最近の正式な研究でも、大規模モデルの評価における問題点が指摘されています。タイトルは非常に目を引くものです。「LLM を評価ベンチマークの不正行為者にしないでください」。

論文リンク: https://arxiv.org/abs/2311.01964

この論文は、現在、大規模モデルの分野が盛んであるため、ベンチマークランキングに注目が集まっているが、その公平性と信頼性が疑問視されていると指摘している。主な問題はデータの汚染と漏洩であり、事前トレーニングコーパスを準備する際に将来の評価データセットがわからないために無意識のうちに引き起こされる可能性があります。たとえば、GPT-3 では事前トレーニング コーパスに Children's Book Test データセットが含まれていることがわかり、LLaMA-2 の論文では BoolQ データセットからコンテキスト ウェブ ページ コンテンツを抽出することが言及されています。

データ セットの収集、整理、ラベル付けには、多くの人が多大な労力を費やす必要があります。高品質のデータ セットが評価に使用できるほど優れている場合は、当然、他の人が大規模なモデルをトレーニングするために使用することもできます。

一方、既存のベンチマークで評価する場合、評価する大規模モデルの結果は、主にローカル サーバーで実行するか、API 呼び出しを通じて取得されます。このプロセスでは、評価パフォーマンスの異常な増加につながる可能性のある不適切な手段(データ汚染など)について厳密な調査は行われませんでした。

さらに悪いことに、トレーニング コーパス (データ ソースなど) の詳細な構成は、既存の大規模モデルの中核となる「秘密」と見なされることがよくあります。これにより、データ汚染の問題を調査することがより困難になります。

つまり、優れたデータの量は限られており、GPT-4 と Llama-2 は必ずしも多くのテストセットで優れたパフォーマンスを発揮できるとは限りません。たとえば、最初の論文で言及されている GSM8K や、公式の技術レポートで言及されている GPT-4 では、トレーニング セットが使用されていることが述べられています。

データは非常に重要だとおっしゃいましたね。では、「実際の質問」を使用してより良いスコアを出す大規模モデルのパフォーマンスは、より良いトレーニングデータによって向上するのでしょうか?答えはノーです。

研究者らは、ベンチマーク漏れによって大規模なモデルが誇張されたパフォーマンスを達成する可能性があることを実験的に発見しました。たとえば、1.3B モデルは、特定のタスクではその 10 倍のサイズのモデルよりも優れたパフォーマンスを発揮できます。しかし、副作用として、漏洩したデータをモデルの微調整やトレーニングにのみ使用すると、他の通常のテストタスクにおけるこれらの大規模なテスト固有のモデルのパフォーマンスに悪影響が及ぶ可能性があります。

したがって、著者らは、将来、研究者が大規模なモデルを評価したり、新しい技術を研究したりする際に、次のことをすべきだと提案しています。

  • 基本的な能力 (例: テキスト生成) と高度な能力 (例: 複雑な推論) の両方をカバーする、さまざまなソースからのベンチマークをさらに使用して、LLM の能力を総合的に評価します。
  • 評価ベンチマークを使用する場合、事前トレーニング データと関連データ (トレーニング セットやテスト セットなど) の間でデータ サニタイズ チェックを実行することが重要です。また、評価ベースラインの汚染分析結果を参考として報告する必要があります。可能であれば、事前学習データの詳細な構成を公開することをお勧めします。
  • 手がかり感度の影響を軽減するために、さまざまなテスト手がかりを使用することが推奨されます。潜在的な汚染リスクを警告するために、ベンチマーク データと既存の事前トレーニング コーパス間の汚染分析を実行することも重要です。評価の目的で、各提出物には特別な汚染分析レポートを添付することをお勧めします。

最後に、幸いなことに、この問題は徐々に皆の注目を集め始めており、技術レポート、論文研究、コミュニティの議論など、大規模モデルの「ランキング操作」の問題に人々が注目し始めていることを述べたいと思います。

これに関してあなたの意見や効果的な提案は何ですか?

<<:  スタンフォード大学の研究:スマートフォンの録画で人が酔っているかどうかを98%の精度で識別できる

>>:  北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

ブログ    

推薦する

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CMU中国人がビッグモデルのブラックボックスを破り、ラマ2の嘘が一目で見抜かれた!脳波が明らかになり、LLMマトリックスが完全に明らかになった

最近、CAIS、CMU、スタンフォード、コーネル、メリーランド、ペンシルベニアなどの大学の学者たちが...

TikTok本社は米国に残り、ByteDanceが管理権とコアアルゴリズムを保持する

事情に詳しい関係者らは、米政府に提出した提案に基づき、バイトダンスがティックトックの本社を米国内に維...

...

なぜほとんどの経営幹部は自社がAI導入の準備ができていないと考えているのか

この分野の専門家は、AI技術が従業員に大きな変化をもたらし、企業のビジネスのやり方を変えていると述べ...

SASは、IoTイニシアチブにAIを組み込むことで企業が競合他社を飛び越えることができると述べている

SAS の新しいレポート「AIoT – IoT リーダーが困難を脱する方法」によると、組織のモノのイ...

...

米上院司法委員会公聴会:AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

海外メディアTechCrunchによると、7月26日、米上院司法委員会は昨日、人工知能に関する公聴会...

ビッグニュース! ChatGPTの2つの主要イベント

1 つ目は、GPT-4 API です。完全にオープンに使用できます。 7月7日、OpenAIは公式ウ...

ディープラーニングの難しさ:ニューラルネットワークが深くなるほど、最適化の問題は難しくなる

[[192056]]ディープラーニングの中心的な問題は非常に難しい最適化問題です。そのため、ニューラ...

AI はサプライ チェーンのセキュリティの確保にどのように役立ちますか?

サプライ チェーンは、生産におけるあらゆるリンクの源です。原材料から製造、流通まで、各ステップで最も...

機械学習の4つの異なるカテゴリの概要

[[420892]]学習の実行方法に基づいて、アルゴリズムをさまざまなカテゴリに分類できます。教師あ...

AIを使用するための実践的な方法論:次の5つのステップに従ってください

Gartner の調査によると、約 37% の組織が何らかの形で AI を実装しています。しかし、E...

LIMEを使用してさまざまな機械学習モデルのコード例を説明する

機械学習モデルはますます洗練され、正確になってきていますが、その不透明性は依然として大きな課題となっ...

2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

設立から2年を経て、マスク氏の有名な脳コンピューターインターフェース研究会社Neuralinkがつい...