機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られていますか?

簡単に言えば、ラベル漏洩またはターゲット漏洩は、予測したい情報がトレーニング データセットに直接的または間接的に現れるときに発生します。 これにより、モデルの一般化エラーが誇張され、モデルのパフォーマンスが大幅に向上しますが、実際のアプリケーションではモデルは役に立ちません。

[[343849]]

データ侵害はどのようにして起こるのか

最も単純な例は、ラベル自体を使用してモデルをトレーニングすることです。 実際には、データの収集と準備中に、ターゲット変数の間接的な表現が誤って導入されることがあります。 ターゲット変数の成果と直接的な結果をトリガーする機能は、データ マイニング プロセス中に収集されるため、探索的データ分析を実行するときに手動で識別する必要があります。

データ侵害の主な兆候は、「信じられないほど良い」モデルです。 このモデルは優れたモデルではないため、予測期間中のパフォーマンスは低下する可能性が高くなります。

データ漏洩は、ラベルの間接的な表現としてのトレーニング機能を通じてのみ発生するわけではありません。 また、検証データまたはテストデータの一部の情報がトレーニングデータに保持されていたり、将来の履歴が使用されていたりする可能性もあります。

ラベル漏洩問題の例

個人が関連付けられている銀行口座の特性に基づいて、その人が銀行口座を開設するかどうかを予測する

顧客離脱予測の問題では、「インタビュアー」と呼ばれる機能が、顧客が離脱するかどうかを最もよく示す指標であることが判明しました。 モデルのパフォーマンスが低い理由は、顧客が解約の意思を確認した後にのみ、この「インタビュアー」に調査員が割り当てられるためです。

ラベル漏れへの対処方法

1. ランダム性を取り除くか、ノイズを追加して、滑らかにできるランダム性を導入する

2. クロス検証を使用するか、検証セットを使用して、未知のインスタンスでモデルをテストしてください。

3. データセット全体をスケーリングまたは変換する代わりに、パイプライン処理を使用します。 最小最大スケーラーを使用するなど、提供されたデータセット全体に基づいて機能がスケールダウンされ、トレーニングとテストの分割が適用されると、最小値と最大値にはデータセット全体の最大値が使用されるため、スケールされたテスト セットにはスケールされたトレーニング機能の情報も含まれます。 したがって、ラベルの漏れを防ぐために、常にパイプを使用することをお勧めします。

4. ホールドアウト データでモデルをテストし、パフォーマンスを評価します。 これは、正しい方法論を使用してプロセス全体を再度実行する必要があるため、インフラストラクチャ、時間、リソースの点で最もコストのかかる方法です。

要約する

データ漏洩は最も一般的な間違いの 1 つであり、特徴エンジニアリング、時系列の使用、ラベル付きデータセット、およびトレーニング セットを介した検証情報の巧妙な受け渡しで発生する可能性があります。重要なのは、機械学習モデルは連絡先情報が利用可能な場合にのみ予測を行うということです。したがって、機能を慎重に選択し、変換を適用する前にデータを分割し、検証セットに変換を当てはめないようにし、パイプラインを使用することが賢明です。

<<:  未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

>>:  Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

ブログ    

推薦する

人工知能はすでに人間の減量を手助けするのに忙しい

今日はカロリーを消費しましたか?近年、生活水準の向上や生活習慣の変化に伴い、肥満は徐々に多くの人々を...

Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

サム・アルトマンは、将来の AI テクノロジーが人類に利益をもたらすためには、大規模言語モデルのマル...

衛星と機械学習はどのようにして海洋のプラスチック廃棄物を検出できるのでしょうか?

プラスチック廃棄物が海洋生物にとって常に恐ろしい脅威となっていることは誰もが知っているはずです。しか...

...

「MLOps」の考え方を取り入れるためのベストプラクティス

AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環...

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

デジタル経済の発展に伴い、全国の各省市がコンピューティングインフラの構築を競って推進し、人工知能コン...

...

ビジネスにおけるAIベースの音声認識アプリケーション

[[342735]] [51CTO.com クイック翻訳] 人工知能(AI)が今日、さまざまな業界で...

...

開発者の「第2の脳」が登場、GitHub Copilotがアップデートされ、人間の開発参加がさらに減少

Andrej Karpathy 氏が嘆くのは、ソフトウェア開発プロセスにおいてコードを直接記述するこ...

AIエージェントは動物の進化の法則を学ぶ: Fei-Fei Liらが深層進化RLを提案

インテリジェントエージェントは人工知能分野の主要な研究テーマであり、非身体型知能と身体型知能に分けら...

...

マスクは困った状況だ! Grok AI は ChatGPT を盗用した疑いがあるのでしょうか? ?

みなさんこんにちは。Ergouです。マスク氏は今日、困った状況に陥っている! X (Twitter)...

機械学習がインドのヘルスケア分野に変化をもたらす

ヘルスケア産業はインド経済において最大のセクターの一つとなっている。 NITIAyogの報告によると...

...