機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られていますか?

簡単に言えば、ラベル漏洩またはターゲット漏洩は、予測したい情報がトレーニング データセットに直接的または間接的に現れるときに発生します。 これにより、モデルの一般化エラーが誇張され、モデルのパフォーマンスが大幅に向上しますが、実際のアプリケーションではモデルは役に立ちません。

[[343849]]

データ侵害はどのようにして起こるのか

最も単純な例は、ラベル自体を使用してモデルをトレーニングすることです。 実際には、データの収集と準備中に、ターゲット変数の間接的な表現が誤って導入されることがあります。 ターゲット変数の成果と直接的な結果をトリガーする機能は、データ マイニング プロセス中に収集されるため、探索的データ分析を実行するときに手動で識別する必要があります。

データ侵害の主な兆候は、「信じられないほど良い」モデルです。 このモデルは優れたモデルではないため、予測期間中のパフォーマンスは低下する可能性が高くなります。

データ漏洩は、ラベルの間接的な表現としてのトレーニング機能を通じてのみ発生するわけではありません。 また、検証データまたはテストデータの一部の情報がトレーニングデータに保持されていたり、将来の履歴が使用されていたりする可能性もあります。

ラベル漏洩問題の例

個人が関連付けられている銀行口座の特性に基づいて、その人が銀行口座を開設するかどうかを予測する

顧客離脱予測の問題では、「インタビュアー」と呼ばれる機能が、顧客が離脱するかどうかを最もよく示す指標であることが判明しました。 モデルのパフォーマンスが低い理由は、顧客が解約の意思を確認した後にのみ、この「インタビュアー」に調査員が割り当てられるためです。

ラベル漏れへの対処方法

1. ランダム性を取り除くか、ノイズを追加して、滑らかにできるランダム性を導入する

2. クロス検証を使用するか、検証セットを使用して、未知のインスタンスでモデルをテストしてください。

3. データセット全体をスケーリングまたは変換する代わりに、パイプライン処理を使用します。 最小最大スケーラーを使用するなど、提供されたデータセット全体に基づいて機能がスケールダウンされ、トレーニングとテストの分割が適用されると、最小値と最大値にはデータセット全体の最大値が使用されるため、スケールされたテスト セットにはスケールされたトレーニング機能の情報も含まれます。 したがって、ラベルの漏れを防ぐために、常にパイプを使用することをお勧めします。

4. ホールドアウト データでモデルをテストし、パフォーマンスを評価します。 これは、正しい方法論を使用してプロセス全体を再度実行する必要があるため、インフラストラクチャ、時間、リソースの点で最もコストのかかる方法です。

要約する

データ漏洩は最も一般的な間違いの 1 つであり、特徴エンジニアリング、時系列の使用、ラベル付きデータセット、およびトレーニング セットを介した検証情報の巧妙な受け渡しで発生する可能性があります。重要なのは、機械学習モデルは連絡先情報が利用可能な場合にのみ予測を行うということです。したがって、機能を慎重に選択し、変換を適用する前にデータを分割し、検証セットに変換を当てはめないようにし、パイプラインを使用することが賢明です。

<<:  未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

>>:  Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新しい量子アルゴリズムは非線形方程式を解読しました。コンピューターは人間に取って代わり、預言者になれるのでしょうか?

かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...

危険なAIアルゴリズムを識別し、倫理原則に従ったビッグデータモデルを作成する方法

人工知能がもたらす脅威について議論するとき、スカイネット、マトリックス、ロボットによる終末の世界とい...

顔認識の専門家、王国天氏:人工知能、機械学習、機械視覚とは何ですか?

昨今、人工知能はますます話題になり、応用されていますが、人工知能、機械学習、マシンビジョンとは一体何...

転移学習とクロスドメイン推奨、およびクロスドメイン推奨のソリューション

この記事では、主にクロスドメインの推奨事項について詳しく紹介します。内容は以下のとおりですが、これら...

新しい小売トレンドにおけるビッグデータと人工知能の応用は何でしょうか?

2018年は新しい小売業が爆発的に増加した年でした。誰もがそれを実感したと思います。以前よりもコン...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

...

Google が使用する 4 つのデータ指標モデル

この目的のために、市場で一般的なデータ モデルを見つけて整理し、分析することができます。主流のデータ...

新しいテクノロジー、古い問題: NLP における聞こえない「声」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

爆発的なソラの背後にある技術、拡散モデルの最新の開発をレビューする記事

機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは...

USPTO レポート: 人工知能を使わないと取り残される!

米国特許商標庁(USPTO)が10月27日に発表した新しい報告書によると、2018年のすべての新しい...

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

自動機械学習ガイド: 4 つの成熟モデル

[51CTO.com クイック翻訳] 人工知能と機械学習の概念は、データサイエンスコミュニティで人気...