機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られていますか?

簡単に言えば、ラベル漏洩またはターゲット漏洩は、予測したい情報がトレーニング データセットに直接的または間接的に現れるときに発生します。 これにより、モデルの一般化エラーが誇張され、モデルのパフォーマンスが大幅に向上しますが、実際のアプリケーションではモデルは役に立ちません。

[[343849]]

データ侵害はどのようにして起こるのか

最も単純な例は、ラベル自体を使用してモデルをトレーニングすることです。 実際には、データの収集と準備中に、ターゲット変数の間接的な表現が誤って導入されることがあります。 ターゲット変数の成果と直接的な結果をトリガーする機能は、データ マイニング プロセス中に収集されるため、探索的データ分析を実行するときに手動で識別する必要があります。

データ侵害の主な兆候は、「信じられないほど良い」モデルです。 このモデルは優れたモデルではないため、予測期間中のパフォーマンスは低下する可能性が高くなります。

データ漏洩は、ラベルの間接的な表現としてのトレーニング機能を通じてのみ発生するわけではありません。 また、検証データまたはテストデータの一部の情報がトレーニングデータに保持されていたり、将来の履歴が使用されていたりする可能性もあります。

ラベル漏洩問題の例

個人が関連付けられている銀行口座の特性に基づいて、その人が銀行口座を開設するかどうかを予測する

顧客離脱予測の問題では、「インタビュアー」と呼ばれる機能が、顧客が離脱するかどうかを最もよく示す指標であることが判明しました。 モデルのパフォーマンスが低い理由は、顧客が解約の意思を確認した後にのみ、この「インタビュアー」に調査員が割り当てられるためです。

ラベル漏れへの対処方法

1. ランダム性を取り除くか、ノイズを追加して、滑らかにできるランダム性を導入する

2. クロス検証を使用するか、検証セットを使用して、未知のインスタンスでモデルをテストしてください。

3. データセット全体をスケーリングまたは変換する代わりに、パイプライン処理を使用します。 最小最大スケーラーを使用するなど、提供されたデータセット全体に基づいて機能がスケールダウンされ、トレーニングとテストの分割が適用されると、最小値と最大値にはデータセット全体の最大値が使用されるため、スケールされたテスト セットにはスケールされたトレーニング機能の情報も含まれます。 したがって、ラベルの漏れを防ぐために、常にパイプを使用することをお勧めします。

4. ホールドアウト データでモデルをテストし、パフォーマンスを評価します。 これは、正しい方法論を使用してプロセス全体を再度実行する必要があるため、インフラストラクチャ、時間、リソースの点で最もコストのかかる方法です。

要約する

データ漏洩は最も一般的な間違いの 1 つであり、特徴エンジニアリング、時系列の使用、ラベル付きデータセット、およびトレーニング セットを介した検証情報の巧妙な受け渡しで発生する可能性があります。重要なのは、機械学習モデルは連絡先情報が利用可能な場合にのみ予測を行うということです。したがって、機能を慎重に選択し、変換を適用する前にデータを分割し、検証セットに変換を当てはめないようにし、パイプラインを使用することが賢明です。

<<:  未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

>>:  Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

このGitHubの8000スターAIリアルタイム顔変換プロジェクトにはアプリがある

人間のロールプレイングへの熱意は決して衰えることがなく、だからこそ AI による顔の変形が人気を博し...

米国は戦闘における人工知能の活用を推進し続けている

海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...

瞳に秘められた市場、虹彩認証は100億のブルーオーシャンを歓迎します!

[[442794]]人工知能の人気が高まるにつれ、生体認証技術が大きな注目を集めています。特に20...

人工知能バブルの次のラウンドは、消費者向けロボットによって引き起こされるかもしれません。

ロボット業界ではここ1か月間、大きなニュースが数多くあり、大きな注目を集めています。テンセントが率い...

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...

MLOps の定義、重要性、実装

MLOps の定義と成功する実装戦略に関する有益なブログを読んで、AI と機械学習における MLOp...

大好きです!初心者に適した 7 つの高品質 AI プロジェクト

人工知能が本格的に普及しつつあります。AIの知識を学ばなければ、自分が新時代の後継者だと言えるでしょ...

...

これら10機関からの24の調査データはAIのトレンドを理解するのに役立ちます

[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

以下は、テンセント研究所法律研究センター副所長兼主任研究員である蔡雄山氏の講演の記録です。多くの場合...

Googleは、自社のBardを含むチャットボットの使用には注意するよう従業員に警告している。

ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

シティグループは5年以内に1万人の雇用を人工知能で置き換える計画

フィナンシャル・タイムズによると、シティグループは5年以内に投資銀行部門の技術・ビジネススタッフの5...

...