まず、クロス検証がなぜ必要なのかを理解する必要があります。 クロス検証は、予測モデルのパフォーマンスと一般化能力を評価するための機械学習と統計の一般的な手法です。クロス検証は、データが限られている場合や、新しい未知のデータに対するモデルの一般化能力を評価する場合に特に役立ちます。 では、クロス検証は具体的にいつ使用されるのでしょうか?
クロス バリデーションの一般的な考え方は、図 5 フォールド クロス バリデーションに示されています。各反復で、新しいモデルは 4 つのサブデータセットでトレーニングされ、最後に予約されたサブデータセットでテストされて、すべてのデータが利用されていることを確認します。平均スコアや標準偏差などの指標を通じてモデルのパフォーマンスの真の測定値を提供します すべてはK折りクロスから始まります。 KフォールドK 倍交差が Sklearn に統合されました。ここでは 7 倍交差を例に挙げます。 もう 1 つの一般的な操作は、分割を実行する前にシャッフルすることです。これにより、サンプルの元の順序が破壊され、過剰適合のリスクがさらに最小限に抑えられます。 このようにして、単純な k 分割交差検証が実装されます。ソース コードを読むことを忘れないでください。 ! 階層化KフォールドStratifiedKFold は分類問題用に特別に設計されています。 一部の分類問題では、データが複数のセットに分割されても、ターゲット分布は変更されないままである必要があります。たとえば、ほとんどの場合、クラス比が 30 対 70 のバイナリ ターゲットは、トレーニング セットとテスト セットで同じ比率を維持する必要があります。通常の KFold では、分割前にデータがシャッフルされるとクラス比が維持されないため、このルールは破られます。 この問題を解決するために、Sklearn では分類専用の別のスプリッター クラスである StratifiedKFold が使用されます。 KFold に似ていますが、クラスの比率はすべての分割と反復にわたって一貫して維持されるようになりました。 シャッフルスプリット場合によっては、トレーニング/テスト セットの分割プロセスを複数回繰り返すだけで済むこともあり、これはクロス検証と非常によく似ています。 論理的には、異なるランダム シードを使用して複数のトレーニング/テスト セットを生成することは、十分な反復で堅牢なクロス検証手順に似ているはずです。 Sklearn は次のインターフェースも提供します: 時系列分割データ セットが時系列の場合、従来のクロス検証は使用できず、順序が完全に乱れます。この問題を解決するために、Sklearn は別のスプリッターである TimeSeriesSplit を提供します。 図に示すように、検証セットは常にトレーニング セットのインデックスの後に配置されます。インデックスは日付であるため、誤って将来の日付で時系列モデルをトレーニングし、以前の日付の予測を行うことはできません。 非IIDデータのクロス検証上記の方法はすべて、独立した同一に分布したデータ セットを扱います。つまり、データ生成プロセスは他のサンプルの影響を受けません。 ただし、場合によっては、データが IID 条件を満たさない、つまり一部のサンプル グループ間に依存関係があることがあります。これは、何千もの呼吸プロセス (吸入と呼気) 中の人工肺の空気圧値を記録し、各呼吸のすべての瞬間を記録する Google Brain Ventilator Pressure などの Kaggle のコンペティションで発生しました。各呼吸プロセスには約 80 行のデータがあり、これらの行は相互に関連しています。この場合、分割が「呼吸プロセスのちょうど真ん中で発生する」可能性があるため、従来のクロス検証は機能しません。 これらのデータを「グループ化」する必要があるのは、グループ内のデータが関連しているためだと理解できます。たとえば、医療データが複数の患者から収集される場合、各患者には複数のサンプルがあり、これらのデータは患者間の個人差の影響を受ける可能性が高いため、グループ化も必要です。 多くの場合、特定のグループでトレーニングされたモデルが他の未知のグループにうまく一般化できることを期待するため、クロス検証を実行するときに、これらのグループ データに「タグ」を付けて、それらを区別する方法を伝えます。 Sklearn は、このような状況を処理するためのいくつかのインターフェースを提供します。
クロスバリデーションの考え方とその実装方法を理解することを強くお勧めします。Sklearn のソースコードを読むことは、始めるのに良い方法です。さらに、独自のデータセットを明確に定義する必要があり、データの前処理が非常に重要です。 |
IHS Markit は、ハードウェアとソフトウェアを含む AI システムの世界的な収益が 202...
[[337240]]人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセス...
マイクロソフトは、有名なOfficeに大きな変更を加え始めました。5年間使用されてきたOfficeア...
人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...
科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2月8日、ホワイトハウス大統領府は最新の改訂版「重要かつ新興の技術」リスト(CETリスト)を発表しま...
5月20日、中国国家深層学習技術応用工程研究室と百度が共催する「WAVE SUMMIT 2021 ...
機械学習とディープラーニングの違いは何でしょうか?この記事から答えを見つけてみましょう。ターゲットこ...
近年、世界各国は医療の発展に継続的に注目しており、スマート医療や精密医療などの概念がこのトレンドを活...
スマートホーム テクノロジーは、家電製品、ホーム セキュリティ、照明、エンターテイメントを強化します...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...