クロス検証は非常に重要です!

まず、クロス検証がなぜ必要なのかを理解する必要があります。

クロス検証は、予測モデルのパフォーマンスと一般化能力を評価するための機械学習と統計の一般的な手法です。クロス検証は、データが限られている場合や、新しい未知のデータに対するモデルの一般化能力を評価する場合に特に役立ちます。

では、クロス検証は具体的にいつ使用されるのでしょうか?

モデルのパフォーマンス評価: クロス検証は、モデルが未知のデータに対してどの程度適切に機能するかを推定するのに役立ちます。データの複数のサブセットでモデルをトレーニングおよび評価することにより、クロス検証では、単一のトレーニングとテストの分割よりも堅牢なモデルパフォーマンスの推定値が得られます。
データ効率: データが限られている場合、クロス検証では利用可能なすべてのサンプルを最大限に活用し、すべてのデータを同時にトレーニングと評価に使用することで、モデルのパフォーマンスをより信頼性の高い方法で評価します。
ハイパーパラメータの調整: クロス検証は、モデルに最適なハイパーパラメータを選択するためによく使用されます。データのさまざまなサブセットに対してさまざまなハイパーパラメータ設定を使用してモデルのパフォーマンスを評価することで、全体的なパフォーマンスが最適になるハイパーパラメータ値を特定できます。
過剰適合の検出: クロス検証は、モデルがトレーニングデータに過剰適合しているかどうかを検出するのに役立ちます。モデルが検証セットよりもトレーニングセットで大幅に優れたパフォーマンスを発揮する場合、過剰適合を示している可能性があり、正規化やより単純なモデルの選択などの調整が必要になります。
一般化評価: クロス検証により、モデルが未知のデータに対してどの程度一般化されるかを評価します。データの複数の分割でモデルを評価することにより、ランダム性や特定のトレーニングとテストの分割に依存せずに、データ内の基本的なパターンを捕捉するモデルの能力を評価するのに役立ちます。

クロスバリデーションの一般的な考え方は、図 5 フォールドクロスバリデーションに示されています。各反復で、新しいモデルは 4 つのサブデータセットでトレーニングされ、最後に予約されたサブデータセットでテストされて、すべてのデータが利用されていることを確認します。平均スコアや標準偏差などの指標を通じてモデルのパフォーマンスの真の測定値を提供します

すべてはK折りクロスから始まります。

Kフォールド

K 倍交差が Sklearn に統合されました。ここでは 7 倍交差を例に挙げます。

 from sklearn.datasets import make_regression from sklearn.model_selection import KFold x, y = make_regression(n_samples=100) # Init the splitter cross_validation = KFold(n_splits=7)

もう 1 つの一般的な操作は、分割を実行する前にシャッフルすることです。これにより、サンプルの元の順序が破壊され、過剰適合のリスクがさらに最小限に抑えられます。

 cross_validation = KFold(n_splits=7, shuffle=True)

このようにして、単純な k 分割交差検証が実装されます。ソースコードを読むことを忘れないでください。！

階層化Kフォールド

StratifiedKFold は分類問題用に特別に設計されています。

一部の分類問題では、データが複数のセットに分割されても、ターゲット分布は変更されないままである必要があります。たとえば、ほとんどの場合、クラス比が 30 対 70 のバイナリターゲットは、トレーニングセットとテストセットで同じ比率を維持する必要があります。通常の KFold では、分割前にデータがシャッフルされるとクラス比が維持されないため、このルールは破られます。

この問題を解決するために、Sklearn では分類専用の別のスプリッタークラスである StratifiedKFold が使用されます。

 from sklearn.datasets import make_classification from sklearn.model_selection import StratifiedKFold x, y = make_classification(n_samples=100, n_classes=2) cross_validation = StratifiedKFold(n_splits=7, shuffle=True, random_state=1121218)

KFold に似ていますが、クラスの比率はすべての分割と反復にわたって一貫して維持されるようになりました。

シャッフルスプリット

場合によっては、トレーニング/テストセットの分割プロセスを複数回繰り返すだけで済むこともあり、これはクロス検証と非常によく似ています。

論理的には、異なるランダムシードを使用して複数のトレーニング/テストセットを生成することは、十分な反復で堅牢なクロス検証手順に似ているはずです。

Sklearn は次のインターフェースも提供します:

 from sklearn.model_selection import ShuffleSplit cross_validation = ShuffleSplit(n_splits=7, train_size=0.75, test_size=0.25)

時系列分割

データセットが時系列の場合、従来のクロス検証は使用できず、順序が完全に乱れます。この問題を解決するために、Sklearn は別のスプリッターである TimeSeriesSplit を提供します。

 from sklearn.model_selection import TimeSeriesSplit cross_validation = TimeSeriesSplit(n_splits=7)

図に示すように、検証セットは常にトレーニングセットのインデックスの後に配置されます。インデックスは日付であるため、誤って将来の日付で時系列モデルをトレーニングし、以前の日付の予測を行うことはできません。

非IIDデータのクロス検証

上記の方法はすべて、独立した同一に分布したデータセットを扱います。つまり、データ生成プロセスは他のサンプルの影響を受けません。

ただし、場合によっては、データが IID 条件を満たさない、つまり一部のサンプルグループ間に依存関係があることがあります。これは、何千もの呼吸プロセス (吸入と呼気) 中の人工肺の空気圧値を記録し、各呼吸のすべての瞬間を記録する Google Brain Ventilator Pressure などの Kaggle のコンペティションで発生しました。各呼吸プロセスには約 80 行のデータがあり、これらの行は相互に関連しています。この場合、分割が「呼吸プロセスのちょうど真ん中で発生する」可能性があるため、従来のクロス検証は機能しません。

これらのデータを「グループ化」する必要があるのは、グループ内のデータが関連しているためだと理解できます。たとえば、医療データが複数の患者から収集される場合、各患者には複数のサンプルがあり、これらのデータは患者間の個人差の影響を受ける可能性が高いため、グループ化も必要です。

多くの場合、特定のグループでトレーニングされたモデルが他の未知のグループにうまく一般化できることを期待するため、クロス検証を実行するときに、これらのグループデータに「タグ」を付けて、それらを区別する方法を伝えます。

Sklearn は、このような状況を処理するためのいくつかのインターフェースを提供します。

グループK折りたたみ
階層化グループKフォールド
グループから退出
グループを退出
グループシャッフル分割

クロスバリデーションの考え方とその実装方法を理解することを強くお勧めします。Sklearn のソースコードを読むことは、始めるのに良い方法です。さらに、独自のデータセットを明確に定義する必要があり、データの前処理が非常に重要です。

<<:

>>:

クロス検証は非常に重要です!

Kフォールド

階層化Kフォールド

シャッフルスプリット

時系列分割

非IIDデータのクロス検証

クラウド上でのインテリジェント運転の 3D 再構築のベストプラクティス

米上院司法委員会公聴会：AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

自動運転車の未来はどうなるのか？マッキンゼーは言う

空飛ぶ脳？ヒントン氏のツイートは白熱した議論を引き起こした。ニューラルネットワークは鳥が飛ぶための「羽」なのか？

UNC スタンフォード大学らは、GPT-4V の予期せぬ脆弱性を明らかにしました。GPT-4V は人間に騙されて、ひょうたんの赤ちゃんを 8 匹数え上げてしまうのです。ルカンとジム・ファンは衝撃を受けた

うつ病に苦しむ5400万人の人々に直面し、600人のボランティアはAIを使って彼らを救うつもりだ

コードを自動生成できるAIベースの開発ツール5選

推薦する

CBインサイトがAI業界の25大トレンドを発表：中国では顔認識や無人店舗が急速に発展

Google がニューラルネットワークコーデック SoundStream を発表、オープンソースプロジェクト Lyra に統合される予定

機械学習とデータサイエンスに関する必読の無料オンライン電子書籍 10 冊

Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

世界的な人口高齢化と労働力不足：ロボットとAIによる解決策

あらゆる角度から監視されることへの不安：AI はプライバシー侵害にどう対抗できるか？

Google AI 面接の質問（回答と戦略付き）

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き！

ディープニューラルネットワークの数学的基礎は難しすぎますか?

AIがあなたをビデオから消去しました!効果はシルキーで跡が残りません

情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

サイバー犯罪者はAIを利用してマルウェア攻撃ソフトウェアにサンドボックスを作成

人工知能技術が伝染病の予防と制御に役立つ