データ サイエンスと機械学習の分野では、多くのモデルはデータが正規分布していると想定しているか、データが正規分布していると想定した方がパフォーマンスが向上すると想定しています。たとえば、線形回帰では残差が正規分布していると仮定し、線形判別分析 (LDA) は正規分布などの仮定に基づいて導出されます。 したがって、データ サイエンティストや機械学習の専門家にとって、データの正規性をテストする方法を理解することは非常に重要です。 この記事では、データ正規性をテストするための 11 の基本的な方法を紹介します。これにより、読者はデータ分布の特性と分析に適切な方法を適用する方法をより深く理解し、機械学習とデータ モデリングのプロセスでデータ分布がモデルのパフォーマンスに与える影響をより適切に処理できるようになります。 プロット方法1.QQプロットQQ プロット (Quantile-Quantile Plot) は、データ分布が正規分布に準拠しているかどうかをテストするために使用される一般的な方法です。 QQ プロットでは、データの分位数が標準正規分布の分位数と比較されます。データ分布が正規分布に近い場合、QQ プロット上の点はほぼ直線上に並びます。 次のサンプル コードは、QQ プロットを示すために、正規分布に従うランダム データ セットを生成します。コードを実行すると、QQ プロットとそれに対応する正規分布曲線が表示されます。グラフ上の点の分布を観察することで、データが正規分布に近いかどうかを事前に判断できます。 2. KDE プロットKDE (カーネル密度推定) プロットは、データ分布を視覚化する方法であり、データの正規性を検出するのに役立ちます。 KDE プロットでは、データの密度が推定され、滑らかな曲線としてプロットされるため、データの分布形状を観察するのに役立ちます。 次のサンプル コードは、KDE プロットを示すために、正規分布に従うランダム データ セットを生成します。コードを実行すると、KDE プロットと対応する正規分布曲線が表示され、視覚化によってデータ分布の正規性を検出できます。 3. ヴァイオリン・プロットバイオリン プロットを観察することで、データの分布形状を見つけ、データが正規分布に近いかどうかを予備的に判断できます。バイオリン プロットがベル曲線のような形をしている場合、データはおそらくほぼ正規分布しています。バイオリン プロットが極端に歪んでいたり、複数のピークがあったりする場合は、データが正規分布していない可能性があります。 次のサンプル コードは、正規分布に従うランダム データ セットを生成し、Violin Plot を示します。コードを実行すると、Violin Plot とそれに対応する正規分布曲線が表示されます。視覚化により、データ分布の形状を検出し、データが正規分布に近いかどうかを事前に判断できます。 4.ヒストグラムヒストグラムを使用してデータ分布の正規性を検出することも一般的な方法です。ヒストグラムは、データの分布を直感的に理解し、データが正規分布に近いかどうかを事前に判断するのに役立ちます。 ヒストグラムが上の図に示すようにベル型曲線に近似し、対応する正規分布曲線と形状が似ている場合、データはおそらく正規分布に従っています。もちろん、可視化はあくまでも予備的な判断に過ぎず、より正確な検出が必要な場合は、正規性検定などの統計的手法を用いて分析することができます。 統計的手法5. シャピロ・ウィルク検定これは、データが正規分布を満たしているかどうかをテストするために使用される統計手法であり、W テストとも呼ばれます。 Shapiro-Wilk テストを実行するときは、通常、次の 2 つの主な指標に注目します。
したがって、統計量 W が 1 に近く、P 値が 0.05 より大きい場合、観測データは正規分布を満たしていると結論付けることができます。 次のコードでは、まず正規分布に従うランダム データ セットが生成され、次に Shapiro-Wilk テストが実行されて検定統計量と P 値が取得されます。 P 値を有意水準と比較することで、サンプル データが正規分布から得られたものかどうかを判断できます。 6.KS検査KS テスト (コルモゴロフ-スミルノフ テスト) は、データが特定の分布 (正規分布など) に準拠しているかどうかをテストするために使用される統計手法です。特定の理論分布の累積分布関数 (CDF) 間の最大差を測定することで、観測データが同じ分布からのものであるかどうかを評価します。基本的な手順は次のとおりです。
Python で KS テストを使用してデータが正規分布に準拠しているかどうかをテストする場合は、Scipy ライブラリの kstest 関数を使用できます。以下は、Python を使用して KS テストを実行し、データが正規分布に準拠しているかどうかをテストする方法を示した簡単な例です。 7. アンダーソン・ダーリング検定アンダーソン・ダーリング検定は、データが正規分布などの特定の分布から来ているかどうかを検定するために使用される統計手法です。これは、分布の末端における観測値の差に特に重点を置いているため、極端な値からの逸脱を検出するのに非常に効果的です。 次のコードは、stats.anderson 関数を使用して Anderson-Darling テストを実行し、テスト統計量、臨界値、および有意水準を取得します。次に、統計値と臨界値の比較に基づいて、サンプル データが正規分布からのものであるかどうかを判断できます。 8. リリーフォーステストリリーフォース検定 (コルモゴロフ-スミルノフ-リリーフォース検定とも呼ばれる) は、データが正規分布に従うかどうかを検定する統計検定です。これは、特に小規模なサンプル サイズ向けに設計されたコルモゴロフ-スミルノフ検定のバリエーションです。 KS テストとは異なり、Lilliefors テストではデータの分布タイプに関する仮定は必要ありません。観測されたデータが正規分布から来ているかどうかを評価します。 次の例では、lilliefors 関数を使用して Lilliefors テストを実行し、テスト統計量と P 値を取得します。 P 値を有意水準と比較することで、サンプル データが正規分布から得られたものかどうかを判断できます。 9. 距離測定距離測定は、データの正規性をテストするための効果的な方法であり、観測されたデータ分布と参照分布の違いをより直感的に比較する方法を提供します。 以下に、一般的な距離測定と、正規性のテストにおけるその使用法を示します。 (1)バッタチャリヤ距離:
(2)「ヘリンガー距離」
(3)KLダイバージェンス:
これらの距離測定は、観測された分布を複数の参照分布と比較し、データの正規性をより適切に評価するのに役立ちます。観測された分布との距離が最小となる参照分布を選択することで、データが正規分布からのものであるかどうかをより正確に判断できます。 |
<<: Google の最新 AI モデル「Gemini」について知っておくべきことすべて
翻訳者 |李睿レビュー | Chonglouテクノロジーの世界が進化し続けるにつれて、チャットボット...
MITの研究者らは、視覚と無線周波数(RF)センシングを組み合わせて、視界から隠れている物体でも見...
外科用ロボット、人工知能心理学者、そして一連の「人工知能+」プロジェクト技術の統合が医療分野に急速に...
海外メディアの報道によると、フローニンゲン大学の研究者らが新たな筆跡分析法を開発した。この手法は死海...
ドイツ、米国、フランスの研究者で構成された研究チームは、10万枚以上の画像を使用して、畳み込みニュー...
人工知能と機械学習ソリューションは、今日、さまざまな業界の組織で一般的になりつつあります。組織が A...
[[437247]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[338796]] 2017年に研究者たちは「2040年までにAIがほとんどのコードを書くように...
[[245589]]ジョージ・セイフ氏はこれまで、主にデータサイエンスや機械学習関連の職種を対象に、...
[[397258]] 2021年5月1日、「労働節連休」初日、浙江省舟山市公安局普陀区支局東港派出所...