データサイエンスはアルゴリズムの研究です。この記事では、データを処理するための一般的なサンプリング手法をいくつか紹介します。
1. 単純無作為抽出 ある集合が集団から選択され、その集合の各メンバーが選択される確率が等しいとします。 次のコードは、データセットから 100 個のサンプル ポイントを選択する方法を示しています。
2. 層別抽出法 選挙で各候補者の平均得票数を推定したいとします。そして、その国に 3 つの町があるとします。 町Aには100万人の労働者がおり、町Bには200万人の労働者がおり、町Cには300万人の退職者がいます。 すべての有権者からランダムに抽出した 60 人が町の特徴にうまく適合しない可能性があり、その結果、データに偏りが生じ、推定値に重大な誤差が生じる可能性があります。 逆に、町 A、町 B、町 C からそれぞれ 10、20、30 のランダム サンプルを抽出した場合、同じサンプル数であれば、この方法を使用した推定結果の誤差は小さくなります。 これは Python を使用すると簡単に実行できます。
3. 池のサンプリング 一度だけ反復される、数が不明なアイテムの大きなストリームがあると仮定します。データ サイエンティストは、各アイテムが均等に抽選される確率になるように、アイテムのストリームからアイテムをランダムに選択するアルゴリズムを作成できます。このステップをどのように達成するのでしょうか? 無限のアイテムのストリームから 5 つのオブジェクトを抽出しなければならないとします。この場合、各オブジェクトが抽出される確率は等しくなります。
サンプルでは、各要素がアイテムのストリームから抽出される確率は等しいことが数学的に証明できます。 どうやってやるんですか? 数学に関しては、小さな問題から始めるのが常に役立ちます。 したがって、3 つの項目のみを含むデータ ストリームから 2 つの項目を抽出したいとします。 池には十分なスペースがあるので、項目 1 をリストに追加できます。同様に、池にはまだ十分なスペースがあるので、項目 2 もリストに追加できます。 項目3を見てみましょう。ここからが面白いところです。アイテム 3 が引かれる確率は 2/3 です。 次に、アイテム 1 が抽選される確率を見てみましょう。 項目 1 が選択される確率は、項目 3 が選択される確率に、データ ストリーム内の他の 2 つの項目の候補として項目 1 がランダムに選択される確率を掛けたものに等しくなります。つまり、次のようになります。
したがって、アイテム 1 を引く確率は次のようになります。
データ サイエンティストは、プロジェクト 2 にまったく同じパラメータを使用し、それをデータ フロー内の他のプロジェクトに適用できます。 したがって、各アイテムが選択される確率は同じです:2/3または一般にk/n 4. ランダムアンダーサンプリングとランダムオーバーサンプリング 実際、不均衡なデータセットは非常に一般的です。 再サンプリングは、極端に不均衡なデータセットを処理するために広く使用されている手法です。これは、多数派クラスから一部のサンプルを除外すること (アンダーサンプリング)、および/または少数派クラスからさらにサンプルを追加すること (オーバーサンプリング) を指します。 まず、不均衡なデータの例をいくつか作成します。
ランダム オーバーサンプリングとアンダーサンプリングは、次の方法を使用して実行できるようになりました。
5. 不均衡学習を用いたアンダーサンプリングとオーバーサンプリング Imbalanced-learn (imblearn) は、不均衡なデータセットを解決するための Python パッケージです。 アンダーサンプリングとオーバーサンプリングにはいくつかの方法があります。 (1)Tomek Linksを用いたアンダーサンプリング: Imbalanced-learn が提供する方法の 1 つは、2 つの異なるクラスのサンプル内の最も近い近傍を参照する Tomek Links です。 このアルゴリズムでは、大多数のクラス サンプルが最終的に Tomek リンクから削除され、分類器の決定境界が改善されます。
(2)SMOTEアルゴリズムを用いたオーバーサンプリング SMOTE アルゴリズム (Synthetic Minority Oversampling Technology) は、既存のサンプルに最も近い近傍の中から少数クラスのサンプルの新しいサンプルを人工的に合成します。
Imblearn パッケージには、アンダーサンプリング (Cluster Centroids、NearMiss など) とオーバーサンプリング (ADASYN および bSMOTE) のための他の多くの方法があります。 結論 アルゴリズムはデータサイエンスの生命線です。 サンプリングはデータサイエンスにおける重要なトピックです。適切なサンプリング戦略は、プロジェクト全体を前進させるのに役立つ場合があります。間違ったサンプリング戦略は間違った結果につながる可能性があります。したがって、サンプリング戦略は慎重に選択する必要があります。 |
>>: 相関関係は因果関係ではない。ディープラーニングによりAIは「10万のなぜ」を問うことができる
人工知能 (AI) と機械学習 (ML) がもたらすメリットは広く認識されています。このテクノロジー...
人々は、たとえすべてを正しく行えなかったとしても、毎年年末には必ず将来を楽しみにするものです。今年は...
最近、別の若い中国人男性が、22年間存在していたバグを修正したことでインターネット上で人気を博した。...
1月11日、リーダーシップの混乱を経験した後、人工知能スタートアップOpenAIは製品とサービスのプ...
動物を愛し、動物保護に尽力する世界中の人々にとって、今日は特別な日、「世界動物の日」です。毎年10月...
LLM搭載のAIエージェントで論文を自動作成できるようになりました!ウェブサイト: https:/...
それはとても神秘的で、本当にハイエンドで、急速に発展しています!それは私たちの周りにあり、あなたは気...
AIは銀行の顧客サービスの性質を変える銀行やその他の金融機関は、コールセンターからチャットボット、よ...
写真を見て会話できるAIは人間よりも優れたパフォーマンスを発揮するのか?最近、Azure は写真の内...
最近、Sinovation Venturesの創設者であるKai-Fu Lee氏が「AIの急速な時代...
[[203619]] 「もし私が諜報員だったら、生体認証機能をオンにすることは絶対にありません。」...
[51CTO.com クイック翻訳] 変化は常に起こっており、将来の変化は予測可能です。保険市場は大...
企業が初めて AI を導入し、機械学習プロジェクトを構築するときは、理論に重点を置くことがよくありま...
ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きな...