データ サイエンス プロジェクトに取り組んだことがある場合、データ マイニングの最初の主要なステップはデータの前処理であることをご存知でしょう。実際の問題では、取得する生データが非常に乱雑なため、機械学習モデルがパターンを認識してそこから情報を抽出できないことがよくあります。 1. null値の処理:NULL 値とは、データ内の任意の行または列に存在しない値です。レコードが存在しないかデータが破損しているため、Null 値が発生する可能性があります。 Python では、これらは「Nan」としてマークされます。次のコードを実行すると確認できます
これらの空の値には、列の平均値または列内で最も頻繁に出現する項目を入力することができます。または、Nan を -999 のようなランダムな値に置き換えることもできます。 pandas ライブラリの fillna() 関数を使用して Nan 値を入力できます。列に null 値が大量に含まれている場合 (たとえば 50% 以上)、その列をデータフレームから削除したほうがよいでしょう。同じ列内の null ではない k 個の最も近い近傍の値で null 値を入力することもできます。 Sklearn の KNNImputer() は、このタスクを実行するのに役立ちます。 2. 外れ値の取り扱い:外れ値とは、データ内の他の値から一定の距離にあるデータ ポイントのことです。外れ値を検出するには、ボックスプロットなどの視覚化ツールを使用できます。 2 つの固有ベクトル間の散布図を作成すると、次のようになります。 散布図の外れ値 これらのデータ ポイントが存在する範囲など、データの背後にある科学的事実を理解していれば、外れ値を除外できます。たとえば、年齢がデータの特徴である場合、年齢は 0 から 100 の間 (場合によっては 0 から 130 の間) でなければならないことがわかります。ただし、データ内の年齢の値が 300 など、やや不合理な場合は、削除する必要があります。機械学習モデルの予測が重要である場合、つまり小さな変化が重要である場合は、これらの外れ値を破棄しないでください。同様に、外れ値が大量に存在する場合(たとえば、25% 以上)、それらが何か有用なものを表す可能性が高くなります。この場合、外れ値がないか注意深く確認する必要があります。 3. 正規化またはデータのスケーリング:K 近傍法、線形回帰、K 平均法クラスタリング、ニューラル ネットワークなどの距離ベースの機械学習アルゴリズムを使用している場合は、データを機械学習モデルに取り込む前に正規化することをお勧めします。正規化とは、数値特徴の値を変更して、それらの相関関係を変えずに共通のスケールに合わせることを指します。異なる数値特徴の値が異なる範囲にあると、モデルのパフォーマンスが低下する可能性があるため、正規化により、予測を行うときに特徴に適切な重みが割り当てられるようになります。一般的に使用される正規化手法は次のとおりです。 a) 最小最大正規化 - 特徴量を最小値と最大値の間の指定された範囲にスケーリングします。式は次のとおりです。
ここで、a は最小値、b は最大値です。 b) Z スコア正規化 - 各特徴から平均を減算し、その標準偏差で割ります。これにより、結果として得られるスケーリングされた特徴の平均はゼロ、分散は 1 になります。式は次のとおりです。
この方法で、データの分布を正規分布に変更できます。 4. カテゴリ特徴のエンコードカテゴリ特徴は、離散データ値を含む特徴です。カテゴリ特徴のデータ値として文字、単語、記号、または日付が含まれる場合、機械学習モデルは数値データのみを扱うため、このデータを数値にエンコードして機械学習モデルが理解できるようにする必要があります。データをエンコードする方法は 3 つあります。 a) ラベルエンコーディング: このタイプのエンコーディングでは、カテゴリ特徴の各離散値に、アルファベット順に基づいて一意の整数が割り当てられます。以下の例では、各果物に対応する整数ラベルが割り当てられていることがわかります。 ラベル エンコーディングは通常、線形回帰、ロジスティック回帰、ニューラル ネットワークなどの線形モデルに適用できます。 b) ワンホット: このタイプのエンコーディングでは、カテゴリ特徴の各離散値に、一意のワンホット ベクトルまたは 1 と 0 で構成されるバイナリ ベクトルが割り当てられます。ワンホットベクトルでは、離散値のインデックスのみが 1 としてマークされ、他のすべての値は 0 としてマークされます。以下の例では、各果物に長さ 5 の対応するワンホット ベクトルが割り当てられていることがわかります。 ワンホットエンコーディングは、ランダムフォレストや勾配ブースティングマシンなどのツリーベースのモデルでうまく機能することがよくあります。 c) 平均エンコーディング - このタイプのエンコーディングでは、カテゴリ特徴内の各離散値が、対応する平均ターゲット ラベルでエンコードされます。よりよく理解するために、次の例を見てみましょう。 果物のラベルは 3 つあります [「リンゴ」、「バナナ」、「オレンジ」]。各果物のラベルの平均的なエンコード式は次のとおりです。
Apple の場合、真のターゲットは 3 で、合計ターゲットは 4 なので、Apple の平均エンコーディングは 3/4 = 0.75 になります。同様に、オレンジのエンコーディングは 1/2 = 0.5、バナナのエンコーディングは 3/3 = 1 です。平均エンコーディングはラベル エンコーディングの拡張バージョンであり、ターゲット ラベルを考慮するため、より論理的に使用できます。 5. 離散化:これは優れた前処理手法でもあり、データのサイズを縮小することでモデルのパフォーマンスが向上することもあります。主に数値機能に使用されます。離散化では、数値特徴がビン/間隔に分割されます。各ビンには特定の範囲内の値が含まれます。ビン内の値の数は同じでも異なっていてもよく、各ビンはカテゴリ値と見なされます。離散化を使用して、数値特徴をカテゴリ特徴に変換できます。 これらは、機械学習モデルを実装するときにデータを前処理するために使用できるさまざまな方法です。この記事がお役に立てば幸いです。 |
<<: 詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発
>>: 脳に WiFi を入れると麻痺が治る?麻痺したサルが6日で普通に歩けるようになる
GoogleのGeminiは今年初めのAI製品戦争ではあまり注目されなかったが、世界最先端のAI組織...
[[414979]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
大学の専攻の盛衰は、時代の発展と技術の進歩を最もよく物語る証拠でもあります。今日のいわゆる「落とし穴...
[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...
現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...
[[397576]]システムに閉じ込められた配達員から人々が飽きることのないソーシャルメディアまで、...
Forrester は 2021 年の技術予測シリーズを発表しましたが、その中にはエッジ コンピュー...
[[403918]]近年、経済の継続的な発展に伴い、わが国では中間所得層の総数が増加しています。現在...
人工知能(AI)ブームにより、Nvidiaの株価は史上最高値に達した。 Nvidia の GPU は...
[[425799]] Java のガベージ コレクションに関しては、私と同じように、多くの友人が、...
過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...
5月7日のZhidongxiによると、英国ケンブリッジ大学の研究者らは最近、シェフの調理過程を模倣...
道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...
2018年7月、Kuaishouはかわいい魔法の絵文字を発表し、iPhone XのAnimojiゲー...
翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...