機械学習を使用してデータクレンジングを自動化する方法

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス目標を達成できていないという。多くのデータ サイエンティストは、データ分析には高品質のデータを使用することの重要性を認識しており、そのため、データのクリーニングと準備に時間の約 80% を費やしています。つまり、有意義な洞察の抽出に重点を置くのではなく、データ分析に先立つプロセスに多くの時間を費やすことになります。

データ分析プロセスに入る前により良いデータを用意しておくことは必要ですが、各エラーを手動で修正するのではなく、データセット内に存在するデータ品質の問題に対処するためのより良い方法が必要です。

[[386884]]

コードベースのアプローチを使用する

Python や R などのプログラミング言語を使用すると、次のような基本的なデータクリーニング ワークフローを簡単に記述できます。

  • 分析プロセスに役立たない列を削除します。
  • データ型を変更します。
  • 欠落しているデータを強調表示します。
  • 列の値から区切り線とスペースを削除します。
  • データをカテゴリ別ではなく数値順に並べる
  • 文字列を日時形式などに変更します。

プログラミング スクリプトを使用してデータをクリーンアップすることは非常に効果的ですが、多くのプログラミングの専門知識が必要です。さらに、プログラミング スクリプトは、特定のデータ セットとその列の値に特化される傾向があります。つまり、データ値に類似した基礎パターンが含まれている場合、プログラムされた関数はより適切に機能します。そうしないと、複数のシナリオを満たすことができるより一般的なアプローチを実装するのではなく、データクリーニングの目的で特定のシナリオをコードにハードコーディングすることになります。

機械学習とデータクリーニングにおけるその役割

データをクリーンアップするには、まず、不良データを分析して識別できる必要があります。次に、クリーンかつ標準化された形式のデータセットを取得するために修正アクションが実行されます。データクレンジングプロセスには複数の段階があり、機械学習や人工知能技術を採用することでワークフローを自動化できるだけでなく、より正確な結果を得ることができます。

(1)データを分析しエラーを検出する

機械学習がデータクリーニングで重要な役割を果たす最初のステップは、データをプロファイリングし、外れ値を強調表示することです。ヒストグラムを生成し、列の値をトレーニング済みの機械学習モデルに対して実行すると、どの値が外れ値であり、列の他の値と一致しないかが強調表示されます。モデルは標準辞書でトレーニングすることも、データに特化したカスタム データセットを提供することもできます。

(2)データのクリーニングと標準化のためのインテリジェントな提案を提供する

機械学習ソリューションは、列の値のエラーを検出するだけでなく、インテリジェントな推奨を行い、データ品質の問題を解決するための可能なアクションを強調表示することもできます。これらの推奨事項は、同じデータセットで検出されたデータの性質に基づいています。たとえば、2 つのレコードの住所がまったく同じだが郵便番号が異なる場合、機械学習アルゴリズムはこれを修正が必要なエラーの可能性があるとしてフラグ付けできます。これは、住所が同じであれば郵便番号も同じでなければならないという関連性制約をデータセットに設定することで実現されます。

(3)クラスタリングにより重複の可能性がある箇所をハイライトする

レコードの重複排除は、データ クレンジング ワークフローにおける最も重要なステップの 1 つです。機械学習ソリューションは、類似性に基づいてレコードをクラスタリングすることで、ユーザーがレコードのリンクを実行するのに役立ちます。これは、一致と不一致の両方のラベルを含む非繰り返しデータセットで機械学習モデルをトレーニングすることによって実現されます。トレーニングが完了すると、機械学習モデルは新しいデータ セットにインテリジェントにラベルを付け、同じエンティティを参照する可能性が高いデータ レコードを強調表示するクラスターを作成します。

(4)統合/削除の決定に影響を与え、真実の単一ソースを実現する

クラスターを作成するプロセスでは、機械学習アルゴリズムがレコードがそのクラスターに属する可能性を評価します。これにより、データ サイエンティストはデータ レコードを適切に結合または削除する決定を下すことができます。機械学習アルゴリズムで使用される変数を調整して、生成される誤検知と誤検知の数の間に許容可能なしきい値を設定することもできます。

機械学習に基づくデータクリーニング

上記のワークフローは、機械学習ベースのデータ クレンジング ソフトウェアがクレンジング アクティビティを自動化し、スマートな推奨事項を提案することで意思決定プロセスを簡素化する方法を示しています。 AI の力を活用するこの高度なプロセスは、データ サイエンティストがデータのクリーニングと準備に費やす時間を大幅に節約するために不可欠です。

<<:  ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

>>:  クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ    

推薦する

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

『ウエストワールド』のビデオゲーム版が現実になった。 YouTube ブロガーの Art from ...

...

アマゾンはドローン配送戦略に再び焦点を当て、労働組合は解雇の可能性に懸念を表明

アマゾンは、同社が「未来を実現する」のに役立つと主張する一連の新しいドローンとロボットを発表した。し...

砂漠植林ロボットとフィットネス洗濯機:00年代以降の「あの同級生」が心を開いた

少し前、ビリビリのトップUP司会者「こんにちは先生、私の名前は何童雪です」が「Airdesk」を開発...

アメリカン・エキスプレスはAIを活用して不正行為を検出し、セキュリティを強化

アメリカン・エキスプレスは長年にわたり、人工知能と認知技術のリーダーとして活躍してきました。大規模で...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

自動運転と5Gの産業発展は大きな注目を集めており、韓国企業は最近、両者を組み合わせた効果を模索してい...

2020 年の世界トップ 10 AI ガバナンス イベントと変革トレンドの展望

現在、新世代の人工知能技術が世界中で急成長を遂げており、ビッグデータ、ブロックチェーン、5Gなどの新...

...

...

切り抜きや着色を超えて、人工知能がデザインに及ぼす影響をご覧ください

人工知能の時代では、ARデザインとスマートハードウェアデザインが徐々に発展しています。デザイン改革で...

人工知能がスマート交通の発展に与える影響

[[262283]]時代の進歩とさまざまな技術の継続的な発展により、私たちの日常生活は大きな変化を遂...

将来のモバイル通信ネットワーク、6Gと人工知能の統合

将来の 6G ネットワークのより豊富なビジネス アプリケーションと極めて厳しいパフォーマンス要件を満...

...

かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

人類文明の継続的な発展に伴い、社会の分業は大きな変化を遂げ、さまざまな産業の置き換えと反復において、...