機械学習を使用してデータクレンジングを自動化する方法

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス目標を達成できていないという。多くのデータ サイエンティストは、データ分析には高品質のデータを使用することの重要性を認識しており、そのため、データのクリーニングと準備に時間の約 80% を費やしています。つまり、有意義な洞察の抽出に重点を置くのではなく、データ分析に先立つプロセスに多くの時間を費やすことになります。

データ分析プロセスに入る前により良いデータを用意しておくことは必要ですが、各エラーを手動で修正するのではなく、データセット内に存在するデータ品質の問題に対処するためのより良い方法が必要です。

[[386884]]

コードベースのアプローチを使用する

Python や R などのプログラミング言語を使用すると、次のような基本的なデータクリーニング ワークフローを簡単に記述できます。

  • 分析プロセスに役立たない列を削除します。
  • データ型を変更します。
  • 欠落しているデータを強調表示します。
  • 列の値から区切り線とスペースを削除します。
  • データをカテゴリ別ではなく数値順に並べる
  • 文字列を日時形式などに変更します。

プログラミング スクリプトを使用してデータをクリーンアップすることは非常に効果的ですが、多くのプログラミングの専門知識が必要です。さらに、プログラミング スクリプトは、特定のデータ セットとその列の値に特化される傾向があります。つまり、データ値に類似した基礎パターンが含まれている場合、プログラムされた関数はより適切に機能します。そうしないと、複数のシナリオを満たすことができるより一般的なアプローチを実装するのではなく、データクリーニングの目的で特定のシナリオをコードにハードコーディングすることになります。

機械学習とデータクリーニングにおけるその役割

データをクリーンアップするには、まず、不良データを分析して識別できる必要があります。次に、クリーンかつ標準化された形式のデータセットを取得するために修正アクションが実行されます。データクレンジングプロセスには複数の段階があり、機械学習や人工知能技術を採用することでワークフローを自動化できるだけでなく、より正確な結果を得ることができます。

(1)データを分析しエラーを検出する

機械学習がデータクリーニングで重要な役割を果たす最初のステップは、データをプロファイリングし、外れ値を強調表示することです。ヒストグラムを生成し、列の値をトレーニング済みの機械学習モデルに対して実行すると、どの値が外れ値であり、列の他の値と一致しないかが強調表示されます。モデルは標準辞書でトレーニングすることも、データに特化したカスタム データセットを提供することもできます。

(2)データのクリーニングと標準化のためのインテリジェントな提案を提供する

機械学習ソリューションは、列の値のエラーを検出するだけでなく、インテリジェントな推奨を行い、データ品質の問題を解決するための可能なアクションを強調表示することもできます。これらの推奨事項は、同じデータセットで検出されたデータの性質に基づいています。たとえば、2 つのレコードの住所がまったく同じだが郵便番号が異なる場合、機械学習アルゴリズムはこれを修正が必要なエラーの可能性があるとしてフラグ付けできます。これは、住所が同じであれば郵便番号も同じでなければならないという関連性制約をデータセットに設定することで実現されます。

(3)クラスタリングにより重複の可能性がある箇所をハイライトする

レコードの重複排除は、データ クレンジング ワークフローにおける最も重要なステップの 1 つです。機械学習ソリューションは、類似性に基づいてレコードをクラスタリングすることで、ユーザーがレコードのリンクを実行するのに役立ちます。これは、一致と不一致の両方のラベルを含む非繰り返しデータセットで機械学習モデルをトレーニングすることによって実現されます。トレーニングが完了すると、機械学習モデルは新しいデータ セットにインテリジェントにラベルを付け、同じエンティティを参照する可能性が高いデータ レコードを強調表示するクラスターを作成します。

(4)統合/削除の決定に影響を与え、真実の単一ソースを実現する

クラスターを作成するプロセスでは、機械学習アルゴリズムがレコードがそのクラスターに属する可能性を評価します。これにより、データ サイエンティストはデータ レコードを適切に結合または削除する決定を下すことができます。機械学習アルゴリズムで使用される変数を調整して、生成される誤検知と誤検知の数の間に許容可能なしきい値を設定することもできます。

機械学習に基づくデータクリーニング

上記のワークフローは、機械学習ベースのデータ クレンジング ソフトウェアがクレンジング アクティビティを自動化し、スマートな推奨事項を提案することで意思決定プロセスを簡素化する方法を示しています。 AI の力を活用するこの高度なプロセスは、データ サイエンティストがデータのクリーニングと準備に費やす時間を大幅に節約するために不可欠です。

<<:  ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

>>:  クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ    
ブログ    
ブログ    

推薦する

Microsoft の 37 ページの論文では、Sora をリバース エンジニアリングしています。どのような結論に達したのでしょうか。

現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

AIと自動化革命に備える10の方法

人工知能と自動化はもはやSFの世界の話ではなく、ビジネスの世界と消費者の世界の両方で非常に現実的かつ...

...

農業革命: 世界市場における作物収穫ロボットの台頭

農業の世界は、世界の市場に革命を起こすであろう驚異的な技術である作物収穫ロボットの登場により、パラダ...

TensorFlow の基礎から実践まで: 交通標識分類ニューラル ネットワークの作成方法を段階的に学習します

[[198754]] TensorFlow は、最も人気のあるディープラーニングフレームワークになり...

...

...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI を活用したエンジニアリングは、ロボット工学と自動化をどのように強化できるのでしょうか?

AI プロンプト エンジニアリングは、AI ツールを使用して望ましい結果を生み出す効果的な方法です...

倉庫の自動化は人気が高い。ソフトバンクは28億ドルを投じてオートストアの40%を買収した。

ソフトバンクグループは、ノルウェーの倉庫自動化企業オートストアの株式40%を28億ドルで買収すること...

2021年5月のAI資金調達活動の概要

科学技術の継続的な進歩により、インテリジェント製品は徐々に日常生活に統合され、人工知能は現代の発展の...

知っておくべき6つのオープンソースAIツール

[[236435]]誰でも使用できる無料のオープンソース AI ツールをいくつか見てみましょう。オー...

...

2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

[[387639]]人工知能に関するこれらの 8 冊の本は、AI に関連する倫理的問題、AI が雇用...