探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを深刻に損ないます。この問題は、小規模なスタートアップ企業から Google のようなテクノロジー大手企業まで、あらゆる規模の企業に影響を及ぼしています。しかし、なぜデータの品質は常に信頼できないのでしょうか? 人的要因が鍵となる可能性があります。

今日、企業はかつてないほど多くのデータを保有していますが、そのデータを実際の価値に変えることは依然として困難です。 AI と ML によってもたらされる自動化機能は、現実世界のデータを使用して複雑な問題を解決する効果的な手段として広く認識されており、多くの企業がビジネスを強化するためにそれらを使用することに熱心です。しかし、この流行自体が、上流データ分析プロジェクトを大量に急いで立ち上げる原因にもなりました。

[[396612]]

自動化されたパイプラインが構築されると、その中のアルゴリズムがすでにほとんどの作業を実行できるため、データ収集プロセスを更新する必要はほとんどありません。ただし、パイプラインが構築されたからといって、それが永久に稼働し続けるというわけではないことに注意してください。どのドリフトパターンがパイプラインのパフォーマンスを低下させているかに注意しながら、時間の経過とともに基礎となるデータを継続的に調査および分析する必要があります。

幸いなことに、データチームにはこの浸食のリスクを軽減する能力がありますが、そのコストは必要な時間と労力です。自動化されたパイプラインの実行効率を維持するためには、探索的データ分析 (EDA) を定期的に実行して、システム全体が常に正確に実行されるようにする必要があります。

探索的データ分析とは何ですか?

EDA は、AI と ML を正常に実装するための最初のステップです。アルゴリズム自体を分析する前に、まずデータの内容を理解する必要があります。最終的には、データの品質によって下流の分析パイプラインの実際の有効性が決まります。 EDA を正しく使用すると、ユーザーはデータ内の不要なパターンやノイズを識別でき、企業は適切なアルゴリズムをより正確に選択できるようになります。

EDA フェーズでは、動作パターンが期待どおりであることを確認するために、データを積極的にクエリする必要があります。まず、徹底的な分析が必要な次の 10 の重要な質問から始めましょう。

1. データポイントは十分ありますか?

2. データセンターと個別の測定値は期待どおりですか?

3. 実際の分析に使用できる良質なデータポイントはいくつありますか?

4. 欠損値はありますか？これらの不良値はデータの重要な部分を構成していますか？

5. データの経験的分布はどのようなものですか? データは正規分布に従っていますか?

6. 値に特別なクラスターまたはグループはありますか?

7. 外れ値はありますか? これらの外れ値はどのように処理する必要がありますか?

8. 異なる次元の間に相関関係はありますか?

9. 下流の分析や解釈のために、データを再フォーマットするなどして変換する必要がありますか?

10. データが高次元の場合、あまり多くの情報を失うことなくデータを削減できますか? 一部の次元はノイズですか?

これらの問題はさらなる問題を引き起こすでしょう。これは完全な質問リストではありませんが、考えるための出発点にすぎません。最終的には、誰もが既存のデータパターンをより深く理解し、データを正しく処理して、最も適切な処理アルゴリズムを選択できるようになることを願っています。

基礎となるデータは絶えず変化しているため、アルゴリズムが受け取る入力機能が常に安定した状態を保つためには、EDA にさらに多くの時間を導入する必要があります。たとえば、Airbnb は、データサイエンティストがモデル開発サイクルの時間の約 70% をデータ収集と特徴量エンジニアリングに費やしていることを発見しました。これには、データ構造とパターンを決定するための大量の分析作業が含まれます。つまり、このデータを理解するための時間を取らないと、AI と ML の取り組みが制御不能になってしまう可能性が非常に高くなります。

唯一不変なのは変化だ

現在、デジタルサービスの最も重要なアプリケーションはネットワークセキュリティと不正検出に集中しており、この市場の総価値は 300 億米ドルを超えています。 2030年頃までに市場総額は1,000億米ドルを超えると予想されています。 Amazon Fraud Detector や PayPal Fraud Management Filters などのツールはオンライン詐欺との戦いで役割を果たしてきましたが、詐欺検出において唯一不変なのは変化そのものです。企業は常に新たな詐欺に備える必要があり、一方で詐欺師たちも攻撃能力を確保するために「革新」に努めています。

新しいタイプの詐欺には、前例のないデータパターンが含まれていることがよくあります。たとえば、新しいユーザーは、AI システムがこれまで見たことのない郵便番号を使用して登録し、取引を行うことがよくあります。新規ユーザーは世界中から来るかもしれないが、登録場所が本当に珍しい場合は、注意したほうが良いだろう。

この種の計算で最も難しいのは、AI モデルが不正な取引と正常な取引を正確に区別できるようにすることです。データサイエンティストとして、まず基礎となるアルゴリズムをガイドして、通常のトランザクションと不正なトランザクションの特性を予備的に理解させ、その後、ゆっくりとより多くの不正検出方法を探索させる必要があります。その後の学習は、統計的手法で検索された大量のデータと切り離せません。ユーザーは顧客グループのプロファイルを作成し、常連客と詐欺師の違いを判断し、登録情報、取引内容、顧客の年齢、収入レベル、名前など、顧客を正確に分類するのに役立つ情報を抽出できます。通常の取引を不正取引としてマークすると、不正取引自体よりも顧客体験や製品の評判に大きな損害を与えることが多いことに注意することが重要です。

さらに「興味深い」のは、EDA は製品ライフサイクル全体を通じて繰り返す必要があるプロセスであるということです。新たな詐欺行為は必然的に新たなデータパターンに対応することになります。最終的に、企業は AI および ML パイプラインを機能させ続けるために、最適な不正検出機能を維持するために EDA に多大な時間と労力を投資する必要があります。

つまり、AI と ML の成功は、多数のアルゴリズムを盲目的に積み重ねることではなく、データに対する深い理解から生まれます。

AI および ML パイプラインは、データがユーザーの既存のパイプラインに適応することを期待するのではなく、データに適応する必要があります。これらの条件が満たされて初めて、AI と ML を活用した新しいビジネスが急速に発展し、前進することが期待できます。

<<: IBM Cloud Paks コミュニティリリース: スキルの共有、クラウドなし、知恵なし

>>: Google が新しいセマンティックセグメンテーションデータセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました