探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを深刻に損ないます。この問題は、小規模なスタートアップ企業から Google のようなテクノロジー大手企業まで、あらゆる規模の企業に影響を及ぼしています。しかし、なぜデータの品質は常に信頼できないのでしょうか? 人的要因が鍵となる可能性があります。

今日、企業はかつてないほど多くのデータを保有していますが、そのデータを実際の価値に変えることは依然として困難です。 AI と ML によってもたらされる自動化機能は、現実世界のデータを使用して複雑な問題を解決する効果的な手段として広く認識されており、多くの企業がビジネスを強化するためにそれらを使用することに熱心です。しかし、この流行自体が、上流データ分析プロジェクトを大量に急いで立ち上げる原因にもなりました。

[[396612]]

自動化されたパイプラインが構築されると、その中のアルゴリズムがすでにほとんどの作業を実行できるため、データ収集プロセスを更新する必要はほとんどありません。ただし、パイプラインが構築されたからといって、それが永久に稼働し続けるというわけではないことに注意してください。どのドリフト パターンがパイプラインのパフォーマンスを低下させているかに注意しながら、時間の経過とともに基礎となるデータを継続的に調査および分析する必要があります。

幸いなことに、データ チームにはこの浸食のリスクを軽減する能力がありますが、そのコストは必要な時間と労力です。自動化されたパイプラインの実行効率を維持するためには、探索的データ分析 (EDA) を定期的に実行して、システム全体が常に正確に実行されるようにする必要があります。

探索的データ分析とは何ですか?

EDA は、AI と ML を正常に実装するための最初のステップです。アルゴリズム自体を分析する前に、まずデータの内容を理解する必要があります。最終的には、データの品質によって下流の分析パイプラインの実際の有効性が決まります。 EDA を正しく使用すると、ユーザーはデータ内の不要なパターンやノイズを識別でき、企業は適切なアルゴリズムをより正確に選択できるようになります。

EDA フェーズでは、動作パターンが期待どおりであることを確認するために、データを積極的にクエリする必要があります。まず、徹底的な分析が必要な次の 10 の重要な質問から始めましょう。

1. データポイントは十分ありますか?

2. データ センターと個別の測定値は期待どおりですか?

3. 実際の分析に使用できる良質なデータ ポイントはいくつありますか?

4. 欠損値はありますか?これらの不良値はデータの重要な部分を構成していますか?

5. データの経験的分布はどのようなものですか? データは正規分布に従っていますか?

6. 値に特別なクラスターまたはグループはありますか?

7. 外れ値はありますか? これらの外れ値はどのように処理する必要がありますか?

8. 異なる次元の間に相関関係はありますか?

9. 下流の分析や解釈のために、データを再フォーマットするなどして変換する必要がありますか?

10. データが高次元の場合、あまり多くの情報を失うことなくデータを削減できますか? 一部の次元はノイズですか?

これらの問題はさらなる問題を引き起こすでしょう。これは完全な質問リストではありませんが、考えるための出発点にすぎません。最終的には、誰もが既存のデータ パターンをより深く理解し、データを正しく処理して、最も適切な処理アルゴリズムを選択できるようになることを願っています。

基礎となるデータは絶えず変化しているため、アルゴリズムが受け取る入力機能が常に安定した状態を保つためには、EDA にさらに多くの時間を導入する必要があります。たとえば、Airbnb は、データ サイエンティストがモデル開発サイクルの時間の約 70% をデータ収集と特徴量エンジニアリングに費やしていることを発見しました。これには、データ構造とパターンを決定するための大量の分析作業が含まれます。つまり、このデータを理解するための時間を取らないと、AI と ML の取り組みが制御不能になってしまう可能性が非常に高くなります。

唯一不変なのは変化だ

現在、デジタル サービスの最も重要なアプリケーションはネットワーク セキュリティと不正検出に集中しており、この市場の総価値は 300 億米ドルを超えています。 2030年頃までに市場総額は1,000億米ドルを超えると予想されています。 Amazon Fraud Detector や PayPal Fraud Management Filters などのツールはオンライン詐欺との戦いで役割を果たしてきましたが、詐欺検出において唯一不変なのは変化そのものです。企業は常に新たな詐欺に備える必要があり、一方で詐欺師たちも攻撃能力を確保するために「革新」に努めています。

新しいタイプの詐欺には、前例のないデータ パターンが含まれていることがよくあります。たとえば、新しいユーザーは、AI システムがこれまで見たことのない郵便番号を使用して登録し、取引を行うことがよくあります。新規ユーザーは世界中から来るかもしれないが、登録場所が本当に珍しい場合は、注意したほうが良いだろう。

この種の計算で最も難しいのは、AI モデルが不正な取引と正常な取引を正確に区別できるようにすることです。データ サイエンティストとして、まず基礎となるアルゴリズムをガイドして、通常のトランザクションと不正なトランザクションの特性を予備的に理解させ、その後、ゆっくりとより多くの不正検出方法を探索させる必要があります。その後の学習は、統計的手法で検索された大量のデータと切り離せません。ユーザーは顧客グループのプロファイルを作成し、常連客と詐欺師の違いを判断し、登録情報、取引内容、顧客の年齢、収入レベル、名前など、顧客を正確に分類するのに役立つ情報を抽出できます。通常の取引を不正取引としてマークすると、不正取引自体よりも顧客体験や製品の評判に大きな損害を与えることが多いことに注意することが重要です。

さらに「興味深い」のは、EDA は製品ライフサイクル全体を通じて繰り返す必要があるプロセスであるということです。新たな詐欺行為は必然的に新たなデータ パターンに対応することになります。最終的に、企業は AI および ML パイプラインを機能させ続けるために、最適な不正検出機能を維持するために EDA に多大な時間と労力を投資する必要があります。

つまり、AI と ML の成功は、多数のアルゴリズムを盲目的に積み重ねることではなく、データに対する深い理解から生まれます。

AI および ML パイプラインは、データがユーザーの既存のパイプラインに適応することを期待するのではなく、データに適応する必要があります。これらの条件が満たされて初めて、AI と ML を活用した新しいビジネスが急速に発展し、前進することが期待できます。

<<:  IBM Cloud Paks コミュニティ リリース: スキルの共有、クラウドなし、知恵なし

>>:  Google が新しいセマンティック セグメンテーション データセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

ブログ    
ブログ    
ブログ    

推薦する

Nature: AI はなぜいつも差別的なのか?

[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...

アリババ、AI研究所、清華大学が共同でAIに認知能力を与える新しいAIモデルを発表

1月12日、アリババ、AI研究所、清華大学などの共同研究チームが、新たな超大規模認知事前トレーニング...

...

Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!

Oracle データベースでは、初期化パラメータは非常に重要な構成項目であり、データベースのパフォ...

...

...

ドローン配送がレイアウトブームを巻き起こす、普及するには2つのポイントに注意が必要

滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...

...

ICLRスポットライト!清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

現実世界のシステムは、動作中に大量の時系列データを生成します。これらの時系列データを通じてシステム内...

99.9%の精度!小園口算は算数の問題をAIで訂正しており、誤り率は小学校教師の10分の1に過ぎない。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

...

Keras の重み制約を使用してディープ ニューラル ネットワークの過剰適合を減らす

[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。 2...

自動運転車と機械学習:交通の未来を変える

自動運転車と機械学習は、自動車業界に革命をもたらす画期的な技術として登場しました。人工知能 (AI)...