探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを深刻に損ないます。この問題は、小規模なスタートアップ企業から Google のようなテクノロジー大手企業まで、あらゆる規模の企業に影響を及ぼしています。しかし、なぜデータの品質は常に信頼できないのでしょうか? 人的要因が鍵となる可能性があります。

今日、企業はかつてないほど多くのデータを保有していますが、そのデータを実際の価値に変えることは依然として困難です。 AI と ML によってもたらされる自動化機能は、現実世界のデータを使用して複雑な問題を解決する効果的な手段として広く認識されており、多くの企業がビジネスを強化するためにそれらを使用することに熱心です。しかし、この流行自体が、上流データ分析プロジェクトを大量に急いで立ち上げる原因にもなりました。

[[396612]]

自動化されたパイプラインが構築されると、その中のアルゴリズムがすでにほとんどの作業を実行できるため、データ収集プロセスを更新する必要はほとんどありません。ただし、パイプラインが構築されたからといって、それが永久に稼働し続けるというわけではないことに注意してください。どのドリフト パターンがパイプラインのパフォーマンスを低下させているかに注意しながら、時間の経過とともに基礎となるデータを継続的に調査および分析する必要があります。

幸いなことに、データ チームにはこの浸食のリスクを軽減する能力がありますが、そのコストは必要な時間と労力です。自動化されたパイプラインの実行効率を維持するためには、探索的データ分析 (EDA) を定期的に実行して、システム全体が常に正確に実行されるようにする必要があります。

探索的データ分析とは何ですか?

EDA は、AI と ML を正常に実装するための最初のステップです。アルゴリズム自体を分析する前に、まずデータの内容を理解する必要があります。最終的には、データの品質によって下流の分析パイプラインの実際の有効性が決まります。 EDA を正しく使用すると、ユーザーはデータ内の不要なパターンやノイズを識別でき、企業は適切なアルゴリズムをより正確に選択できるようになります。

EDA フェーズでは、動作パターンが期待どおりであることを確認するために、データを積極的にクエリする必要があります。まず、徹底的な分析が必要な次の 10 の重要な質問から始めましょう。

1. データポイントは十分ありますか?

2. データ センターと個別の測定値は期待どおりですか?

3. 実際の分析に使用できる良質なデータ ポイントはいくつありますか?

4. 欠損値はありますか?これらの不良値はデータの重要な部分を構成していますか?

5. データの経験的分布はどのようなものですか? データは正規分布に従っていますか?

6. 値に特別なクラスターまたはグループはありますか?

7. 外れ値はありますか? これらの外れ値はどのように処理する必要がありますか?

8. 異なる次元の間に相関関係はありますか?

9. 下流の分析や解釈のために、データを再フォーマットするなどして変換する必要がありますか?

10. データが高次元の場合、あまり多くの情報を失うことなくデータを削減できますか? 一部の次元はノイズですか?

これらの問題はさらなる問題を引き起こすでしょう。これは完全な質問リストではありませんが、考えるための出発点にすぎません。最終的には、誰もが既存のデータ パターンをより深く理解し、データを正しく処理して、最も適切な処理アルゴリズムを選択できるようになることを願っています。

基礎となるデータは絶えず変化しているため、アルゴリズムが受け取る入力機能が常に安定した状態を保つためには、EDA にさらに多くの時間を導入する必要があります。たとえば、Airbnb は、データ サイエンティストがモデル開発サイクルの時間の約 70% をデータ収集と特徴量エンジニアリングに費やしていることを発見しました。これには、データ構造とパターンを決定するための大量の分析作業が含まれます。つまり、このデータを理解するための時間を取らないと、AI と ML の取り組みが制御不能になってしまう可能性が非常に高くなります。

唯一不変なのは変化だ

現在、デジタル サービスの最も重要なアプリケーションはネットワーク セキュリティと不正検出に集中しており、この市場の総価値は 300 億米ドルを超えています。 2030年頃までに市場総額は1,000億米ドルを超えると予想されています。 Amazon Fraud Detector や PayPal Fraud Management Filters などのツールはオンライン詐欺との戦いで役割を果たしてきましたが、詐欺検出において唯一不変なのは変化そのものです。企業は常に新たな詐欺に備える必要があり、一方で詐欺師たちも攻撃能力を確保するために「革新」に努めています。

新しいタイプの詐欺には、前例のないデータ パターンが含まれていることがよくあります。たとえば、新しいユーザーは、AI システムがこれまで見たことのない郵便番号を使用して登録し、取引を行うことがよくあります。新規ユーザーは世界中から来るかもしれないが、登録場所が本当に珍しい場合は、注意したほうが良いだろう。

この種の計算で最も難しいのは、AI モデルが不正な取引と正常な取引を正確に区別できるようにすることです。データ サイエンティストとして、まず基礎となるアルゴリズムをガイドして、通常のトランザクションと不正なトランザクションの特性を予備的に理解させ、その後、ゆっくりとより多くの不正検出方法を探索させる必要があります。その後の学習は、統計的手法で検索された大量のデータと切り離せません。ユーザーは顧客グループのプロファイルを作成し、常連客と詐欺師の違いを判断し、登録情報、取引内容、顧客の年齢、収入レベル、名前など、顧客を正確に分類するのに役立つ情報を抽出できます。通常の取引を不正取引としてマークすると、不正取引自体よりも顧客体験や製品の評判に大きな損害を与えることが多いことに注意することが重要です。

さらに「興味深い」のは、EDA は製品ライフサイクル全体を通じて繰り返す必要があるプロセスであるということです。新たな詐欺行為は必然的に新たなデータ パターンに対応することになります。最終的に、企業は AI および ML パイプラインを機能させ続けるために、最適な不正検出機能を維持するために EDA に多大な時間と労力を投資する必要があります。

つまり、AI と ML の成功は、多数のアルゴリズムを盲目的に積み重ねることではなく、データに対する深い理解から生まれます。

AI および ML パイプラインは、データがユーザーの既存のパイプラインに適応することを期待するのではなく、データに適応する必要があります。これらの条件が満たされて初めて、AI と ML を活用した新しいビジネスが急速に発展し、前進することが期待できます。

<<:  IBM Cloud Paks コミュニティ リリース: スキルの共有、クラウドなし、知恵なし

>>:  Google が新しいセマンティック セグメンテーション データセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

ブログ    
ブログ    

推薦する

...

765,000台の車両が関与!テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

[[418112]]テスラは月曜日に駐車中の緊急車両との一連の衝突事故が発生した後、オートパイロット...

企業がAIをビジネスに統合する際の課題を克服する方法

調査データによると、AI 対応テクノロジーを導入して活用する準備が完全に整っている企業は世界中でわず...

...

機械学習でデータベースを自動調整

この記事は、カーネギーメロン大学の Dana Van Aken、Andy Pavlo、Geoff G...

顔認識:攻撃の種類となりすまし防止技術

コンピュータサイエンスとエレクトロニクスの急速な発展により、顔認証は現在、指紋に次いで世界第2位の市...

...

AI技術の現状を理解するのに役立つ45の数字

2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...

コンピュータビジョンを学ぶための81ページのガイド

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

5分でPythonのランダムヒルクライミングアルゴリズムをマスターする

ランダム化ヒルクライミングは最適化アルゴリズムです。検索プロセスの一部としてランダム性を使用します。...

「ロボット排除の3原則」を破る方法

2013年に私は2つの文章を書きました。1つは「デジタル化できるものはすべてデジタル化される」という...

製造業における人工知能の応用

資産集約型組織の中には、運用効率の向上、主要業績評価指標 (KPI) の改善、生産およびサポート プ...

ロボットに仕事を奪われるのではないかと心配ですか?教師、弁護士、物理学者は「最も安全な職業」に含まれる

北京時間4月16日、外国メディアの報道によると、ロボットが人間の仕事を代替するというのはSF映画のス...

ディープラーニング:先入観、限界、そして未来

[[196544]]最近、カリフォルニア大学サンタクルーズ校 (UCSC) の Stewart 研究...

顔認識システムはすごいですね!チケット転売業者が体調を崩して入院、警戒を呼び起こす

最近、北京同仁病院の警報システムが作動し、職員は北京天壇病院で活動していたチケット転売業者が北京同仁...