データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを深刻に損ないます。この問題は、小規模なスタートアップ企業から Google のようなテクノロジー大手企業まで、あらゆる規模の企業に影響を及ぼしています。しかし、なぜデータの品質は常に信頼できないのでしょうか? 人的要因が鍵となる可能性があります。 今日、企業はかつてないほど多くのデータを保有していますが、そのデータを実際の価値に変えることは依然として困難です。 AI と ML によってもたらされる自動化機能は、現実世界のデータを使用して複雑な問題を解決する効果的な手段として広く認識されており、多くの企業がビジネスを強化するためにそれらを使用することに熱心です。しかし、この流行自体が、上流データ分析プロジェクトを大量に急いで立ち上げる原因にもなりました。
自動化されたパイプラインが構築されると、その中のアルゴリズムがすでにほとんどの作業を実行できるため、データ収集プロセスを更新する必要はほとんどありません。ただし、パイプラインが構築されたからといって、それが永久に稼働し続けるというわけではないことに注意してください。どのドリフト パターンがパイプラインのパフォーマンスを低下させているかに注意しながら、時間の経過とともに基礎となるデータを継続的に調査および分析する必要があります。 幸いなことに、データ チームにはこの浸食のリスクを軽減する能力がありますが、そのコストは必要な時間と労力です。自動化されたパイプラインの実行効率を維持するためには、探索的データ分析 (EDA) を定期的に実行して、システム全体が常に正確に実行されるようにする必要があります。 探索的データ分析とは何ですか?EDA は、AI と ML を正常に実装するための最初のステップです。アルゴリズム自体を分析する前に、まずデータの内容を理解する必要があります。最終的には、データの品質によって下流の分析パイプラインの実際の有効性が決まります。 EDA を正しく使用すると、ユーザーはデータ内の不要なパターンやノイズを識別でき、企業は適切なアルゴリズムをより正確に選択できるようになります。 EDA フェーズでは、動作パターンが期待どおりであることを確認するために、データを積極的にクエリする必要があります。まず、徹底的な分析が必要な次の 10 の重要な質問から始めましょう。 1. データポイントは十分ありますか? 2. データ センターと個別の測定値は期待どおりですか? 3. 実際の分析に使用できる良質なデータ ポイントはいくつありますか? 4. 欠損値はありますか?これらの不良値はデータの重要な部分を構成していますか? 5. データの経験的分布はどのようなものですか? データは正規分布に従っていますか? 6. 値に特別なクラスターまたはグループはありますか? 7. 外れ値はありますか? これらの外れ値はどのように処理する必要がありますか? 8. 異なる次元の間に相関関係はありますか? 9. 下流の分析や解釈のために、データを再フォーマットするなどして変換する必要がありますか? 10. データが高次元の場合、あまり多くの情報を失うことなくデータを削減できますか? 一部の次元はノイズですか? これらの問題はさらなる問題を引き起こすでしょう。これは完全な質問リストではありませんが、考えるための出発点にすぎません。最終的には、誰もが既存のデータ パターンをより深く理解し、データを正しく処理して、最も適切な処理アルゴリズムを選択できるようになることを願っています。 基礎となるデータは絶えず変化しているため、アルゴリズムが受け取る入力機能が常に安定した状態を保つためには、EDA にさらに多くの時間を導入する必要があります。たとえば、Airbnb は、データ サイエンティストがモデル開発サイクルの時間の約 70% をデータ収集と特徴量エンジニアリングに費やしていることを発見しました。これには、データ構造とパターンを決定するための大量の分析作業が含まれます。つまり、このデータを理解するための時間を取らないと、AI と ML の取り組みが制御不能になってしまう可能性が非常に高くなります。 唯一不変なのは変化だ現在、デジタル サービスの最も重要なアプリケーションはネットワーク セキュリティと不正検出に集中しており、この市場の総価値は 300 億米ドルを超えています。 2030年頃までに市場総額は1,000億米ドルを超えると予想されています。 Amazon Fraud Detector や PayPal Fraud Management Filters などのツールはオンライン詐欺との戦いで役割を果たしてきましたが、詐欺検出において唯一不変なのは変化そのものです。企業は常に新たな詐欺に備える必要があり、一方で詐欺師たちも攻撃能力を確保するために「革新」に努めています。 新しいタイプの詐欺には、前例のないデータ パターンが含まれていることがよくあります。たとえば、新しいユーザーは、AI システムがこれまで見たことのない郵便番号を使用して登録し、取引を行うことがよくあります。新規ユーザーは世界中から来るかもしれないが、登録場所が本当に珍しい場合は、注意したほうが良いだろう。 この種の計算で最も難しいのは、AI モデルが不正な取引と正常な取引を正確に区別できるようにすることです。データ サイエンティストとして、まず基礎となるアルゴリズムをガイドして、通常のトランザクションと不正なトランザクションの特性を予備的に理解させ、その後、ゆっくりとより多くの不正検出方法を探索させる必要があります。その後の学習は、統計的手法で検索された大量のデータと切り離せません。ユーザーは顧客グループのプロファイルを作成し、常連客と詐欺師の違いを判断し、登録情報、取引内容、顧客の年齢、収入レベル、名前など、顧客を正確に分類するのに役立つ情報を抽出できます。通常の取引を不正取引としてマークすると、不正取引自体よりも顧客体験や製品の評判に大きな損害を与えることが多いことに注意することが重要です。 さらに「興味深い」のは、EDA は製品ライフサイクル全体を通じて繰り返す必要があるプロセスであるということです。新たな詐欺行為は必然的に新たなデータ パターンに対応することになります。最終的に、企業は AI および ML パイプラインを機能させ続けるために、最適な不正検出機能を維持するために EDA に多大な時間と労力を投資する必要があります。 つまり、AI と ML の成功は、多数のアルゴリズムを盲目的に積み重ねることではなく、データに対する深い理解から生まれます。 AI および ML パイプラインは、データがユーザーの既存のパイプラインに適応することを期待するのではなく、データに適応する必要があります。これらの条件が満たされて初めて、AI と ML を活用した新しいビジネスが急速に発展し、前進することが期待できます。 |
<<: IBM Cloud Paks コミュニティ リリース: スキルの共有、クラウドなし、知恵なし
>>: Google が新しいセマンティック セグメンテーション データセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました
テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...
ARMベースのハードウェア実装3DESアルゴリズムと一般的な組み込みアプリケーションの要件に応じて...
「我々の実験は制御不能になった!これは我々の世界の終わりだ!」 - デイ・アフター・トゥモローSF映...
人体神経放射線分野の目標は、2D 人体画像から高品質の 3D デジタル人間を復元して駆動し、それによ...
現在のテクノロジーのホットスポットとして、近年、多くの国内主流テクノロジー企業が人工知能、ナレッジグ...
最近、バックエンドで数年間働いてきたプログラマーが、かなり混乱を招く質問をオンラインで提起しました。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[187072]]人間同士の交流はどうなったのでしょうか? 最新のテクノロジーの流行を真剣に受け...
自然言語処理タスクで目覚ましい成功を収めた大規模言語モデル (LLM) は、優れたパフォーマンスを示...
「21世紀で最も成功した手術」として知られる人工股関節全置換術(THA)では、まもなく最新のAI技...
マッキンゼーの「2022年世界産業用ロボット調査」によると、産業企業は世界的な労働力不足に対処するた...
[[405033]] k 近傍法の考え方は、私の意見では最も純粋で明確な考え方であり、k 近傍法アル...
この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載したもので、著者はsis...
自動車業界は、安全性、持続可能性、接続性、全体的なユーザーエクスペリエンスを向上させるソフトウェアの...
新型コロナウイルス感染症のパンデミックにより、社会の多くの分野でデジタル変革が加速し、人工知能ツール...