悪いデータは良いAIを殺すことが判明

[[421984]]

データサイエンティストは、データの準備があらゆる AI システムの成功に非常に重要であると指摘しています。たとえ最良かつ最も洗練された分析手法であっても、低品質、不十分に統合、不十分に設計、またはほとんど関連性のないデータを使用すると、最終的には信頼できない結果が得られます。

人工知能や機械学習の用途を分析し議論する記事は数多くありますが、人工知能システムの基礎である高品質データに関する記事は少ないです。ここでは、データ品質の問題によって AI システムが妨げられないようにするための 5 つのルールを紹介します。

ルール1. 少ないほど良い

自社のビジネスにとってどのデータが重要かを把握するのが難しい企業もありますが、できるだけ多くのデータを使って AI システムを構築することで、そこに隠された重要な洞察を見つけることができます。しかし、大量の無関係なデータや質の低いデータを AI システムに入力する企業は、最終的には失敗するでしょう。「機械学習システムにおける隠れた技術的負債」と題された記事では、十分に活用されていないデータ、つまり増分的なメリットがほとんどまたはまったくないデータは、人工知能システムに悪影響を及ぼし、時には壊滅的な結果をもたらすと指摘しています。無関係なデータを削除すると、AI システムのテスト、実行、拡張、保守が容易になります。

企業が直面する疑問は、すべてのシグナル、またはほぼすべてのシグナルを含む無駄のないデータセットはどのデータサブセットかということです。これを判断するのは簡単ではないかもしれません。特定のデータ機能の重要性を判断できるデータサイエンス手法はありますが、必ずしも全体像がわかるわけではありません。一部のデータは非常に重要かもしれませんが、特定の状況でのみ役立ちます。あるいは、一部のデータは他のデータと組み合わせて使用した場合にのみ重要になる場合があります。どのデータを使用し、どのデータを削除するかを判断することは、企業が AI の実装を急ぐ中で見落とされがちな、難しいが重要なステップです。

ルール2. データソースを注意深く探す

AI ソリューションのプロトタイプを作成したり、実験を作成したりする場合、データはさまざまなソースから取得されることがよくあります。データの統合と準備はアドホックに行われる可能性があり、AI システムの準備が整うと、企業は目的に合ったすべての自動化と制御を活用して、特定のプロセスの産業的強みを実現できます。

場合によっては、AI 開発者はより簡単で便利なソースからデータを取得しますが、必ずしも最良のソースからデータを取得するとは限りません。たとえば、あるケースでは、調整も処理もされていないデータからモデルが開発され、その結果、そのモデルは公開された財務データと完全に矛盾していることが判明しました。概念実証の場合、このようなエラーは許容される可能性があります。ただし、実装する前に、強力な制御、信頼性、高可用性を提供する、十分にサポートされたプラットフォームからデータを取得する必要があります。

多くの場合、AI を活用するためには、さまざまなソースからのデータをまとめて統合し、組み合わせる必要があります。さまざまなシステムからの顧客データ、製品データ、取引データを組み合わせることを検討してください。このデータをモデル化のためにまとめることは重要なステップです。これにより、迅速な実験が可能になりますが、実装前にプロセスを適切に設計してテストする必要があります。

しかし、実験的な AI システムが適切に設計される前に使用を許可したいという誘惑は強く、それに抵抗する必要があります。もちろん、定期的にのみ使用される AI (たとえば、月次レポート用) の場合、業務運営で継続的に使用するために必要なデータは少なくなる場合があります。 AI の高リスクな使用 (損失予測、信用承認、不正検出など) には、低リスクな使用 (マーケティングキャンペーン、顧客セグメンテーション、リード優先順位付けなど) よりも厳しい要件が適用されます。

ルール3. データの品質を判断する

ビジネス環境では、完璧なデータは稀です。したがって、パッチを当てる必要のあるデータ上の穴、クリーンアップする必要のあるデータ上のエラー、または使用前に解決する必要のある不整合が必然的に発生します。

データの 100% の精度を達成するにはコストがかかり、場合によっては不可能になることもあります。ただし、完全な精度が求められる場合もあります。たとえば、人工知能を使用して融資損失を予測する場合、融資損失を記録した履歴データは 100% 完全である必要があります。しかし、不正検出モデルの場合、2% のデータが追加されるとモデルの実装が妨げられるため、98% の精度を達成すれば十分であり、企業は不正による損失を大幅に軽減できます。マーケティング目的であれば、85% の精度で十分です。

企業は自社のデータ品質がどの程度優れているかを判断する必要があります。しかし、これは諸刃の剣であることを忘れないでください。低品質のデータに基づいて構築された AI システムは、最終的には使用時に信頼性が低くなりますが、データ品質の問題が AI の価値に影響を与えるという懸念から、モデルリスク管理が AI モデルの実装を妨げることも見られました。

ユースケースはそれぞれ異なり、データが良好であると判断するプロセスには、データ品質のレベルを明示的に宣言するいくつかの手順が必要です。また、しきい値が満たされたことを示すため、または最低限の品質基準を下回った場合に警告を発行するために、データ品質指標などの制御を実装する必要があります。

ルール4. 変化を管理する

他の理由よりも、データ変更管理が不十分なためにモデルが失敗するケースが多くあります。データに予期しない変更があったり、どこかでデータが途切れたりすると、AI は信頼できない結果、時には非常に悪い結果を生成することがあります。

ほとんどの組織では、データ変更管理プロセスが導入されています。このプロセスは、データ変更の影響を伝え、分析するために設計されています。しかし、人工知能システムの使用により、これはさらに困難になります。 AI とデータ管理は密接に絡み合っており、データは AI に影響を与え、AI はデータに影響を与える可能性があります。多くの場合、データ変更管理は企業の最高データ責任者、AI 変更管理は最高分析責任者、モデルリスク管理は最高リスク責任者の責任であり、これらの部門は適切または効果的にコミュニケーションをとっていません。

データ変更管理とモデル変更管理は密接にリンクされている必要があります。データの変更が AI に及ぼす潜在的な影響を分析する必要があり、また AI の変更がデータ出力の消費者に及ぼす潜在的な影響を分析する必要があります。どちらも単独では管理できません。

この問題に対処するには、さらに 2 つの方法があります。1 つのオプションは、データ変更管理とモデル変更管理を統合することですが、これはほとんどの企業にとって困難です。 2 番目のオプションは、実装前にデータの変更が AI に及ぼす潜在的な影響を分析するなど、適切なポリシーと手順を導入することです。

これを実現するには、AI が使用するデータに関する情報 (モデルメタデータ) を含む完全な AI レジストリが必要です。そうしないと、データの変更によってどの AI が影響を受けたかを判断することはほぼ不可能になります。同様に、モデルリスクも考慮する必要があり、リスクの高いモデルは、リスクの低いモデルにのみ影響するデータ変更よりも、潜在的な影響についてより厳密な分析を受けることになります。

ルール5. 警報システムを確立する

データの品質の問題は明らかではない可能性があり、データフローは表面上は正常に機能しているように見える場合もあります。適切に設計されたアラートシステムがなければ、データの問題が気付かれない可能性があります。たとえば、ある銀行の信用モデルは数週間にわたって実行されましたが、誰かが何か問題があることに気づく前に重要なデータが失われました。

データにわずかでも予期しない変更があると、モデルのパフォーマンスが低下する可能性があります。さらに悪いのは、プロセス障害による突然のデータ損失であり、これはよくあることです。

気付かれないデータの問題は、すぐに発見される問題よりも大きな損害を引き起こす可能性があります。たとえば、証券の価格設定の誤りは複数のシステムに広がり、それが長く続くほど修正が困難になり、コストもかかるようになります。適切なアラートシステムを導入することで、データの問題を検出して対処することができ、データ処理の中断による AI システム障害のリスクを軽減できます。

これには適切なツールが必要です。既存のアプリケーション監視システムは、データフローを監視するには不十分な場合がよくあります。実際には会社のデータに重大な脆弱性や重大な異常があるにもかかわらず、すべてが正常であると示して誤った安心感を与える可能性もあります。企業は、完全性チェック (すべてのデータを取得しましたか?) や一貫性チェック (総勘定元帳や基礎となるローンや預金システムなどの記録システムと一致していますか?) などの単純なデータ品質メトリックから始めることができます。

問題が発生した場合、企業はエラーを調査して修正する間、AI を一時的にオフラインにするなどのフェイルオーバープランを用意しておく必要があります。

結論

データは優れた人工知能システムにとって重要な基盤です。通常、データサイエンティストは上記のタスクすべてを単独で実行するわけではありません。データガバナンス、データエンジニアリング、IT チームからの適切なサポートが必要です。適切な制御を導入することで、企業は予期しない、または検出されないデータの問題による AI システムの重大なエラーを回避できます。

<<: 世界を変えるために活動する5つのAIスタートアップ

>>: AI チップ: なぜそれほど重要なのか?