データガバナンスは AI 疲労の問題を解決できるか?

データガバナンスと AI 疲労は 2 つの異なる概念のように聞こえるかもしれませんが、この 2 つは本質的に関連しています。よりよく理解するために、まずはその定義から始めましょう。

データガバナンス

これは長い間、データ業界の中心的な焦点となってきました。

Google は次のようにうまく表現しています。「データガバナンスとは、データが安全で、プライベートで、正確で、利用可能で、使用可能であることを保証するために行うすべてのことです。これには、データの収集、保存、処理、廃棄方法に関する社内標準、つまりデータポリシーの策定が含まれます。」

この定義が強調しているように、データガバナンスとは、データ、具体的には AI モデルを駆動するエンジンを管理することです。

データガバナンスと AI のつながりの最初の兆候が現れ始めたので、これを AI 疲労と結び付けてみましょう。名前からそれが分かりますが、この疲労につながる原因を強調することで、投稿全体でこの用語を一貫して使用できるようになります。

AI疲労

AI 疲労は、企業、開発者、またはチームが直面するフラストレーションや課題によって発生し、価値の実現や AI システムの実装の失敗につながることがよくあります。

それは主に、AI の能力に対する非現実的な期待から始まります。 AI のような複雑なテクノロジーの場合、主要な関係者は AI の機能と可能性だけでなく、その限界とリスクについても理解する必要があります。

リスクに関しては、倫理は後回しにされることが多く、規制を満たさない AI イニシアチブは放棄されることになります。

皆さんは、データガバナンスが AI 疲労を引き起こす役割について疑問に思っているに違いありません。それがこの記事の前提です。

次はここへ行きます。

AI疲労は、導入前と導入後に大まかに分けられます。まずは展開前の作業に焦点を当てましょう。

展開前

PoC を展開にアップグレードするには、次のような多くの要素が関係します。

私たちはどんな問題を解決しようとしているのでしょうか?
なぜ今、優先順位付けが緊急の課題となっているのでしょうか?
どのようなデータが利用可能ですか?
まず ML です — 解決可能でしょうか?
データにパターンはありますか?
この現象は繰り返されるのでしょうか？
どのような追加データがあればモデルのパフォーマンスが向上するでしょうか?

問題が ML アルゴリズムを使用して最も効果的に解決できると評価されると、データサイエンスチームは探索的データ分析を実行します。この段階では、多くの基礎データパターンが明らかになり、特定のデータに豊富なシグナルが含まれているかどうかが強調されます。また、アルゴリズムの学習プロセスを高速化するために設計された機能を作成するのにも役立ちます。

次に、チームは最初のベースラインモデルを構築しますが、通常はそのモデルが許容できるレベルに達していないことがわかります。コインを投げた結果と同等の結果しか出ないモデルは、何の価値も追加しません。これは、ML モデルを構築するときに最初に直面するフラストレーションと教訓の 1 つです。

企業は、あるビジネス上の問題から別の問題へと移行し、疲労につながる可能性があります。それでも、基礎となるデータが豊富なシグナルを運んでいなければ、AI アルゴリズムはそれを基に構築することはできません。モデルは、トレーニングデータから統計的な関連性を学習して、未知のデータに一般化する必要があります。

導入後

トレーニングされたモデルが、70% の精度などの適格なビジネス基準に基づいて検証セットで有望な結果を示したとしても、モデルが運用環境で適切に機能しない場合は、モデル疲労が発生する可能性があります。

このタイプの AI 疲労は、導入後フェーズとして知られています。

パフォーマンスが低下する理由は無数にありますが、データ品質の低さがモデルを悩ませる最も一般的な問題であり、主要な属性がない場合にターゲットの応答を正確に予測する能力が制限されます。

トレーニングデータでは 10% しか欠落していなかった重要な特徴の 1 つが、実稼働データでは 50% の確率で null になり、予測が不正確になるというケースを考えてみましょう。このような反復作業と、モデルが一貫して機能するようにするための作業は、データサイエンティストとビジネスチームを疲弊させ、データパイプラインの信頼性を損ない、プロジェクトへの投資を危険にさらします。

データガバナンスが鍵

両方のタイプの AI 疲労に対処するには、堅牢なデータガバナンス対策が不可欠です。データは ML モデルの中心であるため、シグナルが豊富でエラーのない高品質のデータが ML プロジェクトの成功に不可欠です。 AI疲労に対処するには、データガバナンスに重点を置く必要があります。したがって、最先端のモデルを構築し、信頼できるビジネス分析情報を提供するための基盤を築くために、適切なデータ品質を確保するために厳格に取り組む必要があります。

データ品質

データ品質は、データガバナンスを成功させるための鍵であり、機械学習アルゴリズムの成功に不可欠な要素です。企業は、データ消費者へのレポートの公開など、データ品質に投資する必要があります。データサイエンスプロジェクトでは、低品質のデータがモデルに入力され、パフォーマンスが低下する可能性がある場合に何が起こるかを考えます。

チームはバグ分析中にのみデータ品質の問題を特定できるため、これらの問題が上流に送信されて修正されると、最終的にはチーム間の疲労につながります。

当然ながら、この労力がかかるだけでなく、正しいデータが入ってくるまでにかなりの時間が失われます。

したがって、このような時間のかかる反復を防ぐために、ソースでデータの問題を修正することを常に推奨します。最終的に、公開されたデータ品質レポートは、データサイエンスチーム (またはその他の下流のユーザーやデータコンシューマー) が受信データの許容可能な品質を理解していることを意味します。

データ品質とガバナンス対策が整備されていないと、データサイエンティストはデータの問題に圧倒され、AI 疲労を引き起こす失敗したモデルを作成することになります。