データ ガバナンスは AI 疲労の問題を解決できるか?

データ ガバナンスは AI 疲労の問題を解決できるか?

データ ガバナンスと AI 疲労は 2 つの異なる概念のように聞こえるかもしれませんが、この 2 つは本質的に関連しています。よりよく理解するために、まずはその定義から始めましょう。

データガバナンス

これは長い間、データ業界の中心的な焦点となってきました。

Google は次のようにうまく表現しています。「データ ガバナンスとは、データが安全で、プライベートで、正確で、利用可能で、使用可能であることを保証するために行うすべてのことです。これには、データの収集、保存、処理、廃棄方法に関する社内標準、つまりデータ ポリシーの策定が含まれます。」

この定義が強調しているように、データ ガバナンスとは、データ、具体的には AI モデルを駆動するエンジンを管理することです。

データ ガバナンスと AI のつながりの最初の兆候が現れ始めたので、これを AI 疲労と結び付けてみましょう。名前からそれが分かりますが、この疲労につながる原因を強調することで、投稿全体でこの用語を一貫して使用できるようになります。

AI疲労

AI 疲労は、企業、開発者、またはチームが直面するフラストレーションや課題によって発生し、価値の実現や AI システムの実装の失敗につながることがよくあります。

それは主に、AI の能力に対する非現実的な期待から始まります。 AI のような複雑なテクノロジーの場合、主要な関係者は AI の機能と可能性だけでなく、その限界とリスクについても理解する必要があります。

リスクに関しては、倫理は後回しにされることが多く、規制を満たさない AI イニシアチブは放棄されることになります。

皆さんは、データ ガバナンスが AI 疲労を引き起こす役割について疑問に思っているに違いありません。それがこの記事の前提です。

次はここへ行きます。

AI疲労は、導入前と導入後に大まかに分けられます。まずは展開前の作業に焦点を当てましょう。

展開前

PoC を展開にアップグレードするには、次のような多くの要素が関係します。

  • 私たちはどんな問題を解決しようとしているのでしょうか?
  • なぜ今、優先順位付けが緊急の課題となっているのでしょうか?
  • どのようなデータが利用可能ですか?
  • まず ML です — 解決可能でしょうか?
  • データにパターンはありますか?
  • この現象は繰り返されるのでしょうか?
  • どのような追加データがあればモデルのパフォーマンスが向上するでしょうか?

問題が ML アルゴリズムを使用して最も効果的に解決できると評価されると、データ サイエンス チームは探索的データ分析を実行します。この段階では、多くの基礎データ パターンが明らかになり、特定のデータに豊富なシグナルが含まれているかどうかが強調されます。また、アルゴリズムの学習プロセスを高速化するために設計された機能を作成するのにも役立ちます。

次に、チームは最初のベースライン モデルを構築しますが、通常はそのモデルが許容できるレベルに達していないことがわかります。コインを投げた結果と同等の結果しか出ないモデルは、何の価値も追加しません。これは、ML モデルを構築するときに最初に直面するフラストレーションと教訓の 1 つです。

企業は、あるビジネス上の問題から別の問題へと移行し、疲労につながる可能性があります。それでも、基礎となるデータが豊富なシグナルを運んでいなければ、AI アルゴリズムはそれを基に構築することはできません。モデルは、トレーニング データから統計的な関連性を学習して、未知のデータに一般化する必要があります。

導入後

トレーニングされたモデルが、70% の精度などの適格なビジネス基準に基づいて検証セットで有望な結果を示したとしても、モデルが運用環境で適切に機能しない場合は、モデル疲労が発生する可能性があります。

このタイプの AI 疲労は、導入後フェーズとして知られています。

パフォーマンスが低下する理由は無数にありますが、データ品質の低さがモデルを悩ませる最も一般的な問題であり、主要な属性がない場合にターゲットの応答を正確に予測する能力が制限されます。

トレーニング データでは 10% しか欠落していなかった重要な特徴の 1 つが、実稼働データでは 50% の確率で null になり、予測が不正確になるというケースを考えてみましょう。このような反復作業と、モデルが一貫して機能するようにするための作業は、データ サイエンティストとビジネス チームを疲弊させ、データ パイプラインの信頼性を損ない、プロジェクトへの投資を危険にさらします。

データガバナンスが鍵

両方のタイプの AI 疲労に対処するには、堅牢なデータ ガバナンス対策が不可欠です。データは ML モデルの中心であるため、シグナルが豊富でエラーのない高品質のデータが ML プロジェクトの成功に不可欠です。 AI疲労に対処するには、データガバナンスに重点を置く必要があります。したがって、最先端のモデルを構築し、信頼できるビジネス分析情報を提供するための基盤を築くために、適切なデータ品質を確保するために厳格に取り組む必要があります。

データ品質

データ品質は、データ ガバナンスを成功させるための鍵であり、機械学習アルゴリズムの成功に不可欠な要素です。企業は、データ消費者へのレポートの公開など、データ品質に投資する必要があります。データ サイエンス プロジェクトでは、低品質のデータがモデルに入力され、パフォーマンスが低下する可能性がある場合に何が起こるかを考えます。

チームはバグ分析中にのみデータ品質の問題を特定できるため、これらの問題が上流に送信されて修正されると、最終的にはチーム間の疲労につながります。

当然ながら、この労力がかかるだけでなく、正しいデータが入ってくるまでにかなりの時間が失われます。

したがって、このような時間のかかる反復を防ぐために、ソースでデータの問題を修正することを常に推奨します。最終的に、公開されたデータ品質レポートは、データ サイエンス チーム (またはその他の下流のユーザーやデータ コンシューマー) が受信データの許容可能な品質を理解していることを意味します。

データ品質とガバナンス対策が整備されていないと、データ サイエンティストはデータの問題に圧倒され、AI 疲労を引き起こす失敗したモデルを作成することになります。

結論

この投稿では、AI 疲労が始まる 2 つの段階に焦点を当て、データ品質レポートなどのデータ ガバナンス対策が、信頼性が高く堅牢なモデルの構築をどのように促進できるかについて説明します。

データ ガバナンスを通じて強固な基盤を確立することで、企業は AI の開発と導入を成功に導くシームレスなロードマップを構築し、熱意を喚起することができます。

この投稿では、AI 疲労と戦うためのさまざまなアプローチの包括的な概要を提供するため、組織文化の役割についても強調しました。組織文化は、データ ガバナンスなどの他のベスト プラクティスと組み合わせることで、データ サイエンス チームがより迅速かつ効率的に有意義な AI 貢献を構築できるようになります。

<<:  ファイアウォールは再び進化します。よりスマートで安全になりましたか?

>>:  AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている

ブログ    
ブログ    
ブログ    

推薦する

...

自動運転車が公道を走るのを妨げているものは何でしょうか?

イーロン・マスク氏は、テスラが2020年末までに完全自動運転車を開発すると繰り返し強調している。 「...

全人代副代表の馬化騰氏は8つの書面提案を提出し、ブロックチェーンや人工知能など17の質問に答えた。

[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...

スマートテクノロジーが戦いに加わり、宇宙探査が新たな機会をもたらす

今日、現代科学技術の出現と発展、そしてさまざまなインテリジェント技術の登場により、人類の宇宙旅行はよ...

ディープラーニングを使用してXSSを検出する方法

1. はじめに周知のとおり、ディープラーニングはコンピュータービジョン、自然言語処理、人工知能などの...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...

人工知能、機械学習、認知コンピューティングの入門

何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...

Googleは、携帯電話で0.2秒で画像を生成できる超高速拡散モデルMobileDiffusionを開発、現在最速

Stable Diffusionなどの大規模なAIモデルを携帯電話などのモバイルデバイスで実行するこ...

人工知能の急速な発展により、どのようなビジネス分野に浸透しているのでしょうか?テレマーケティングの将来はどうなるのでしょうか?

最近、人工知能の開発はますます激しくなってきています。ますます多くの新製品が私たちの生活に入ってきて...

現時点では、ディープラーニング以外の実装方法を模索する必要がある。

[51CTO.com クイック翻訳] ディープラーニングは確かに多くの印象的な成功事例をもたらしま...

2024年のデジタル変革のトレンド

AI と自動化が進歩するにつれて、企業は人間的なタッチを維持しながらこれらのツールを最も効果的に活用...

...

2D ガール ジェネレーター、駆動可能なニューラル ネットワーク... 2019 年の優れた機械学習プロジェクト 17 選

2019 年のベスト オープンソース プロジェクトを選択するために、Medium のネットユーザーが...

テラデータCTO バオ・リミン:分析エンジンを使用して機械学習とディープラーニングを実現する

[51CTO.comよりオリジナル記事] 近年、機械学習、ディープラーニング、ビッグデータ分析が話題...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...