データガバナンスこれは長い間、データ業界の中心的な焦点となってきました。 Google は次のようにうまく表現しています。「データ ガバナンスとは、データが安全で、プライベートで、正確で、利用可能で、使用可能であることを保証するために行うすべてのことです。これには、データの収集、保存、処理、廃棄方法に関する社内標準、つまりデータ ポリシーの策定が含まれます。」 この定義が強調しているように、データ ガバナンスとは、データ、具体的には AI モデルを駆動するエンジンを管理することです。 データ ガバナンスと AI のつながりの最初の兆候が現れ始めたので、これを AI 疲労と結び付けてみましょう。名前からそれが分かりますが、この疲労につながる原因を強調することで、投稿全体でこの用語を一貫して使用できるようになります。 AI疲労AI 疲労は、企業、開発者、またはチームが直面するフラストレーションや課題によって発生し、価値の実現や AI システムの実装の失敗につながることがよくあります。 それは主に、AI の能力に対する非現実的な期待から始まります。 AI のような複雑なテクノロジーの場合、主要な関係者は AI の機能と可能性だけでなく、その限界とリスクについても理解する必要があります。 リスクに関しては、倫理は後回しにされることが多く、規制を満たさない AI イニシアチブは放棄されることになります。 皆さんは、データ ガバナンスが AI 疲労を引き起こす役割について疑問に思っているに違いありません。それがこの記事の前提です。 次はここへ行きます。 AI疲労は、導入前と導入後に大まかに分けられます。まずは展開前の作業に焦点を当てましょう。 展開前PoC を展開にアップグレードするには、次のような多くの要素が関係します。
問題が ML アルゴリズムを使用して最も効果的に解決できると評価されると、データ サイエンス チームは探索的データ分析を実行します。この段階では、多くの基礎データ パターンが明らかになり、特定のデータに豊富なシグナルが含まれているかどうかが強調されます。また、アルゴリズムの学習プロセスを高速化するために設計された機能を作成するのにも役立ちます。 次に、チームは最初のベースライン モデルを構築しますが、通常はそのモデルが許容できるレベルに達していないことがわかります。コインを投げた結果と同等の結果しか出ないモデルは、何の価値も追加しません。これは、ML モデルを構築するときに最初に直面するフラストレーションと教訓の 1 つです。 企業は、あるビジネス上の問題から別の問題へと移行し、疲労につながる可能性があります。それでも、基礎となるデータが豊富なシグナルを運んでいなければ、AI アルゴリズムはそれを基に構築することはできません。モデルは、トレーニング データから統計的な関連性を学習して、未知のデータに一般化する必要があります。 導入後トレーニングされたモデルが、70% の精度などの適格なビジネス基準に基づいて検証セットで有望な結果を示したとしても、モデルが運用環境で適切に機能しない場合は、モデル疲労が発生する可能性があります。 このタイプの AI 疲労は、導入後フェーズとして知られています。 パフォーマンスが低下する理由は無数にありますが、データ品質の低さがモデルを悩ませる最も一般的な問題であり、主要な属性がない場合にターゲットの応答を正確に予測する能力が制限されます。 トレーニング データでは 10% しか欠落していなかった重要な特徴の 1 つが、実稼働データでは 50% の確率で null になり、予測が不正確になるというケースを考えてみましょう。このような反復作業と、モデルが一貫して機能するようにするための作業は、データ サイエンティストとビジネス チームを疲弊させ、データ パイプラインの信頼性を損ない、プロジェクトへの投資を危険にさらします。 データガバナンスが鍵両方のタイプの AI 疲労に対処するには、堅牢なデータ ガバナンス対策が不可欠です。データは ML モデルの中心であるため、シグナルが豊富でエラーのない高品質のデータが ML プロジェクトの成功に不可欠です。 AI疲労に対処するには、データガバナンスに重点を置く必要があります。したがって、最先端のモデルを構築し、信頼できるビジネス分析情報を提供するための基盤を築くために、適切なデータ品質を確保するために厳格に取り組む必要があります。 データ品質データ品質は、データ ガバナンスを成功させるための鍵であり、機械学習アルゴリズムの成功に不可欠な要素です。企業は、データ消費者へのレポートの公開など、データ品質に投資する必要があります。データ サイエンス プロジェクトでは、低品質のデータがモデルに入力され、パフォーマンスが低下する可能性がある場合に何が起こるかを考えます。 チームはバグ分析中にのみデータ品質の問題を特定できるため、これらの問題が上流に送信されて修正されると、最終的にはチーム間の疲労につながります。 当然ながら、この労力がかかるだけでなく、正しいデータが入ってくるまでにかなりの時間が失われます。 したがって、このような時間のかかる反復を防ぐために、ソースでデータの問題を修正することを常に推奨します。最終的に、公開されたデータ品質レポートは、データ サイエンス チーム (またはその他の下流のユーザーやデータ コンシューマー) が受信データの許容可能な品質を理解していることを意味します。 データ品質とガバナンス対策が整備されていないと、データ サイエンティストはデータの問題に圧倒され、AI 疲労を引き起こす失敗したモデルを作成することになります。 結論この投稿では、AI 疲労が始まる 2 つの段階に焦点を当て、データ品質レポートなどのデータ ガバナンス対策が、信頼性が高く堅牢なモデルの構築をどのように促進できるかについて説明します。 データ ガバナンスを通じて強固な基盤を確立することで、企業は AI の開発と導入を成功に導くシームレスなロードマップを構築し、熱意を喚起することができます。 この投稿では、AI 疲労と戦うためのさまざまなアプローチの包括的な概要を提供するため、組織文化の役割についても強調しました。組織文化は、データ ガバナンスなどの他のベスト プラクティスと組み合わせることで、データ サイエンス チームがより迅速かつ効率的に有意義な AI 貢献を構築できるようになります。 |
<<: ファイアウォールは再び進化します。よりスマートで安全になりましたか?
>>: AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている
イーロン・マスク氏は、テスラが2020年末までに完全自動運転車を開発すると繰り返し強調している。 「...
[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...
今日、現代科学技術の出現と発展、そしてさまざまなインテリジェント技術の登場により、人類の宇宙旅行はよ...
1. はじめに周知のとおり、ディープラーニングはコンピュータービジョン、自然言語処理、人工知能などの...
中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...
何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...
Stable Diffusionなどの大規模なAIモデルを携帯電話などのモバイルデバイスで実行するこ...
最近、人工知能の開発はますます激しくなってきています。ますます多くの新製品が私たちの生活に入ってきて...
[51CTO.com クイック翻訳] ディープラーニングは確かに多くの印象的な成功事例をもたらしま...
AI と自動化が進歩するにつれて、企業は人間的なタッチを維持しながらこれらのツールを最も効果的に活用...
2019 年のベスト オープンソース プロジェクトを選択するために、Medium のネットユーザーが...
[51CTO.comよりオリジナル記事] 近年、機械学習、ディープラーニング、ビッグデータ分析が話題...
科学技術の継続的な発展に伴い、人工知能、5Gネットワーク、生体認証、ロボットなどのインテリジェン...