GenAIの課題に対応するためにデータガバナンスはどのように進化する必要があるか

GenAIの課題に対応するためにデータガバナンスはどのように進化する必要があるか

最近、データ ガバナンスが気になっていたので、ChatGPT に「データ ガバナンスとは何ですか?」というプロンプトを入力して問い合わせることにしました。AI は「データ ガバナンスとは、組織内でデータが適切に管理、保護、利用されるようにするための一連のプロセス、ポリシー、標準、ガイドラインです」と回答しました。これは素晴らしいスタートですが、この時点では、データ ガバナンスとその意味については、まだ語るべきことがたくさんあります。

GenAI時代のデータガバナンス

データ ガバナンスには、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野が含まれており、その実践には、使用ポリシーの定義、マスター データ ソースの作成、データ セットの分析、辞書の文書化、データ ライフサイクルの監視が含まれます。組織モデルでは通常、戦略を推進する最高データ責任者、データセット戦略を設定するデータ所有者、およびデータ品質の向上を担当するデータスチュワードの役割が定義されます。

「データ ガバナンスはデータ整合性の重要な要素であり、企業が重要なデータを簡単に見つけ、理解し、活用できるようにすることで、正確なレポート作成と情報に基づいた意思決定が可能になります」と、Precision の CTO である Tendü Yogurtçu 博士は述べています。「データ ガバナンスはデータの意味、系統、影響を理解し、企業がコンプライアンスを維持し、信頼できるデータに基づいて AI モデルが確実に機能して、信頼できる結果が得られるようにします。」

データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったとヨーグルトチュ氏は言う。 「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体の優先事項になるべきだ」と彼女は語った。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの企業では、データ ガバナンスの責任が大きくなり、従業員による AI ツールの使用方法によってリスクが増大し、非構造化データが新たな範囲をもたらします。 GenAI のツールと機能に内在する機会とリスクに対処するために、データ ガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI データガバナンスを開発する 4 つの方法

GenAIツールとLLMで使用されるデータ戦略のレビュー

データ ガバナンス部門は、データ カタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータ セットを活用し、機械学習モデル、ダッシュボード、その他の分析ツールを構築できるように支援していますが、現在、ポリシーを更新して、企業のデータ ソースを土地管理システムやオープン GenAI ツールで使用できるかどうか、またその使用方法を含めるようにしています。開発者とデータ サイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートすることに関する懸念事項についてはデータ所有者に相談する必要があります。

「GenAI によってデータの複雑さが増すため、組織は適切なデータ ガバナンスとプライバシー ポリシーを導入し、これらのモデルのトレーニングに使用するコンテンツを管理および保護することが不可欠です」と、Egnyte の共同創設者兼最高セキュリティ責任者である Chris Lahiri 氏は述べています。「組織は、これらの AI ツールによって使用されるデータが OpenAI、Palm、または社内で使用される可能性のある LLM などのサードパーティのデータであるかどうかに特に注意を払う必要があります。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、データ所有者からのリクエストと承認が必要です。 GDPR、CCPA、PCI、HIPAA、またはその他のデータ コンプライアンス標準に準拠する必要があるデータセットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データ戦略では、サードパーティのデータ ソースを使用する場合、データのサプライ チェーンと責任も考慮する必要があります。 「特定の地域で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合は、ベンダーは状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に期待を寄せる人にとって、企業のデータ プライバシー、セキュリティ、コンプライアンス ポリシーを理解して優先順位を意識することが重要です。

データ品質の取り組みを加速

ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間17.7%の成長が見込まれています。多くの企業が AI ツールや LLM を実験しているので、今後はより高い成長が期待できます。

「AI の性能はそれを動かすデータの質に左右されるため、AI を活用する際の課題の多くはデータの品質に関係しています」と、Piwik Pro の COO である Matez Krempa 氏は述べています。「データの品質が悪いと、誤解を招くような、または誤った洞察につながり、結果に重大な影響を与える可能性があります。」

クレンパ氏は、データ品質の課題はビッグデータの量、速度、多様性に起因しており、特にLLMが現在、同社の非構造化データソースを利用しているからだと述べた。社内 LLM の開発を検討している企業は、データ品質の取り組みを拡張して、ドキュメント、コラボレーション ツール、コード リポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報を含める必要があります。

八甲田のデータガバナンス責任者である梅本カレン氏は、次のように述べています。「データガバナンスは、大量のデータをLLMシステムに取り込むだけでなく、それをインテリジェントかつ安全に行うことに移行しています。その際、データが大量であるだけでなく、正確で理解しやすく、プライバシーに配慮し、安全で、知的財産を尊重し、リスクと影響を公平に尊重することに重点を置いています。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

  • 従来のデータ品質ツールは、データの重複排除、データ フィールドの標準化、ビジネス ルールに対するデータの検証、異常の検出、品質メトリックの計算を行うことができます。
  • マスター データ管理ツール (MDM) は、企業が複数のデータ ソースを接続し、顧客や製品などのビジネス エンティティに関する信頼できるソースを作成するのに役立ちます。
  • 顧客データ プラットフォーム (CDP) は、顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために使用される特殊なツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データ ソースのサポートが改善され、GenAI ユース ケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Canu-Park 氏からのもう 1 つのアドバイスは、データ リネージの重要性に焦点を当てています。 「AI では、AI アプリケーションとモデルを動かすデータ パイプラインとデータ リネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データ系統は、データのライフ サイクルを明らかにし、誰が、いつ、どこで、なぜ、どのようにデータを変更したかという質問に答えるのに役立ちます。 AI によってデータの範囲とその使用事例が拡大するにつれて、セキュリティやその他のリスク管理機能に携わる人々を含む、企業内のより多くの人々にとって、データ系統を理解することがより重要になります。

データ管理とパイプラインアーキテクチャを確認する

データ ガバナンスのリーダーは、ポリシーとデータ品質を超えて、データ管理とアーキテクチャ機能にまで影響力を広げる必要があります。プロアクティブなデータ ガバナンスは、より多くの従業員がデータ、分析、そして人工知能を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能をサポートします。データの保存、アクセス、生成、カタログ化、記録方法はすべて、組織がデータを genAI ユースケースにどれだけ迅速かつ容易に、そして安全に拡張できるかを左右する要因です。

Teradata の最高製品責任者である Hilary Ashton 氏は、最もエキサイティングな AI ユースケースを実現するための次の方法を提案しています。

  • 再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータ セットを作成し、企業がデータをより適切に制御し、データへの信頼を確立できるようにします。
  • データの重力を尊重し、異なる環境間でデータを移動することなく、従業員のより多くの人々が情報にアクセスできるようにします。
  • オープンで接続されたエコシステムもサポートする強力なガバナンスを備えた AI/ML データ パイプラインなど、スケーラビリティを考慮した AI イニシアチブを試験的に導入します。

データ チームにとって重要なのは、使いやすく、複数のユース ケースをサポートするフレームワークとプラットフォームを特定することです。 「ガバナンス フレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラル マネージャー兼副社長である Sean Mahoney 氏は述べ、データ ガバナンスのリーダーにこれらのツールも確認して活用することを推奨しています。

  • データ メッシュ構造は、データの管理をデータ作成者に委任するために使用されます。
  • GenAI と LLMS に固有のスケーラビリティと複雑さを処理するためのベクター データベース。
  • より多くのシステムにわたってデータ ガバナンスを拡張するためのリアルタイム監視ツール。

検討すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャにおいて、データ ストレージに関する世界的な規制を理解する必要があるかどうかです。 「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散して AI プラットフォームに取り込む際の柔軟性を確保することで、データ ガバナンスの実践を強化するために、グローバルに分散されたデータベースを実装する必要があります」と EDB の De Vries 氏はアドバイスしています。

GenAIワークフローへのデータガバナンスの拡張

データ ガバナンス機能では、GenAI ツールと LLM の使用方法も考慮する必要があります。たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者が理解できるように、ChatGPT を明示的に参照しました。適切なデータ ガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データ プライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。

「私が目にしている最大の変化は、プライバシーと信頼性を維持しながら、データを正確に活用、共有、学習する方法が増えていることです」と、PreThink の CEO である Dean Nicholas 氏は述べています。「たとえば、常にソースを引用する Perplexity などの LLM ベースの検索エンジンや、LLMS にデータを取り込んだり送信したりする前に PIL をクリーンアップして編集できる Private AI などのデータ編集テクノロジーがあります。」

データ ガバナンスのリーダーが検討すべき新しい予防策の 1 つは、従業員がすぐに使用できるユース ケースを文書化して企業全体で共有できるプロンプト ライブラリを作成することです。これは、多くのデータ ガバナンス チームがデータ カタログとデータ ディクショナリの維持管理で既に行っている知識管理の実践を拡張する分野です。

「LLMS の基盤は、通常ナレッジ グラフに保存されるクリーンかつ適切にキュレーションされたコンテンツと、通常ヒント リポジトリの形で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジ グラフについては適切なガバナンス プラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI の機能は急速に進化していますが、問題はデータ ガバナンス チームがそれを支持するかどうかです。

<<:  マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

>>: 

ブログ    

推薦する

ディープニューラルネットワーク (DNN) は人間の大脳皮質の構造をシミュレートしますか?

[[199788]]私は生物学を専攻する学部生であり、認知神経科学を専攻する大学院生です。余暇には...

2021年に人工知能がビジネスをどう変えるのか

従来のビジネス慣行からスマートなアプリケーションベースの慣行へと技術が進歩する中、企業は2021年に...

...

単一画像超解像におけるディープラーニングの応用: SRCNN、知覚損失、SRResNet

[[209375]]単一画像の超解像度では、品質の低下を最小限に抑えながら小さな画像のサイズを拡大...

画像ベースの AI プロジェクト用のデータセットを準備する 7 つのステップ

翻訳者 |陳俊レビュー | Chonglouご存知のとおり、データセットはおそらく機械学習プロジェク...

単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます

近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusio...

セマンティックAIとデータ管理の5つのトレンド

1. グラフデータベースとナレッジグラフが2022年に主流になる グラフ データベースが 2022 ...

...

...

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...

...

AI+CRMの啓示:人工知能は、アプリケーションシナリオに実装された場合にのみ、大きな可能性を発揮できます。

[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中...

Microsoft AI が IMO コンテストに参加します!小さな目標:数学の金メダル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Baidu AIの新インフラが2020 CIFTISでデビュー、最新の人工知能成果をパノラマ展示

新たな科学技術革命と産業変革が起こりつつあり、デジタル技術とインテリジェント技術は我が国のサービス産...

300 万行から 100 行へ: 機械学習により開発エクスペリエンスが向上

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...