GenAIの課題に対応するためにデータガバナンスはどのように進化する必要があるか

最近、データガバナンスが気になっていたので、ChatGPT に「データガバナンスとは何ですか?」というプロンプトを入力して問い合わせることにしました。AI は「データガバナンスとは、組織内でデータが適切に管理、保護、利用されるようにするための一連のプロセス、ポリシー、標準、ガイドラインです」と回答しました。これは素晴らしいスタートですが、この時点では、データガバナンスとその意味については、まだ語るべきことがたくさんあります。

GenAI時代のデータガバナンス

データガバナンスには、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野が含まれており、その実践には、使用ポリシーの定義、マスターデータソースの作成、データセットの分析、辞書の文書化、データライフサイクルの監視が含まれます。組織モデルでは通常、戦略を推進する最高データ責任者、データセット戦略を設定するデータ所有者、およびデータ品質の向上を担当するデータスチュワードの役割が定義されます。

「データガバナンスはデータ整合性の重要な要素であり、企業が重要なデータを簡単に見つけ、理解し、活用できるようにすることで、正確なレポート作成と情報に基づいた意思決定が可能になります」と、Precision の CTO である Tendü Yogurtçu 博士は述べています。「データガバナンスはデータの意味、系統、影響を理解し、企業がコンプライアンスを維持し、信頼できるデータに基づいて AI モデルが確実に機能して、信頼できる結果が得られるようにします。」

データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったとヨーグルトチュ氏は言う。「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体の優先事項になるべきだ」と彼女は語った。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの企業では、データガバナンスの責任が大きくなり、従業員による AI ツールの使用方法によってリスクが増大し、非構造化データが新たな範囲をもたらします。 GenAI のツールと機能に内在する機会とリスクに対処するために、データガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI データガバナンスを開発する 4 つの方法

GenAIツールとLLMで使用されるデータ戦略のレビュー

データガバナンス部門は、データカタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータセットを活用し、機械学習モデル、ダッシュボード、その他の分析ツールを構築できるように支援していますが、現在、ポリシーを更新して、企業のデータソースを土地管理システムやオープン GenAI ツールで使用できるかどうか、またその使用方法を含めるようにしています。開発者とデータサイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートすることに関する懸念事項についてはデータ所有者に相談する必要があります。

「GenAI によってデータの複雑さが増すため、組織は適切なデータガバナンスとプライバシーポリシーを導入し、これらのモデルのトレーニングに使用するコンテンツを管理および保護することが不可欠です」と、Egnyte の共同創設者兼最高セキュリティ責任者である Chris Lahiri 氏は述べています。「組織は、これらの AI ツールによって使用されるデータが OpenAI、Palm、または社内で使用される可能性のある LLM などのサードパーティのデータであるかどうかに特に注意を払う必要があります。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、データ所有者からのリクエストと承認が必要です。 GDPR、CCPA、PCI、HIPAA、またはその他のデータコンプライアンス標準に準拠する必要があるデータセットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データ戦略では、サードパーティのデータソースを使用する場合、データのサプライチェーンと責任も考慮する必要があります。「特定の地域で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合は、ベンダーは状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に期待を寄せる人にとって、企業のデータプライバシー、セキュリティ、コンプライアンスポリシーを理解して優先順位を意識することが重要です。

データ品質の取り組みを加速

ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間17.7%の成長が見込まれています。多くの企業が AI ツールや LLM を実験しているので、今後はより高い成長が期待できます。

「AI の性能はそれを動かすデータの質に左右されるため、AI を活用する際の課題の多くはデータの品質に関係しています」と、Piwik Pro の COO である Matez Krempa 氏は述べています。「データの品質が悪いと、誤解を招くような、または誤った洞察につながり、結果に重大な影響を与える可能性があります。」

クレンパ氏は、データ品質の課題はビッグデータの量、速度、多様性に起因しており、特にLLMが現在、同社の非構造化データソースを利用しているからだと述べた。社内 LLM の開発を検討している企業は、データ品質の取り組みを拡張して、ドキュメント、コラボレーションツール、コードリポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報を含める必要があります。

八甲田のデータガバナンス責任者である梅本カレン氏は、次のように述べています。「データガバナンスは、大量のデータをLLMシステムに取り込むだけでなく、それをインテリジェントかつ安全に行うことに移行しています。その際、データが大量であるだけでなく、正確で理解しやすく、プライバシーに配慮し、安全で、知的財産を尊重し、リスクと影響を公平に尊重することに重点を置いています。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

従来のデータ品質ツールは、データの重複排除、データフィールドの標準化、ビジネスルールに対するデータの検証、異常の検出、品質メトリックの計算を行うことができます。
マスターデータ管理ツール (MDM) は、企業が複数のデータソースを接続し、顧客や製品などのビジネスエンティティに関する信頼できるソースを作成するのに役立ちます。
顧客データプラットフォーム (CDP) は、顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために使用される特殊なツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データソースのサポートが改善され、GenAI ユースケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Canu-Park 氏からのもう 1 つのアドバイスは、データリネージの重要性に焦点を当てています。「AI では、AI アプリケーションとモデルを動かすデータパイプラインとデータリネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データ系統は、データのライフサイクルを明らかにし、誰が、いつ、どこで、なぜ、どのようにデータを変更したかという質問に答えるのに役立ちます。 AI によってデータの範囲とその使用事例が拡大するにつれて、セキュリティやその他のリスク管理機能に携わる人々を含む、企業内のより多くの人々にとって、データ系統を理解することがより重要になります。

データ管理とパイプラインアーキテクチャを確認する

データガバナンスのリーダーは、ポリシーとデータ品質を超えて、データ管理とアーキテクチャ機能にまで影響力を広げる必要があります。プロアクティブなデータガバナンスは、より多くの従業員がデータ、分析、そして人工知能を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能をサポートします。データの保存、アクセス、生成、カタログ化、記録方法はすべて、組織がデータを genAI ユースケースにどれだけ迅速かつ容易に、そして安全に拡張できるかを左右する要因です。

Teradata の最高製品責任者である Hilary Ashton 氏は、最もエキサイティングな AI ユースケースを実現するための次の方法を提案しています。

再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータセットを作成し、企業がデータをより適切に制御し、データへの信頼を確立できるようにします。
データの重力を尊重し、異なる環境間でデータを移動することなく、従業員のより多くの人々が情報にアクセスできるようにします。
オープンで接続されたエコシステムもサポートする強力なガバナンスを備えた AI/ML データパイプラインなど、スケーラビリティを考慮した AI イニシアチブを試験的に導入します。

データチームにとって重要なのは、使いやすく、複数のユースケースをサポートするフレームワークとプラットフォームを特定することです。「ガバナンスフレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラルマネージャー兼副社長である Sean Mahoney 氏は述べ、データガバナンスのリーダーにこれらのツールも確認して活用することを推奨しています。

データメッシュ構造は、データの管理をデータ作成者に委任するために使用されます。
GenAI と LLMS に固有のスケーラビリティと複雑さを処理するためのベクターデータベース。
より多くのシステムにわたってデータガバナンスを拡張するためのリアルタイム監視ツール。

検討すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャにおいて、データストレージに関する世界的な規制を理解する必要があるかどうかです。「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散して AI プラットフォームに取り込む際の柔軟性を確保することで、データガバナンスの実践を強化するために、グローバルに分散されたデータベースを実装する必要があります」と EDB の De Vries 氏はアドバイスしています。

GenAIワークフローへのデータガバナンスの拡張

データガバナンス機能では、GenAI ツールと LLM の使用方法も考慮する必要があります。たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者が理解できるように、ChatGPT を明示的に参照しました。適切なデータガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データプライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。

「私が目にしている最大の変化は、プライバシーと信頼性を維持しながら、データを正確に活用、共有、学習する方法が増えていることです」と、PreThink の CEO である Dean Nicholas 氏は述べています。「たとえば、常にソースを引用する Perplexity などの LLM ベースの検索エンジンや、LLMS にデータを取り込んだり送信したりする前に PIL をクリーンアップして編集できる Private AI などのデータ編集テクノロジーがあります。」

データガバナンスのリーダーが検討すべき新しい予防策の 1 つは、従業員がすぐに使用できるユースケースを文書化して企業全体で共有できるプロンプトライブラリを作成することです。これは、多くのデータガバナンスチームがデータカタログとデータディクショナリの維持管理で既に行っている知識管理の実践を拡張する分野です。

「LLMS の基盤は、通常ナレッジグラフに保存されるクリーンかつ適切にキュレーションされたコンテンツと、通常ヒントリポジトリの形で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジグラフについては適切なガバナンスプラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI の機能は急速に進化していますが、問題はデータガバナンスチームがそれを支持するかどうかです。

<<: マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

>>: