GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック

編集者 | ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

データガバナンスは、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野をカバーします。この実践では、使用ポリシーの定義、マスターデータソースの作成、データセットの分析、辞書の文書化、およびデータライフサイクルの監視が必要です。組織モデルでは通常、戦略を推進する最高データ責任者、データセットのポリシーを設定するデータ所有者、およびデータ品質の向上を担当するデータ管理者の役割が定義されます。

「データガバナンスはデータ整合性の重要な要素であり、組織が重要なデータを簡単に発見、理解、活用して、正確なレポート作成と情報に基づいた意思決定を行えるようにします」と Precisly の CTO である Tendü Yogurtçu 博士は述べています。「データの意味、系統、影響についての理解が得られるため、企業はコンプライアンスを維持し、信頼できるデータに基づいて AI モデルを構築して信頼できる結果を得ることができます。」

ヨーグルトチュ氏は、データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったと述べた。「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体で優先されるべきである」と彼女は述べた。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの組織では、データガバナンスの責任が大きくなり、AI ツールを使用する従業員のリスクが大きくなり、非構造化データの範囲が広がります。 AI ツールと機能の構築に内在する機会とリスクに対処するために、データガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI 時代において、組織はデータの取得と使用において新たなリスク、課題、機会に直面します。ここでは、データガバナンスチームがこの状況に対応できる 4 つの方法を紹介します。

1. GenAIツールとLLMのデータポリシーを確認する

データガバナンス部門は、データカタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータセットにアクセスし、それを使用して機械学習モデル、ダッシュボード、その他の分析ツールを構築できるようにします。これらの部門は現在、エンタープライズデータソースを LLM およびオープン GenAI ツールで使用できるかどうか、またどのように使用できるかを決定するためのポリシーを更新しています。開発者とデータサイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートするかどうかについてデータ所有者に相談する必要があります。

「生成AIはより複雑なデータをもたらすため、組織はこれらのモデルのトレーニングに使用されるコンテンツを管理および保護するために、優れたデータガバナンスとプライバシーポリシーを導入する必要があります」と、Egnyteの共同創設者兼最高セキュリティ責任者であるクリス・ラヒリ氏は述べています。「組織は、これらの AI ツールによってどのようなデータが使用されているかを特に意識する必要があります。それが OpenAI や PaLM などのサードパーティのデータであるか、企業が内部で使用する可能性のある内部 LLM であるかは関係ありません。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、リクエストを送信してデータ所有者が承認する必要があります。 GDPR、CCPA、PCI、HIPAA、またはその他のデータコンプライアンス標準を満たす必要があるデータセットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データポリシーでは、サードパーティのデータソースを使用する場合、データのサプライチェーンと責任も考慮する必要があります。「ベンダーは、特定のゾーン内で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合、状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に興味を持っている人にとって、まず組織のデータプライバシー、セキュリティ、コンプライアンスポリシーを理解することが重要です。

2. データ品質の改善を加速する

Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間成長率は17.7%になると予想されています。現在、多くの企業が AI ツールや LLM を実験しているので、この成長はさらに高くなると予想しています。

「AI の性能は入力するデータによって決まるため、AI の使用における課題の多くはデータの品質に関連しています」と、Piwik Pro の COO である Mateusz Krempa 氏は述べています。「データ品質が低いと、誤解を招いたり誤った洞察をもたらしたりして、結果に重大な影響を及ぼす可能性があります。」

クレンパ氏は、特にLLMが組織の非構造化データソースを活用するようになった現在、データ品質の課題はビッグデータの量、速度、多様性から生じていると述べました。社内 LLM の開発を検討している企業は、ドキュメント、コラボレーションツール、コードリポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報にまでデータ品質の取り組みを拡張する必要があります。

「データガバナンスは、LLM システムに大量のデータを供給するだけでなく、それを賢明かつ安全に行うという点でも変化しています」と八甲田のデータガバナンス責任者である Karen Meppen 氏は述べています。「重点は、データが大規模であるだけでなく、正確で、理解しやすく、プライバシーを重視し、安全であり、知的財産と公平性に対するリスクと影響を考慮したスマートなものであることを保証することです。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

従来のデータ品質ツール: 重複を削除し、データフィールドを正規化し、ビジネスルールに対してデータを検証し、異常を検出し、品質メトリックを計算できます。

マスターデータ管理ツール (MDM): 組織が複数のデータソースを接続し、顧客や製品などのビジネスエンティティの単一の真実のソースを作成できるようにします。

顧客データプラットフォーム (CDP): 顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために特別に設計されたツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データソースのサポートが改善され、GenAI ユースケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Cantu-Park 氏からのもう 1 つのヒントは、データリネージの重要性に焦点を当てたものでした。「AI では、AI アプリケーションとモデルにデータを供給するデータパイプラインとデータリネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データリネージは、データのライフサイクルを明らかにし、データがいつ、どこで、誰によって、なぜ、どのように変更されたかという質問に答えるのに役立ちます。 AI によってデータの範囲と使用事例が拡大するにつれて、セキュリティやその他のリスク管理部門を含む組織内のより多くの人々にとって、データ系統を理解することがより重要になります。

3. データ管理とパイプラインアーキテクチャを確認する

データガバナンスのリーダーは、ポリシーとデータ品質に加えて、データ管理とアーキテクチャ機能にも影響力を広げる必要があります。アクティブデータガバナンスは、より多くの従業員がデータ、分析、そして AI を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能を提供します。データの保存、アクセス、製品化、カタログ化、文書化の方法はすべて、組織がデータを GenAI ユースケースに迅速かつ容易に、そして安全に拡張するための要素です。 Teradata の最高製品責任者である Hillary Ashton 氏は、最もエキサイティングな AI ユースケースを実装するための次の方法を提案しています。

再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータセットを作成し、組織がデータをより適切に管理し、データに対する信頼を確立できるようにします。

データの重要性を尊重し、異なる環境間でデータを移動することなく、より多くの人が情報にアクセスできるようにします。

強力なガバナンスを備えた AI/ML データパイプラインなど、スケーラビリティを考慮して設計された AI パイロットプログラムにより、オープンで接続されたエコシステムも実現できます。

データチームにとって重要なのは、使いやすく、複数のユースケースをサポートするフレームワークとプラットフォームを特定することです。「ガバナンスフレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラルマネージャー兼副社長である Sean Mahoney 氏は述べています。彼は、データガバナンスのリーダーに、次のツールも確認して活用することを推奨しています。

データ管理をデータ作成者に委任するデータグリッド。
生成 AI と LLM に固有のスケーラビリティと複雑さを処理するためのベクトルデータベース。
データガバナンスをより多くのシステムに拡張するリアルタイム監視ツール。

考慮すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャが、データストレージに関する世界的な規制を認識する必要があることです。 EDBのデ・フリース氏は、「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散してAIプラットフォームにデータを供給する際の柔軟性を高めることで、データガバナンスの実践を改善するためにグローバルに分散されたデータベースを実装すべきだ」と推奨している。

4. GenAIワークフローへのデータガバナンスの拡張

データガバナンス機能では、GenAI ツールと LLM の使用に関するポリシーとベストプラクティスも考慮する必要があります。

たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者がわかるように、ChatGPT を明示的に参照しました。適切なデータガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データプライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。「私が見ている最も重要なことは、プライバシーと信頼性を維持しながら、データを正確に活用し、共有し、そこから学ぶ方法が増えていることです」と、ForethinkのCEO、デオン・ニコラス氏は語った。

「たとえば、常にソースを引用する Perplexity のような LLM ベースの検索エンジンや、LLM にデータを送受信する前に PIL をクリーンアップして編集できる Private AI のようなデータ編集テクノロジーなどがあります。」

データガバナンスのリーダーが検討すべき積極的なステップは、従業員がすぐに使用できるユースケースを文書化し、組織全体で共有できる即時ライブラリを作成することです。この分野は、多くのデータガバナンスチームがデータカタログとデータディクショナリの維持に関してすでに行っている知識管理プラクティスを拡張します。「LLM のトレーニングコーパスは、通常ナレッジグラフに保存される簡潔で慎重に処理されたコンテンツと、通常ヒントライブラリの形式で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジグラフについては適切なガバナンスプラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI 機能は急速に発展していますが、問題はデータガバナンスチームがそれを支持するかどうかです。

参考リンク: https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html

<<: 人工知能によるデータ管理の変革

>>: OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

ブログ

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

ブログ

インテリジェント運転システムの欠陥解決策の詳細な分析

ブログ

GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

1. GenAIツールとLLMのデータポリシーを確認する

2. データ品質の改善を加速する

3. データ管理とパイプラインアーキテクチャを確認する

4. GenAIワークフローへのデータガバナンスの拡張

スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

ディープラーニングに基づくターゲット検出ネットワークが誤検出を起こす可能性がある理由と、ターゲット検出の誤検出問題を最適化する方法について説明します。

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す（doge）

最も強力なオープンソースのビッグモデルの所有者が変わりました。李開復はチームを率いて多くの世界チャートでトップに躍り出、40万件のテキストを処理して記録を破った。

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

インテリジェント運転システムの欠陥解決策の詳細な分析

推薦する

Appleが記者会見でFaceIDを発表。あなたは顔認識機能を使ってみますか？

ファーウェイの石耀宏氏：成都にインテリジェントシティを構築し、スマートで美しい都市を創る

すべての IT リーダーが議論すべき 6 つの難しい AI に関する議論

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

モビリティの未来：スマート、持続可能、効率的

技術楽観論者と悲観論者がシリコンバレーでAIの危険性を議論

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

人工知能は今や人間の感情を認識できるほど賢くなった

製造業、農業、医療…AIは新しい時代をどのように変えるのでしょうか？

次世代ロボットは「人間と共存」するかもしれない。中国はこのチャンスをどうつかむのか？

テラデータCTO バオ・リミン：分析エンジンを使用して機械学習とディープラーニングを実現する