GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック

編集者 | ヤン・ジェン

制作:51CTO テクノロジースタック(WeChat ID:blog)

データ ガバナンスは、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野をカバーします。この実践では、使用ポリシーの定義、マスター データ ソースの作成、データ セットの分析、辞書の文書化、およびデータ ライフサイクルの監視が必要です。組織モデルでは通常、戦略を推進する最高データ責任者、データセットのポリシーを設定するデータ所有者、およびデータ品質の向上を担当するデータ管理者の役割が定義されます。

「データ ガバナンスはデータ整合性の重要な要素であり、組織が重要なデータを簡単に発見、理解、活用して、正確なレポート作成と情報に基づいた意思決定を行えるようにします」と Precisly の CTO である Tendü Yogurtçu 博士は述べています。「データの意味、系統、影響についての理解が得られるため、企業はコンプライアンスを維持し、信頼できるデータに基づいて AI モデルを構築して信頼できる結果を得ることができます。」

ヨーグルトチュ氏は、データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったと述べた。 「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体で優先されるべきである」と彼女は述べた。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの組織では、データ ガバナンスの責任が大きくなり、AI ツールを使用する従業員のリスクが大きくなり、非構造化データの範囲が広がります。 AI ツールと機能の構築に内在する機会とリスクに対処するために、データ ガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI 時代において、組織はデータの取得と使用において新たなリスク、課題、機会に直面します。ここでは、データ ガバナンス チームがこの状況に対応できる 4 つの方法を紹介します。

1. GenAIツールとLLMのデータポリシーを確認する

データ ガバナンス部門は、データ カタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータ セットにアクセスし、それを使用して機械学習モデル、ダッシュボード、その他の分析ツールを構築できるようにします。これらの部門は現在、エンタープライズ データ ソースを LLM およびオープン GenAI ツールで使用できるかどうか、またどのように使用できるかを決定するためのポリシーを更新しています。開発者とデータ サイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートするかどうかについてデータ所有者に相談する必要があります。

「生成AIはより複雑なデータをもたらすため、組織はこれらのモデルのトレーニングに使用されるコンテンツを管理および保護するために、優れたデータガバナンスとプライバシーポリシーを導入する必要があります」と、Egnyteの共同創設者兼最高セキュリティ責任者であるクリス・ラヒリ氏は述べています。 「組織は、これらの AI ツールによってどのようなデータが使用されているかを特に意識する必要があります。それが OpenAI や PaLM などのサードパーティのデータであるか、企業が内部で使用する可能性のある内部 LLM であるかは関係ありません。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、リクエストを送信してデータ所有者が承認する必要があります。 GDPR、CCPA、PCI、HIPAA、またはその他のデータ コンプライアンス標準を満たす必要があるデータ セットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データ ポリシーでは、サードパーティのデータ ソースを使用する場合、データのサプライ チェーンと責任も考慮する必要があります。 「ベンダーは、特定のゾーン内で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合、状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に興味を持っている人にとって、まず組織のデータ プライバシー、セキュリティ、コンプライアンス ポリシーを理解することが重要です。

2. データ品質の改善を加速する

Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間成長率は17.7%になると予想されています。現在、多くの企業が AI ツールや LLM を実験しているので、この成長はさらに高くなると予想しています。

「AI の性能は入力するデータによって決まるため、AI の使用における課題の多くはデータの品質に関連しています」と、Piwik Pro の COO である Mateusz Krempa 氏は述べています。 「データ品質が低いと、誤解を招いたり誤った洞察をもたらしたりして、結果に重大な影響を及ぼす可能性があります。」

クレンパ氏は、特にLLMが組織の非構造化データソースを活用するようになった現在、データ品質の課題はビッグデータの量、速度、多様性から生じていると述べました。社内 LLM の開発を検討している企業は、ドキュメント、コラボレーション ツール、コード リポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報にまでデータ品質の取り組みを拡張する必要があります。

「データ ガバナンスは、LLM システムに大量のデータを供給するだけでなく、それを賢明かつ安全に行うという点でも変化しています」と八甲田のデータ ガバナンス責任者である Karen Meppen 氏は述べています。 「重点は、データが大規模であるだけでなく、正確で、理解しやすく、プライバシーを重視し、安全であり、知的財産と公平性に対するリスクと影響を考慮したスマートなものであることを保証することです。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

従来のデータ品質ツール: 重複を削除し、データ フィールドを正規化し、ビジネス ルールに対してデータを検証し、異常を検出し、品質メトリックを計算できます。

マスター データ管理ツール (MDM): 組織が複数のデータ ソースを接続し、顧客や製品などのビジネス エンティティの単一の真実のソースを作成できるようにします。

顧客データ プラットフォーム (CDP): 顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために特別に設計されたツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データ ソースのサポートが改善され、GenAI ユース ケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Cantu-Park 氏からのもう 1 つのヒントは、データ リネージの重要性に焦点を当てたものでした。 「AI では、AI アプリケーションとモデルにデータを供給するデータ パイプラインとデータ リネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データ リネージは、データのライフサイクルを明らかにし、データがいつ、どこで、誰によって、なぜ、どのように変更されたかという質問に答えるのに役立ちます。 AI によってデータの範囲と使用事例が拡大するにつれて、セキュリティやその他のリスク管理部門を含む組織内のより多くの人々にとって、データ系統を理解することがより重要になります。

3. データ管理とパイプラインアーキテクチャを確認する

データ ガバナンスのリーダーは、ポリシーとデータ品質に加えて、データ管理とアーキテクチャ機能にも影響力を広げる必要があります。アクティブ データ ガバナンスは、より多くの従業員がデータ、分析、そして AI を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能を提供します。データの保存、アクセス、製品化、カタログ化、文書化の方法はすべて、組織がデータを GenAI ユースケースに迅速かつ容易に、そして安全に拡張するための要素です。 Teradata の最高製品責任者である Hillary Ashton 氏は、最もエキサイティングな AI ユースケースを実装するための次の方法を提案しています。

再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータ セットを作成し、組織がデータをより適切に管理し、データに対する信頼を確立できるようにします。

データの重要性を尊重し、異なる環境間でデータを移動することなく、より多くの人が情報にアクセスできるようにします。

強力なガバナンスを備えた AI/ML データ パイプラインなど、スケーラビリティを考慮して設計された AI パイロット プログラムにより、オープンで接続されたエコシステムも実現できます。

データ チームにとって重要なのは、使いやすく、複数のユース ケースをサポートするフレームワークとプラットフォームを特定することです。 「ガバナンス フレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラル マネージャー兼副社長である Sean Mahoney 氏は述べています。彼は、データ ガバナンスのリーダーに、次のツールも確認して活用することを推奨しています。

  • データ管理をデータ作成者に委任するデータ グリッド。
  • 生成 AI と LLM に固有のスケーラビリティと複雑さを処理するためのベクトル データベース。
  • データ ガバナンスをより多くのシステムに拡張するリアルタイム監視ツール。

考慮すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャが、データ ストレージに関する世界的な規制を認識する必要があることです。 EDBのデ・フリース氏は、「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散してAIプラットフォームにデータを供給する際の柔軟性を高めることで、データガバナンスの実践を改善するためにグローバルに分散されたデータベースを実装すべきだ」と推奨している。

4. GenAIワークフローへのデータガバナンスの拡張

データ ガバナンス機能では、GenAI ツールと LLM の使用に関するポリシーとベスト プラクティスも考慮する必要があります。

たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者がわかるように、ChatGPT を明示的に参照しました。適切なデータ ガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データ プライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。 「私が見ている最も重要なことは、プライバシーと信頼性を維持しながら、データを正確に活用し、共有し、そこから学ぶ方法が増えていることです」と、ForethinkのCEO、デオン・ニコラス氏は語った。

「たとえば、常にソースを引用する Perplexity のような LLM ベースの検索エンジンや、LLM にデータを送受信する前に PIL をクリーンアップして編集できる Private AI のようなデータ編集テクノロジーなどがあります。」

データ ガバナンスのリーダーが検討すべき積極的なステップは、従業員がすぐに使用できるユースケースを文書化し、組織全体で共有できる即時ライブラリを作成することです。この分野は、多くのデータ ガバナンス チームがデータ カタログとデータ ディクショナリの維持に関してすでに行っている知識管理プラクティスを拡張します。 「LLM のトレーニング コーパスは、通常ナレッジ グラフに保存される簡潔で慎重に処理されたコンテンツと、通常ヒント ライブラリの形式で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジ グラフについては適切なガバナンス プラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI 機能は急速に発展していますが、問題はデータ ガバナンス チームがそれを支持するかどうかです。

参考リンク: https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html


<<:  人工知能によるデータ管理の変革

>>:  OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

推薦する

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

テスラのヒューマノイドロボットは来年オンラインになるでしょうか?専門家:マスク氏は単純すぎる考え方

[[419079]] 「ロボットは、人間が最もやりたがらない、退屈で反復的で危険な作業を処理するため...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

Redditのネットユーザーが議論中!コンピューティング能力とデータは本当にすべてを解決できるのでしょうか?

誰もが知っているように、コンピューティング能力とデータは非常に重要ですが、それだけで十分でしょうか?...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

MoEの大型モデルをゼロから構築するための神レベルのチュートリアルが登場

GPT-4の伝説の「必勝魔法兵器」- MoE(専門家の混合)アーキテクチャ、自分でも作成できます! ...

...

Nature 誌に「室温超伝導体は科学をどう変えるのか?」という記事が掲載されました。

7月末にLK-99が引き起こした熱狂は、8月中旬には徐々に沈静化しました。いくつかの権威ある組織が...

海外メディア:TikTokは米国の規制当局の支援を得るためにアルゴリズムを公開する予定

米国現地時間の水曜日、人気の短編動画プラットフォーム「TikTok」(Douyinの海外版)のCEO...

...

...

2022 年のソフトウェア開発に関する 5 つの予測

[[435157]] [51CTO.com クイック翻訳]すべての企業がソフトウェア企業になりつつあ...

音声認識の次のピークは「人間の領域」でしょうか?

[[208154]]ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単...

2025年以降の人工知能の未来(パート1)

[[420733]] 2025 年までに、人工知能 (AI) は、今日の複雑なタスクの一部を効率的...

AIと拡張現実が職場でどのように進化しているか

[51CTO.com クイック翻訳]職場における支援/拡張現実 (AR) と人工知能 (AI) の潜...