最近、データ ガバナンスが気になっていたので、ChatGPT に「データ ガバナンスとは何ですか?」というプロンプトを入力して問い合わせることにしました。AI は「データ ガバナンスとは、組織内でデータが適切に管理、保護、利用されるようにするための一連のプロセス、ポリシー、標準、ガイドラインです」と回答しました。これは素晴らしいスタートですが、この時点では、データ ガバナンスとその意味については、まだ語るべきことがたくさんあります。 GenAI時代のデータガバナンスデータ ガバナンスには、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野が含まれており、その実践には、使用ポリシーの定義、マスター データ ソースの作成、データ セットの分析、辞書の文書化、データ ライフサイクルの監視が含まれます。組織モデルでは通常、戦略を推進する最高データ責任者、データセット戦略を設定するデータ所有者、およびデータ品質の向上を担当するデータスチュワードの役割が定義されます。 「データ ガバナンスはデータ整合性の重要な要素であり、企業が重要なデータを簡単に見つけ、理解し、活用できるようにすることで、正確なレポート作成と情報に基づいた意思決定が可能になります」と、Precision の CTO である Tendü Yogurtçu 博士は述べています。「データ ガバナンスはデータの意味、系統、影響を理解し、企業がコンプライアンスを維持し、信頼できるデータに基づいて AI モデルが確実に機能して、信頼できる結果が得られるようにします。」 データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったとヨーグルトチュ氏は言う。 「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体の優先事項になるべきだ」と彼女は語った。 GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの企業では、データ ガバナンスの責任が大きくなり、従業員による AI ツールの使用方法によってリスクが増大し、非構造化データが新たな範囲をもたらします。 GenAI のツールと機能に内在する機会とリスクに対処するために、データ ガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。 GenAI データガバナンスを開発する 4 つの方法GenAIツールとLLMで使用されるデータ戦略のレビューデータ ガバナンス部門は、データ カタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータ セットを活用し、機械学習モデル、ダッシュボード、その他の分析ツールを構築できるように支援していますが、現在、ポリシーを更新して、企業のデータ ソースを土地管理システムやオープン GenAI ツールで使用できるかどうか、またその使用方法を含めるようにしています。開発者とデータ サイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートすることに関する懸念事項についてはデータ所有者に相談する必要があります。 「GenAI によってデータの複雑さが増すため、組織は適切なデータ ガバナンスとプライバシー ポリシーを導入し、これらのモデルのトレーニングに使用するコンテンツを管理および保護することが不可欠です」と、Egnyte の共同創設者兼最高セキュリティ責任者である Chris Lahiri 氏は述べています。「組織は、これらの AI ツールによって使用されるデータが OpenAI、Palm、または社内で使用される可能性のある LLM などのサードパーティのデータであるかどうかに特に注意を払う必要があります。」 プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、データ所有者からのリクエストと承認が必要です。 GDPR、CCPA、PCI、HIPAA、またはその他のデータ コンプライアンス標準に準拠する必要があるデータセットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。 データ戦略では、サードパーティのデータ ソースを使用する場合、データのサプライ チェーンと責任も考慮する必要があります。 「特定の地域で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合は、ベンダーは状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。 GenAI の機会に期待を寄せる人にとって、企業のデータ プライバシー、セキュリティ、コンプライアンス ポリシーを理解して優先順位を意識することが重要です。 データ品質の取り組みを加速ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間17.7%の成長が見込まれています。多くの企業が AI ツールや LLM を実験しているので、今後はより高い成長が期待できます。 「AI の性能はそれを動かすデータの質に左右されるため、AI を活用する際の課題の多くはデータの品質に関係しています」と、Piwik Pro の COO である Matez Krempa 氏は述べています。「データの品質が悪いと、誤解を招くような、または誤った洞察につながり、結果に重大な影響を与える可能性があります。」 クレンパ氏は、データ品質の課題はビッグデータの量、速度、多様性に起因しており、特にLLMが現在、同社の非構造化データソースを利用しているからだと述べた。社内 LLM の開発を検討している企業は、データ品質の取り組みを拡張して、ドキュメント、コラボレーション ツール、コード リポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報を含める必要があります。 八甲田のデータガバナンス責任者である梅本カレン氏は、次のように述べています。「データガバナンスは、大量のデータをLLMシステムに取り込むだけでなく、それをインテリジェントかつ安全に行うことに移行しています。その際、データが大量であるだけでなく、正確で理解しやすく、プライバシーに配慮し、安全で、知的財産を尊重し、リスクと影響を公平に尊重することに重点を置いています。」 ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。
アップグレードと新しいデータ品質ツールにより、非構造化データ ソースのサポートが改善され、GenAI ユース ケースのデータ品質機能が強化される予定です。 Matillion の CISO である Graeme Canu-Park 氏からのもう 1 つのアドバイスは、データ リネージの重要性に焦点を当てています。 「AI では、AI アプリケーションとモデルを動かすデータ パイプラインとデータ リネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」 データ系統は、データのライフ サイクルを明らかにし、誰が、いつ、どこで、なぜ、どのようにデータを変更したかという質問に答えるのに役立ちます。 AI によってデータの範囲とその使用事例が拡大するにつれて、セキュリティやその他のリスク管理機能に携わる人々を含む、企業内のより多くの人々にとって、データ系統を理解することがより重要になります。 データ管理とパイプラインアーキテクチャを確認するデータ ガバナンスのリーダーは、ポリシーとデータ品質を超えて、データ管理とアーキテクチャ機能にまで影響力を広げる必要があります。プロアクティブなデータ ガバナンスは、より多くの従業員がデータ、分析、そして人工知能を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能をサポートします。データの保存、アクセス、生成、カタログ化、記録方法はすべて、組織がデータを genAI ユースケースにどれだけ迅速かつ容易に、そして安全に拡張できるかを左右する要因です。 Teradata の最高製品責任者である Hilary Ashton 氏は、最もエキサイティングな AI ユースケースを実現するための次の方法を提案しています。
データ チームにとって重要なのは、使いやすく、複数のユース ケースをサポートするフレームワークとプラットフォームを特定することです。 「ガバナンス フレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラル マネージャー兼副社長である Sean Mahoney 氏は述べ、データ ガバナンスのリーダーにこれらのツールも確認して活用することを推奨しています。
検討すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャにおいて、データ ストレージに関する世界的な規制を理解する必要があるかどうかです。 「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散して AI プラットフォームに取り込む際の柔軟性を確保することで、データ ガバナンスの実践を強化するために、グローバルに分散されたデータベースを実装する必要があります」と EDB の De Vries 氏はアドバイスしています。 GenAIワークフローへのデータガバナンスの拡張データ ガバナンス機能では、GenAI ツールと LLM の使用方法も考慮する必要があります。たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者が理解できるように、ChatGPT を明示的に参照しました。適切なデータ ガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データ プライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。 「私が目にしている最大の変化は、プライバシーと信頼性を維持しながら、データを正確に活用、共有、学習する方法が増えていることです」と、PreThink の CEO である Dean Nicholas 氏は述べています。「たとえば、常にソースを引用する Perplexity などの LLM ベースの検索エンジンや、LLMS にデータを取り込んだり送信したりする前に PIL をクリーンアップして編集できる Private AI などのデータ編集テクノロジーがあります。」 データ ガバナンスのリーダーが検討すべき新しい予防策の 1 つは、従業員がすぐに使用できるユース ケースを文書化して企業全体で共有できるプロンプト ライブラリを作成することです。これは、多くのデータ ガバナンス チームがデータ カタログとデータ ディクショナリの維持管理で既に行っている知識管理の実践を拡張する分野です。 「LLMS の基盤は、通常ナレッジ グラフに保存されるクリーンかつ適切にキュレーションされたコンテンツと、通常ヒント リポジトリの形で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジ グラフについては適切なガバナンス プラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」 私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI の機能は急速に進化していますが、問題はデータ ガバナンス チームがそれを支持するかどうかです。 |
<<: マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル
OpenGL とは何ですか? OpenGL (正式名称は Open Graphics Library...
[[269504]]人工知能はまるでまだ遠い未来の話であるかのように語られていますが、実際にはすでに...
2017 年の最もホットなテクノロジートピックは間違いなく人工知能です。人工知能は非常に難しい科学...
写真は思い出を保存するための最も便利なツールの一つです。テクノロジーのおかげで、ある意味カメラとも言...
財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...
翻訳者|朱 仙中レビュー | Chonglou導入この記事は、人工知能に関する最新の研究に関する当社...
空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...
シカゴで開催された ACM コンピュータおよび通信セキュリティ会議で、2 人のドイツ人研究者が、ワー...
古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...
太平洋標準時3月18日午後10時、米国アリゾナ州で、ウーバーが路上試験中に自転車に乗った女性と衝突し...
グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...
並列データが不足しているため、小規模言語の翻訳は常に大きな問題となっていました。 Google の研...
先月、国際的に有名な学術誌「ネイチャー」が2023年のトップ10を発表しました。世界的な科学イベント...