GenAI 時代のデータ ガバナンスの青写真

GenAI 時代のデータ ガバナンスの青写真

ML と GenAI の世界に深く入り込むにつれて、データ品質への重点が重要になります。 KMS Technology の高度技術イノベーション グループの CTO である John Jeske が、データ系統追跡やフェデレーテッド ラーニングなどのデータ ガバナンス アプローチについて詳しく解説し、最高のモデル パフォーマンスを実現します。

データの品質は、モデルの持続可能性と利害関係者の信頼にとって重要です。モデリング プロセス中、データの品質によって長期的なメンテナンスが容易になり、利害関係者コミュニティにおけるユーザーの信頼と信用を構築できるようになります。大規模言語や生成アルゴリズムを含む複雑なモデルでは、「ガベージイン、ガベージアウト」の影響がさらに悪化します。 「ジェスケは言った。

遺伝的AIバイアスとデータの代表性の問題

ユースケースにどのモデルを選択しても、データ品質が低いと GenAI モデルに歪みが生じてしまいます。落とし穴は、多くの場合、企業の範囲、顧客ベース、またはアプリケーションの範囲を誤って表現するトレーニング データから生じます。

本当の資産は、一時的なモデルやモデリング アーキテクチャではなく、データそのものです。収益化可能な資産としてのデータの継続的な価値は、ここ数か月で多数のモデリング フレームワークが登場したことで特に明らかになりました。

KMSテクノロジーのソフトウェアサービス担当上級副社長ジェフ・スコット氏は次のように付け加えた。「AIが生成したコンテンツが意図した出力から外れても、それはアルゴリズムのせいではありません。むしろ、トレーニングデータの不備や歪みを反映しているのです。」

厳格なデータ整合性ガバナンス

データ ガバナンスのベスト プラクティスには、メタデータ管理、データ管理、自動品質チェックの導入などのアクティビティが含まれます。たとえば、データの出所を確認し、トレーニングやモデリング用のデータを取得するときに認定データセットを使用し、自動化されたデータ品質ツールの使用を検討します。これらのツールは複雑さを増す一方で、データの整合性を実現するのに非常に役立ちます。

データ品質を向上させるために、データの有効性、整合性チェック、時間的一貫性などの特性を提供するツールを使用します。これにより、堅牢な AI モデルに不可欠な信頼性と一貫性のあるデータが促進されます。

AI開発における説明責任と継続的改善

データはすべての人の問題であり、企業内でデータ ガバナンスの責任を割り当てることは重要なタスクです。

最も重要なことは、機能が設計どおりに動作し、トレーニングされるデータが潜在顧客の観点から意味をなすものであることを確認することです。フィードバックは学習を強化し、次にモデルをトレーニングするときに考慮され、信頼されるまで継続的な改善が促されます。

当社のワークフローでは、AI および ML モデルは公開される前に厳格な社内テストを受けます。当社のデータ エンジニアリング チームは継続的にフィードバックを受け取り、モデルを反復的に改善してバイアスやその他の異常を最小限に抑えることができます。

リスク管理と顧客の信頼

データ ガバナンスには、関連するビジネス領域からのデータ管理と、専門家の継続的な関与が必要であり、これにより、チームとシステムを流れるデータの適切な照合と一貫性に対する説明責任が確保されます。

テクノロジーから不正確な結果を受け取ることに伴うリスクを理解する必要があり、企業はデータの出所や知的財産の取り扱いから全体的なデータの品質と整合性に至るまで、透明性を評価する必要があります。

透明性は顧客の信頼にとって不可欠であり、データ ガバナンスは単なる技術的な取り組みではありません。不正確な AI 予測からエンド ユーザーへのリスクが移行するため、企業の評判にも影響します。

要約すると、GenAI が進化し続けるにつれて、データ品質を維持するだけでなく、そのデータとそれを活用する AI モデルとの複雑な関係を理解するためにも、データ ガバナンスを習得することがさらに重要になります。この洞察は、技術の進歩、ビジネスの健全性、そして利害関係者や一般大衆の信頼の維持にとって非常に重要です。

<<:  OpenAIの創設者サム・アルトマンが解雇されてから24時間後

>>:  生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

ブログ    
ブログ    
ブログ    

推薦する

新しい機械学習システムがロボットに社会的なスキルを与える

ロボットは大学のキャンパスに食べ物を配達したり、ゴルフコースでホールインワンを達成したりすることがで...

チャットテクノロジーと IoT セキュリティの将来はどうなるのでしょうか?

OpenAIは2022年11月30日にChatGPTをリリースしました。大規模言語モデル GPT3...

GoogleとHuawei、AI市場獲得に向け音声アシスタントの導入を急ぐ

Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...

人工知能と教育の統合が高等教育改革を促進

[[434341]]我が国の長期的な発展と人材戦略により、質の高い人材に対する需要が急速に高まってい...

DeepMind、ロボットの物体積み重ね能力を向上させるための新たなベンチマークを提案

ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...

スマートホームとは何ですか?そしてそれは必要ですか?

スマートホームのコンセプトを最も簡単に説明すると、それは家の自然な進化であるということです。スマート...

なぜ今でもMocha DHT-PHEVのような電源ソリューションが必要なのでしょうか?

2021年、国内の新エネルギー乗用車市場はチップ不足や電池原材料価格の高騰など予想外の事態に見舞わ...

...

67トピック、11528の質問、新しい中国の大規模モデルマルチタスクベンチマークCMMLUがリリースされました

MBZUAI、上海交通大学、Microsoft Research Asia は協力して、包括的な中国...

ハッカーがGSMアルゴリズムを破り、携帯電話ユーザーが盗聴の危険にさらされる

以下の記事では、主にハッカーがGSMアルゴリズムをクラックし、携帯電話ユーザーが盗聴の危険にさらされ...

米メディア:米国はAI戦争に備えるため同盟国を誘致

ワシントン(AP通信) — 米国とその同盟国は、国防総省の人工知能部門が立ち上げた新しいフォーラムを...

ロボット開発で人気の言語:不滅のJava、不滅のC/C++、そして新興のPython

プログラミング言語は流行ったり廃れたりするものですが、Java と C/C++ は変わりません。 [...

2019年、AI技術は製造業が小さな努力で大きな成果を達成するのを助けるだろう

[[251579]] 2019 年には、新世代の人工知能 (AI) ソリューションが注目を集めるでし...

5分で強力で使いやすいディープラーニング環境を構築

ディープラーニング プロジェクトに適した環境を構築するのは簡単な作業ではありません。処理すべきことは...

...