ML と GenAI の世界に深く入り込むにつれて、データ品質への重点が重要になります。 KMS Technology の高度技術イノベーション グループの CTO である John Jeske が、データ系統追跡やフェデレーテッド ラーニングなどのデータ ガバナンス アプローチについて詳しく解説し、最高のモデル パフォーマンスを実現します。 データの品質は、モデルの持続可能性と利害関係者の信頼にとって重要です。モデリング プロセス中、データの品質によって長期的なメンテナンスが容易になり、利害関係者コミュニティにおけるユーザーの信頼と信用を構築できるようになります。大規模言語や生成アルゴリズムを含む複雑なモデルでは、「ガベージイン、ガベージアウト」の影響がさらに悪化します。 「ジェスケは言った。 遺伝的AIバイアスとデータの代表性の問題ユースケースにどのモデルを選択しても、データ品質が低いと GenAI モデルに歪みが生じてしまいます。落とし穴は、多くの場合、企業の範囲、顧客ベース、またはアプリケーションの範囲を誤って表現するトレーニング データから生じます。 本当の資産は、一時的なモデルやモデリング アーキテクチャではなく、データそのものです。収益化可能な資産としてのデータの継続的な価値は、ここ数か月で多数のモデリング フレームワークが登場したことで特に明らかになりました。 KMSテクノロジーのソフトウェアサービス担当上級副社長ジェフ・スコット氏は次のように付け加えた。「AIが生成したコンテンツが意図した出力から外れても、それはアルゴリズムのせいではありません。むしろ、トレーニングデータの不備や歪みを反映しているのです。」 厳格なデータ整合性ガバナンスデータ ガバナンスのベスト プラクティスには、メタデータ管理、データ管理、自動品質チェックの導入などのアクティビティが含まれます。たとえば、データの出所を確認し、トレーニングやモデリング用のデータを取得するときに認定データセットを使用し、自動化されたデータ品質ツールの使用を検討します。これらのツールは複雑さを増す一方で、データの整合性を実現するのに非常に役立ちます。 データ品質を向上させるために、データの有効性、整合性チェック、時間的一貫性などの特性を提供するツールを使用します。これにより、堅牢な AI モデルに不可欠な信頼性と一貫性のあるデータが促進されます。 AI開発における説明責任と継続的改善データはすべての人の問題であり、企業内でデータ ガバナンスの責任を割り当てることは重要なタスクです。 最も重要なことは、機能が設計どおりに動作し、トレーニングされるデータが潜在顧客の観点から意味をなすものであることを確認することです。フィードバックは学習を強化し、次にモデルをトレーニングするときに考慮され、信頼されるまで継続的な改善が促されます。 当社のワークフローでは、AI および ML モデルは公開される前に厳格な社内テストを受けます。当社のデータ エンジニアリング チームは継続的にフィードバックを受け取り、モデルを反復的に改善してバイアスやその他の異常を最小限に抑えることができます。 リスク管理と顧客の信頼データ ガバナンスには、関連するビジネス領域からのデータ管理と、専門家の継続的な関与が必要であり、これにより、チームとシステムを流れるデータの適切な照合と一貫性に対する説明責任が確保されます。 テクノロジーから不正確な結果を受け取ることに伴うリスクを理解する必要があり、企業はデータの出所や知的財産の取り扱いから全体的なデータの品質と整合性に至るまで、透明性を評価する必要があります。 透明性は顧客の信頼にとって不可欠であり、データ ガバナンスは単なる技術的な取り組みではありません。不正確な AI 予測からエンド ユーザーへのリスクが移行するため、企業の評判にも影響します。 要約すると、GenAI が進化し続けるにつれて、データ品質を維持するだけでなく、そのデータとそれを活用する AI モデルとの複雑な関係を理解するためにも、データ ガバナンスを習得することがさらに重要になります。この洞察は、技術の進歩、ビジネスの健全性、そして利害関係者や一般大衆の信頼の維持にとって非常に重要です。 |
<<: OpenAIの創設者サム・アルトマンが解雇されてから24時間後
>>: 生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF
IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上の979億ドルに達する...
CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...
11月3日、Google ResearchとDeepMindは最新の気象モデルMetNet-3を共同...
センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...
2006年以降、ディープラーニングに代表される機械学習アルゴリズムは、マシンビジョンや音声認識など...
データの不足からデータの豊富さへと、近年利用可能なデータの量は飛躍的に増加し、ビッグデータはどこにで...
ディープラーニングの活発な発展に伴い、業務シナリオで使用するためのディープ ニューラル ネットワーク...
近年、ビッグデータコンピューティングの継続的な発展に伴い、ユーザーを中毒に誘導したり、悪いアイデアを...
[[225280]] 2018年度Google PhDフェローシップ(北米、ヨーロッパ、中東)の候...
[[285973]]人工知能が長期記憶を形成するには、脳科学、神経科学、心理学、行動経済学の分野にお...
テクノロジーの発展に伴い、クラウド コンピューティング テクノロジーは進歩し続け、その目的も変化して...