データの品質は機械学習を成功させる鍵です

データの品質は機械学習を成功させる鍵です

翻訳者 | 張毅

校正 | 梁哲、孫淑娟

出典: frimufilms が作成したビジネス写真 - www.freepik.com

導入

人工知能は長い間人気があり、強力なサポートインフラストラクチャと高度なアルゴリズムを備えているだけでなく、市場での応用も幅広く増加しています。しかし、これだけでは機械学習 (ML) プロジェクトの実装が容易になるわけではありません。

出典: roserodionova が作成したチャットボットベクター - www.freepik.com

データ品質の問題も新しい概念ではなく、機械学習の応用が始まって以来、注目されてきました。マシンは履歴データから継続的に学習し、その結果の品質はトレーニング データの品質と密接に関係しています。

データ中心 vs. アルゴリズム中心

データ サイエンティストの仕事では、2 つの状況がよく発生します。初期の探索的データ分析を完了し、モデルのパフォーマンスに非常に満足しているものの、モデルの適用結果が十分ではなく、ビジネスで受け入れられないという状況です。この場合、R&D のコストと適時性を考慮して、次の計画は何でしょうか。

  • 誤った予測を分析し、それを入力データに関連付けることで、考えられる異常やこれまで見落とされていたデータ パターンを発見します。
  • あるいは、モデルがより複雑なアルゴリズムを使用する将来を見据えたアプローチを採用します。

つまり、マシンに適切な入力データを提供しなければ、最も高度で高精度な ML アルゴリズムであっても、あまり良い結果は得られません。 Andrew Ng 氏は、講演「MLOps: モデル中心からデータ中心の AI へ」でこのことを非常にわかりやすく説明しました。

データ品質評価

機械学習アルゴリズムには、トレーニング データの単一のビュー (つまり、フラットな構造) が必要です。ほとんどの組織は複数のデータベースを維持しているため、複数のデータ ソースを組み合わせて必要なすべての属性を抽出するデータ準備プロセスには、かなりの時間がかかり、人的リソースも大量に必要になります (専門の技術者が必要)。

このステップでは、発見された誤ったデータが複数のエラー源にさらされるため、確立されたロジックが正しく表現、理解、プログラム、実装されていることを確認するために、データの厳格なピアレビューが必要になります。

データベースが複数のソースからのデータを統合するにつれて、データの取得、クレンジング、変換、関連付け、統合に関連する品質の問題が重要になります。

データの準備、クリーニング、変換がモデル構築のほとんどの時間を占めるというのは、データ サイエンス業界ではおそらく一般的な見解でしょう。したがって、急いでモデルにデータを入力するのではなく、広範囲にわたるデータ品質チェックを実行することをお勧めします。データ チェックの量と種類は主観的になる可能性がありますが、データ品質評価におけるいくつかの重要な要素 (完全性、一意性、最新性、一貫性、正確性) について議論することが重要です。

データ品質を保証するテクノロジー:

  • 欠損値の補完
  • 外れ値検出
  • データ変換
  • 次元削減
  • クロス検証
  • ブートストラップアルゴリズム

品質!品質!品質!

データ品質を向上させる方法を見てみましょう。

  • 異なる注釈:データは複数のソースから収集されます。ベンダーによってデータの最終用途に対する理解が異なり、データの収集とラベル付けに対するアプローチも異なります。同じデータサプライヤー内であっても、監督者が要件を把握し、それをさまざまなチームメンバーに発行する場合、チームメンバー全員が自分の理解に従ってラベル付けするため、ラベル付けの方法は無数に存在することになります。

サプライヤー側の品質チェックと消費者側の共通理解は、均一なラベルの形成に役立ちます。

  • 異なるレコード:モデルのトレーニング データに対する異なるクラスタリングおよび変換操作は、重要な影響を及ぼします。たとえば、スライド平均の計算、空の値の埋め戻し、欠損値の推定などです。これには、その分野の専門家による検証が必要です。
  • 欠損データをどのように処理しますか?体系的に欠損したデータは、偏ったデータセットにつながる可能性があります。さらに、NULL 値や欠損値の多いデータから属性 (性別や人種など) を削除すると、特定の母集団を代表するデータが削除される可能性があります。したがって、誤って表現されたデータは偏った結果を生み出します。これは、モデル出力レベルで欠陥があるだけでなく、AI の責任ある使用に関する倫理的かつ公正な原則にも反するものです。欠落している属性を見つける別の方法は、「ランダム」です。欠損値が多いために重要な属性を盲目的に削除すると、モデルの予測力が低​​下したり、モデルに損害を与えたりする可能性があります。欠損値を補完する最も一般的な方法は、類似の次元またはレベル全体のデータの平均を計算することです。
  • フラット構造:ほとんどの組織には集中型データベースが存在せず、構造化データの欠如は意思決定に機械学習モデルを採用する際の主要な問題の 1 つです。たとえば、サイバーセキュリティ ソリューションでは、過去のサイバー攻撃や脅威に関するアルゴリズムをトレーニングするために、複数のソース (ネットワーク、クラウド、エンドポイントなど) からのデータを単一のビューに正規化する必要があります。

大規模なデータを理解する

データ品質が低下する可能性があるいくつかの重要な領域について説明したので、TensorFlow を使用して大規模なデータを理解する方法を見てみましょう。

  1. TFDV を使用して統計分析を実行し、データの統計分布 (平均、最小値 (min)、最大値 (max)、標準偏差など) を表示します。
  2. 特性、値、データ型などのデータ スキーマを理解することが重要です。
  3. データの分布を理解したら、異常な動作を追跡することも重要です。 TFDV はドメイン外の値を強調表示し、エラーの検出をガイドします。
  4. トレーニング データとテスト データの分布を重ね合わせることで、トレーニング データとテスト データ間のドリフトを表示します。

TensorFlow のドキュメントでは、TFDV を使用してデータを分析し、その品質を向上させる方法が説明されています。興味がある場合は、コラボレーション プラットフォーム Colab の TFDV コードをデータセットで使用してみてください。

Google はこの Colab プラットフォームでコードの一部を共有しました。このコードは、次のようにタクシーの数値データとカテゴリ データの統計分析を実行します。

右側に表示される欠損値の割合は、データをよりよく理解するのに役立ちます。

pickup_census_tract は、ML モデルにとって意味がなく、EDA アルゴリズムを使用してフィルタリングできる、完全に欠損した値を持つレコードを表します。

データ ドリフトは、モデルのデプロイ時に避けられない現象です。トレーニング データとテスト データの間で発生する場合もあれば、トレーニング データから数日後に発生する場合もあります。

ML アルゴリズムは、トレーニング データとテスト データの特性が類似しているという仮定の下で実行され、この仮定に違反するとモデルのパフォーマンスが低下します。

参考文献

Tensorflow データ検証を始める

翻訳者紹介

Zhang Yi、51CTO コミュニティ エディター、中級エンジニア。主な研究は、人工知能アルゴリズムの実装とそのシナリオアプリケーションです。機械学習アルゴリズムと自動制御アルゴリズムについてある程度理解し、習得しています。国内外の人工知能技術の発展動向、特にインテリジェントコネクテッドカー、スマートホームなどの分野における人工知能技術の具体的な実装と応用に引き続き注目していきます。

原題:機械学習モデルを成功に導くデータ品質の重要性、著者: Vidhi Chugh


<<:  コンピュータマスターのジレンマ!試験に合格するのは難しく、仕事を見つけるのも難しい

>>:  2021 年の Python 機械学習ライブラリ トップ 10

ブログ    
ブログ    

推薦する

ビジネスに大きな影響を与える 5 つの AI テクノロジー

企業は、画像認識、音声認識、チャットボット、自然言語生成、感情分析がビジネスの運営方法にどのような変...

MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

大きな言語モデルの中には世界モデルがあるのでしょうか? LLM には空間感覚がありますか?そして、こ...

AI顧客サービス指標について話す

インテリジェントな顧客サービスの評価基準は何かというビジネス上の問い合わせを頻繁に受けます。これは答...

あなたのリモート従業員は本当に彼自身でしょうか? FBI、ディープフェイクを悪用する求職者を明らかに

ディープフェイクの世界では、真実と虚偽を区別することが難しい場合があります。 AIアルゴリズム「ディ...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...

クラウド AI とエッジ AI: 2022 年にはどちらがより良い選択でしょうか?

エッジ AI とクラウド AI は、現在企業が使用している最も重要なテクノロジーの一部であることがわ...

...

マイクロソフトの世界最大の人工知能とモノのインターネットの研究所は上海にあり、30の企業が拠点を置いている。

5月15日、マイクロソフトの人工知能およびIoT研究所が上海張江で正式に業務を開始し、第一陣として国...

産業用ロボットアプリケーション業界の概要

現在の技術の進歩と産業の発展に伴い、産業用ロボットの応用分野も急速に拡大しています。企業は、労働コス...

...

初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。

[[406364]]ヨーロッパの複数の大学の研究者チームが論文の中で、初期の携帯電話で使用されてい...

無料ですか?寄生? ChatGPTに夢中です!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてくださいマット・アセイ編纂者:Qia...

...

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...