モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く表現されるエラーです。偏ったデータセットはモデルの使用事例を正確に表さないため、結果が歪んだり、精度が低下したり、分析エラーが発生したりします。

通常、機械学習プロジェクトのトレーニング データは現実世界を代表するものでなければなりません。このデータはコンピューターが仕事のやり方を学習するための手段であるため、重要です。データのバイアスは、人間の報告や選択のバイアスからアルゴリズムや解釈のバイアスまで、さまざまな領域で発生する可能性があります。下の図は、データ収集と注釈付けの段階でのみ発生するバイアスの種類の良い例です。

機械学習プロジェクトでデータのバイアスに対処するには、まずデータのバイアスがどこに存在するかを特定する必要があります。偏りがどこに存在するかがわかって初めて、欠落データの問題に対処するか、注釈付けプロセスを改善するかなど、偏りを修正するために必要な手順を実行できるようになります。これを踏まえると、偏りをできるだけ避けるために、データの範囲、品質、処理に注意を払うことが重要です。これはモデルの精度に影響するだけでなく、倫理、公平性、包括性の問題にも影響を与える可能性があります。

この記事では、機械学習における最も一般的な 7 種類のデータ バイアスをリストし、バイアスが発生する場所とそれに対する対処方法を分析して理解できるようにします。

データバイアスの種類

このリストには、すべての種類のデータ バイアスが網羅されているわけではありませんが、一般的なデータ バイアスの例と、それが発生する場所が含まれています。

例のバイアス: 例のバイアスは、データセットがモデルが動作する環境の現実を反映していない場合に発生します。たとえば、一部の顔認識システムは主に白人男性を対象にトレーニングされているため、女性や異なる民族の人々に対するパターンの精度ははるかに低くなります。このバイアスの別名は選択バイアスです。

除外バイアス: 除外バイアスは、データの前処理段階で最もよく発生します。最も一般的なシナリオは、重要ではないと判断された貴重なデータを削除することです。さらに、特定の情報を除外すると、システムに偏りが生じる可能性があります。たとえば、北京と深センの顧客販売データセットがあるとします。当社の顧客の 98% は北京在住であるため、位置データは無関係として削除することにしました。しかし、これは、私たちのモデルが深センの顧客数が 3 倍になったことを検出できないことを意味します。

測定バイアス: このタイプのバイアスは、トレーニング用に収集されたデータが現実世界で収集されたデータと異なる場合、または測定エラーによってデータが歪む場合に発生します。このバイアスの良い例は、トレーニング データが 1 種類のカメラで取得され、実稼働データが別の種類のカメラで取得される画像認識データセットで発生します。一貫性のない注釈が原因で、プロジェクトのデータラベル付けフェーズで測定バイアスが発生する可能性もあります。

リコールバイアス: これも測定バイアスの一種であり、プロジェクトのデータラベル付けフェーズでよく見られます。リコールバイアスは、同じ種類のデータに一貫性のないラベルを付ける場合に発生し、精度が低下します。たとえば、チームが携帯電話の画像に「破損あり」、「一部破損あり」、「破損なし」のラベルを付けるとします。ある画像に破損のラベルを付け、類似の画像に部分的に破損のラベルを付けると、データに矛盾が生じます。

観察者バイアス: 確証バイアスとも呼ばれる観察者バイアスは、データに期待するものを見ることを指します。これは、研究者が研究についての主観的な考え(意識的か無意識的かにかかわらず)を持ってプロジェクトに参加する場合に発生する可能性があります。ラベラーが主観的な意見に基づいてラベリングの習慣を決めると、不正確なデータが生成されます。

人種的偏見: 従来の意味でのデータ偏見ではありませんが、この偏見は AI テクノロジーで最近人気が高まっているため、言及する価値があります。人種的偏見は、データが特定の人口統計に偏っている場合に発生します。顔認識や自動音声認識技術でもこのことが見られましたが、これらの技術では白人ほど正確に有色人種を識別できません。

関連付けバイアス: このバイアスは、機械学習モデルに文化的バイアスを強化または増幅するデータが入力されたときに発生します。データセットには、男性全員が医師で女性全員が看護師である職業セットが含まれている可能性があります。これは、女性が医者になれない、あるいは男性が看護師になれないという意味ではありません。しかし、機械学習モデルに関する限り、女性医師や男性看護師は存在しません。関連性バイアスは、マイニング AI 研究で見られるジェンダーバイアスを生み出すことで最もよく知られています。

機械学習プロジェクトでデータの偏りを回避するにはどうすればよいでしょうか?

機械学習プロジェクトにおけるデータの偏りを防ぐことは継続的なプロセスです。データやモデルに偏りがあるかどうかを知るのは難しい場合もありますが、偏りを防止したり早期に検出したりするために実行できる手順は数多くあります。機械学習プロジェクトでデータのバイアスに対処するための一般的な方法は次のとおりです。

  • 事前にユーザーを調査するためにあらゆる努力をします。一般的な使用例と潜在的な外れ値に注意してください。
  • データ サイエンティストとデータ ラベリング チームの多様性を確保します。
  • 可能な場合は、複数のソースからの入力を組み合わせて、データの多様性を確保します。
  • データラベリングのゴールドスタンダードを作成します。ゴールド スタンダードは、タスクの理想的なラベル付きデータを反映するデータのセットであり、これにより、チームの注釈の精度を測定できます。
  • すべてのデータ ラベラーの期待が一致するように、データ ラベリングの期待に関する明確なガイドラインを確立します。
  • データの精度に偏差が生じやすいすべてのプロジェクトでは、必ずマルチチャネル注釈を使用してください。例としては、感情分析、コンテンツ モデレーション、意図の識別などが挙げられます。
  • ドメインの専門知識を持つ人の支援を得て、収集および/または注釈付けしたデータを確認します。チーム外の人の方が、チームが見落としていた逸脱に気づく可能性が高くなります。
  • データを定期的に分析します。バグや問題領域は追跡されるため、迅速に対応して解決できます。データ ポイントを削除するか保持するかを決定する前に、データ ポイントを慎重に分析してください。
  • 逸脱テストを開発サイクルの一部にします。 Google、IBM、Microsoft はいずれも、さまざまなデータ タイプに対するバイアスの分析に役立つツールとガイダンスをリリースしています。

要約する

あらゆるデータ プロジェクトにおいて、機械学習の潜在的なバイアスを認識することが非常に重要です。適切なシステムを早期に導入し、データの収集、ラベル付け、フルフィルメントを管理することで、問題が発生する前、または発生したときに対応し、コストを削減し、モデルの精度を向上させることができます。

<<:  機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

>>:  機械学習に必要な5つのスキル

ブログ    

推薦する

...

...

PyTorch のデータセット Torchvision と Torchtext

[[421061]] PyTorch がさまざまな種類のデータを読み込んで処理できるように、公式で...

デアデビルが来た!バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...

AIの「冬」にご用心

1950 年代のコンピューティング ブームにより、「人工知能」という用語が誕生しました (1956 ...

T1000が実現:我が国は液体金属駆動ロボットを開発中

[[247070]]液体ロボットといえば、誰もが真っ先に思い浮かべるのは映画「ターミネーター」のT1...

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

人間のニューラルネットワーク(脳)と人工ニューラルネットワーク(ANN)の関係は何ですか?ある先生が...

...

2025年までにロボットが8000万人の労働者に取って代わるのでしょうか?職を失った人はどうすればいいのでしょうか?

同紙によると、世界経済フォーラムがロボット革命に関する報告書を発表し、世界的な警戒を呼び起こした。同...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

ズークス、従業員がテスラの企業秘密を盗んだことを認める

[[322566]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

ビッグデータ処理における人工知能の活用方法

人工知能はビッグデータを処理するための最も理想的かつ効果的な方法です。私たちの世界はビッグデータに浸...

「機械学習アーキテクチャ」 現実世界の機械学習システムのアーキテクチャ

機械学習では、ML モデルの作成とパッケージ化を支援する ML 開発プラットフォームの概要を説明しま...

知能ロボットは人間との交流を終わらせるのでしょうか?

[[187072]]人間同士の交流はどうなったのでしょうか? 最新のテクノロジーの流行を真剣に受け...