機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く表現されるエラーです。偏ったデータセットはモデルの使用事例を正確に表さないため、結果が歪んだり、精度が低下したり、分析エラーが発生したりします。 通常、機械学習プロジェクトのトレーニング データは現実世界を代表するものでなければなりません。このデータはコンピューターが仕事のやり方を学習するための手段であるため、重要です。データのバイアスは、人間の報告や選択のバイアスからアルゴリズムや解釈のバイアスまで、さまざまな領域で発生する可能性があります。下の図は、データ収集と注釈付けの段階でのみ発生するバイアスの種類の良い例です。 機械学習プロジェクトでデータのバイアスに対処するには、まずデータのバイアスがどこに存在するかを特定する必要があります。偏りがどこに存在するかがわかって初めて、欠落データの問題に対処するか、注釈付けプロセスを改善するかなど、偏りを修正するために必要な手順を実行できるようになります。これを踏まえると、偏りをできるだけ避けるために、データの範囲、品質、処理に注意を払うことが重要です。これはモデルの精度に影響するだけでなく、倫理、公平性、包括性の問題にも影響を与える可能性があります。 この記事では、機械学習における最も一般的な 7 種類のデータ バイアスをリストし、バイアスが発生する場所とそれに対する対処方法を分析して理解できるようにします。 データバイアスの種類 このリストには、すべての種類のデータ バイアスが網羅されているわけではありませんが、一般的なデータ バイアスの例と、それが発生する場所が含まれています。 例のバイアス: 例のバイアスは、データセットがモデルが動作する環境の現実を反映していない場合に発生します。たとえば、一部の顔認識システムは主に白人男性を対象にトレーニングされているため、女性や異なる民族の人々に対するパターンの精度ははるかに低くなります。このバイアスの別名は選択バイアスです。 除外バイアス: 除外バイアスは、データの前処理段階で最もよく発生します。最も一般的なシナリオは、重要ではないと判断された貴重なデータを削除することです。さらに、特定の情報を除外すると、システムに偏りが生じる可能性があります。たとえば、北京と深センの顧客販売データセットがあるとします。当社の顧客の 98% は北京在住であるため、位置データは無関係として削除することにしました。しかし、これは、私たちのモデルが深センの顧客数が 3 倍になったことを検出できないことを意味します。 測定バイアス: このタイプのバイアスは、トレーニング用に収集されたデータが現実世界で収集されたデータと異なる場合、または測定エラーによってデータが歪む場合に発生します。このバイアスの良い例は、トレーニング データが 1 種類のカメラで取得され、実稼働データが別の種類のカメラで取得される画像認識データセットで発生します。一貫性のない注釈が原因で、プロジェクトのデータラベル付けフェーズで測定バイアスが発生する可能性もあります。 リコールバイアス: これも測定バイアスの一種であり、プロジェクトのデータラベル付けフェーズでよく見られます。リコールバイアスは、同じ種類のデータに一貫性のないラベルを付ける場合に発生し、精度が低下します。たとえば、チームが携帯電話の画像に「破損あり」、「一部破損あり」、「破損なし」のラベルを付けるとします。ある画像に破損のラベルを付け、類似の画像に部分的に破損のラベルを付けると、データに矛盾が生じます。 観察者バイアス: 確証バイアスとも呼ばれる観察者バイアスは、データに期待するものを見ることを指します。これは、研究者が研究についての主観的な考え(意識的か無意識的かにかかわらず)を持ってプロジェクトに参加する場合に発生する可能性があります。ラベラーが主観的な意見に基づいてラベリングの習慣を決めると、不正確なデータが生成されます。 人種的偏見: 従来の意味でのデータ偏見ではありませんが、この偏見は AI テクノロジーで最近人気が高まっているため、言及する価値があります。人種的偏見は、データが特定の人口統計に偏っている場合に発生します。顔認識や自動音声認識技術でもこのことが見られましたが、これらの技術では白人ほど正確に有色人種を識別できません。 関連付けバイアス: このバイアスは、機械学習モデルに文化的バイアスを強化または増幅するデータが入力されたときに発生します。データセットには、男性全員が医師で女性全員が看護師である職業セットが含まれている可能性があります。これは、女性が医者になれない、あるいは男性が看護師になれないという意味ではありません。しかし、機械学習モデルに関する限り、女性医師や男性看護師は存在しません。関連性バイアスは、マイニング AI 研究で見られるジェンダーバイアスを生み出すことで最もよく知られています。 機械学習プロジェクトでデータの偏りを回避するにはどうすればよいでしょうか? 機械学習プロジェクトにおけるデータの偏りを防ぐことは継続的なプロセスです。データやモデルに偏りがあるかどうかを知るのは難しい場合もありますが、偏りを防止したり早期に検出したりするために実行できる手順は数多くあります。機械学習プロジェクトでデータのバイアスに対処するための一般的な方法は次のとおりです。
要約する あらゆるデータ プロジェクトにおいて、機械学習の潜在的なバイアスを認識することが非常に重要です。適切なシステムを早期に導入し、データの収集、ラベル付け、フルフィルメントを管理することで、問題が発生する前、または発生したときに対応し、コストを削減し、モデルの精度を向上させることができます。 |
<<: 機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?
[[421061]] PyTorch がさまざまな種類のデータを読み込んで処理できるように、公式で...
英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...
1950 年代のコンピューティング ブームにより、「人工知能」という用語が誕生しました (1956 ...
[[247070]]液体ロボットといえば、誰もが真っ先に思い浮かべるのは映画「ターミネーター」のT1...
人間のニューラルネットワーク(脳)と人工ニューラルネットワーク(ANN)の関係は何ですか?ある先生が...
同紙によると、世界経済フォーラムがロボット革命に関する報告書を発表し、世界的な警戒を呼び起こした。同...
消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...
[[322566]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
人工知能はビッグデータを処理するための最も理想的かつ効果的な方法です。私たちの世界はビッグデータに浸...
機械学習では、ML モデルの作成とパッケージ化を支援する ML 開発プラットフォームの概要を説明しま...
[[187072]]人間同士の交流はどうなったのでしょうか? 最新のテクノロジーの流行を真剣に受け...
具現化された知能は、ビッグモデルの将来の応用にとって重要な方向性です。現在、大規模なモデルでサポート...