モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く表現されるエラーです。偏ったデータセットはモデルの使用事例を正確に表さないため、結果が歪んだり、精度が低下したり、分析エラーが発生したりします。

通常、機械学習プロジェクトのトレーニング データは現実世界を代表するものでなければなりません。このデータはコンピューターが仕事のやり方を学習するための手段であるため、重要です。データのバイアスは、人間の報告や選択のバイアスからアルゴリズムや解釈のバイアスまで、さまざまな領域で発生する可能性があります。下の図は、データ収集と注釈付けの段階でのみ発生するバイアスの種類の良い例です。

機械学習プロジェクトでデータのバイアスに対処するには、まずデータのバイアスがどこに存在するかを特定する必要があります。偏りがどこに存在するかがわかって初めて、欠落データの問題に対処するか、注釈付けプロセスを改善するかなど、偏りを修正するために必要な手順を実行できるようになります。これを踏まえると、偏りをできるだけ避けるために、データの範囲、品質、処理に注意を払うことが重要です。これはモデルの精度に影響するだけでなく、倫理、公平性、包括性の問題にも影響を与える可能性があります。

この記事では、機械学習における最も一般的な 7 種類のデータ バイアスをリストし、バイアスが発生する場所とそれに対する対処方法を分析して理解できるようにします。

データバイアスの種類

このリストには、すべての種類のデータ バイアスが網羅されているわけではありませんが、一般的なデータ バイアスの例と、それが発生する場所が含まれています。

例のバイアス: 例のバイアスは、データセットがモデルが動作する環境の現実を反映していない場合に発生します。たとえば、一部の顔認識システムは主に白人男性を対象にトレーニングされているため、女性や異なる民族の人々に対するパターンの精度ははるかに低くなります。このバイアスの別名は選択バイアスです。

除外バイアス: 除外バイアスは、データの前処理段階で最もよく発生します。最も一般的なシナリオは、重要ではないと判断された貴重なデータを削除することです。さらに、特定の情報を除外すると、システムに偏りが生じる可能性があります。たとえば、北京と深センの顧客販売データセットがあるとします。当社の顧客の 98% は北京在住であるため、位置データは無関係として削除することにしました。しかし、これは、私たちのモデルが深センの顧客数が 3 倍になったことを検出できないことを意味します。

測定バイアス: このタイプのバイアスは、トレーニング用に収集されたデータが現実世界で収集されたデータと異なる場合、または測定エラーによってデータが歪む場合に発生します。このバイアスの良い例は、トレーニング データが 1 種類のカメラで取得され、実稼働データが別の種類のカメラで取得される画像認識データセットで発生します。一貫性のない注釈が原因で、プロジェクトのデータラベル付けフェーズで測定バイアスが発生する可能性もあります。

リコールバイアス: これも測定バイアスの一種であり、プロジェクトのデータラベル付けフェーズでよく見られます。リコールバイアスは、同じ種類のデータに一貫性のないラベルを付ける場合に発生し、精度が低下します。たとえば、チームが携帯電話の画像に「破損あり」、「一部破損あり」、「破損なし」のラベルを付けるとします。ある画像に破損のラベルを付け、類似の画像に部分的に破損のラベルを付けると、データに矛盾が生じます。

観察者バイアス: 確証バイアスとも呼ばれる観察者バイアスは、データに期待するものを見ることを指します。これは、研究者が研究についての主観的な考え(意識的か無意識的かにかかわらず)を持ってプロジェクトに参加する場合に発生する可能性があります。ラベラーが主観的な意見に基づいてラベリングの習慣を決めると、不正確なデータが生成されます。

人種的偏見: 従来の意味でのデータ偏見ではありませんが、この偏見は AI テクノロジーで最近人気が高まっているため、言及する価値があります。人種的偏見は、データが特定の人口統計に偏っている場合に発生します。顔認識や自動音声認識技術でもこのことが見られましたが、これらの技術では白人ほど正確に有色人種を識別できません。

関連付けバイアス: このバイアスは、機械学習モデルに文化的バイアスを強化または増幅するデータが入力されたときに発生します。データセットには、男性全員が医師で女性全員が看護師である職業セットが含まれている可能性があります。これは、女性が医者になれない、あるいは男性が看護師になれないという意味ではありません。しかし、機械学習モデルに関する限り、女性医師や男性看護師は存在しません。関連性バイアスは、マイニング AI 研究で見られるジェンダーバイアスを生み出すことで最もよく知られています。

機械学習プロジェクトでデータの偏りを回避するにはどうすればよいでしょうか?

機械学習プロジェクトにおけるデータの偏りを防ぐことは継続的なプロセスです。データやモデルに偏りがあるかどうかを知るのは難しい場合もありますが、偏りを防止したり早期に検出したりするために実行できる手順は数多くあります。機械学習プロジェクトでデータのバイアスに対処するための一般的な方法は次のとおりです。

  • 事前にユーザーを調査するためにあらゆる努力をします。一般的な使用例と潜在的な外れ値に注意してください。
  • データ サイエンティストとデータ ラベリング チームの多様性を確保します。
  • 可能な場合は、複数のソースからの入力を組み合わせて、データの多様性を確保します。
  • データラベリングのゴールドスタンダードを作成します。ゴールド スタンダードは、タスクの理想的なラベル付きデータを反映するデータのセットであり、これにより、チームの注釈の精度を測定できます。
  • すべてのデータ ラベラーの期待が一致するように、データ ラベリングの期待に関する明確なガイドラインを確立します。
  • データの精度に偏差が生じやすいすべてのプロジェクトでは、必ずマルチチャネル注釈を使用してください。例としては、感情分析、コンテンツ モデレーション、意図の識別などが挙げられます。
  • ドメインの専門知識を持つ人の支援を得て、収集および/または注釈付けしたデータを確認します。チーム外の人の方が、チームが見落としていた逸脱に気づく可能性が高くなります。
  • データを定期的に分析します。バグや問題領域は追跡されるため、迅速に対応して解決できます。データ ポイントを削除するか保持するかを決定する前に、データ ポイントを慎重に分析してください。
  • 逸脱テストを開発サイクルの一部にします。 Google、IBM、Microsoft はいずれも、さまざまなデータ タイプに対するバイアスの分析に役立つツールとガイダンスをリリースしています。

要約する

あらゆるデータ プロジェクトにおいて、機械学習の潜在的なバイアスを認識することが非常に重要です。適切なシステムを早期に導入し、データの収集、ラベル付け、フルフィルメントを管理することで、問題が発生する前、または発生したときに対応し、コストを削減し、モデルの精度を向上させることができます。

<<:  機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

>>:  機械学習に必要な5つのスキル

ブログ    
ブログ    
ブログ    

推薦する

...

IBM と NASA が衛星データを分析するためのオープンソース AI モデルを開発

IBM は、NASA の衛星データに基づいて構築された watsonx.ai 地理空間インフラストラ...

人工知能、機械学習、アルゴリズムが施設・資産管理に与える影響

急速に進化する今日のテクノロジーの世界では、「人工知能」、「機械学習」、「アルゴリズム」などの用語が...

顔認識技術は議論を呼んでいる。人工知能はどのように制御されるべきか?

[[264511]]最近、米国の18歳の大学生が、アップルが顔認識ソフトウェアを使用して彼を強盗と...

米メディア:米国はAI戦争に備えるため同盟国を誘致

ワシントン(AP通信) — 米国とその同盟国は、国防総省の人工知能部門が立ち上げた新しいフォーラムを...

Gemini vs ChatGPT: Google の最新 AI と ChatGPT のどちらが優れているのでしょうか?

Google は、最新かつ最も強力な AI モデルである Gemini 1.0 を発表し、AI の...

ブロックチェーンが人工知能に力を与える方法

現在、データはデジタル環境に残っており、共有する動機はほとんどありません。これにより、Google、...

韓国の常温超伝導チームは重要な技術を隠蔽したのか?アニーリングの詳細がネットユーザーによって暴露され、6つの中国チームが攻撃を開始

昨今、室温超伝導を再現する実験が注目を集めています。 3日間の期限が過ぎ、多くの再現実験で結果が得ら...

脚付きロボットの新たなスキル:ANYmalは山登りを学んでいる

ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...

ロボットがIoTアプリケーションの範囲を拡大する方法

ロボットの学習能力と IoT アプリケーションの相互接続性は、実りある未来を約束します。モノのインタ...

安全なパスワード保存の業界標準: bcrypt アルゴリズム

パスワードを安全に保護するための標準アルゴリズムである bcrypt アルゴリズムについて説明します...

AIが死海文書の秘密を解読:筆写者は1人だけではなかった

海外メディアの報道によると、フローニンゲン大学の研究者らが新たな筆跡分析法を開発した。この手法は死海...

MITはディープラーニングが計算限界に近づいていると警告。ネットユーザー:減速は良いことだ

MIT の調査によると、ディープラーニングは計算能力の限界に近づいているようです。 [[334431...

人工知能の時代に教育はどのように適応すべきでしょうか?

これからの学びは、従来の学校中心の島型ではなく、新しいタイプの島型になります。家庭、インターネット、...