知っておくべき6つのAIバイアス

知っておくべき6つのAIバイアス

[[441742]]

子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学びます。子どもが世界を理解する方法、子どもが形成する意見、そして最終的に下す決断はすべて、子どもが育った環境によって影響を受けます。たとえば、性差別的なコミュニティで生活し、育った子どもは、異なる性別に対する見方に偏見があることに気付かないかもしれません。

機械学習モデルでも同様です。彼らは感覚を使って知覚するのではなく、人間が提供するデータを使って学習します。このため、機械学習モデルのトレーニングに使用するデータは、可能な限り偏りのないものにすることが重要です。以下では、機械学習における最も一般的なバイアスのいくつかについて説明します。

(1)歴史的偏見

機械学習アルゴリズムをトレーニングするためのデータを収集する場合、多くの場合、履歴データを取得するのが最も簡単な開始点となります。ただし、注意しないと、履歴データに存在するバイアスが簡単に含まれてしまいます。

Amazonを例に挙げてみましょう。同社は2014年に求職者を自動的に審査するシステムの構築に着手した。アイデアは、システムに何百もの履歴書を入力し、最適な候補者を自動的に選び出すことです。このシステムは、同社の過去 10 年間の求人応募と入学結果に基づいてトレーニングされました。では、何が問題なのでしょうか? それは、Amazon の従業員 (特に技術職) の大半が男性だからです。 AIアルゴリズムは、アマゾンには女性従業員よりも男性従業員の方が多いため、男性の方が適した候補者であると学習し、そのため女性の求職者を差別した。 2015年までに、偏見によりプロジェクトは中止されなければなりませんでした。

(2)サンプルバイアス

サンプル バイアスは、トレーニング データがモデルの実際の使用方法を正確に反映していない場合に発生します。多くの場合、1 つのグループが過剰に代表されたり、過少に代表されたりします。

たとえば、音声からテキストへの変換をトレーニングする米国のプロジェクトでは、大量のオーディオ クリップとそれに対応する文字起こしが必要でした。オーディオブックは大量のデータを取得することになりますが、このアプローチの問題点は何でしょうか?

オーディオブックの大半は、高学歴の白人男性によってナレーションされていることが判明しました。当然のことながら、このアプローチを使用してトレーニングされた音声認識ソフトウェアは、ユーザーが異なる社会経済的背景や人種的背景を持つ場合、パフォーマンスが低下しました。

(3)ラベリングバイアス

機械学習アルゴリズムをトレーニングするために必要な膨大な量のデータは、有用であるためにはラベル付けされる必要があります。ユーザーが Web サイトにログオンする場合、多くの場合は自分でログオンします。たとえば、信号機がある四角形を識別するように要求するとします。実際には、視覚認識モデルのトレーニングに役立つように、その画像のラベルのセットを確認していることになります。ただし、データにラベルを付ける方法は多種多様であり、ラベル付けに一貫性がないとシステムに偏りが生じる可能性があります。

(4)集計バイアス

データを集約して簡素化したり、特定の方法で提示したりすることがあります。これにより、モデルが作成される前と後の両方でバイアスが生じる可能性があります。たとえば、次のグラフ:

働く時間が長くなるにつれて、人々の給料がどれだけ増加するかを示しています。非常に強い相関関係があり、長く働けば働くほど、より多くの給料を受け取ることができます。次の画像は、この集計を作成するために使用されたデータの概要を示しています。

(5)確証バイアス

簡単に言えば、確証バイアスとは、人々が自分の既存の信念を裏付ける情報を信じたり、自分の既存の信念に合わない情報を捨てたりする傾向のことです。理論的には、データとモデリングの両方において偏りのない、これまでに作成された中で最も正確な機械学習システムを構築することが可能です。

確証バイアスは、何らかのアクションを起こす前に人間によるレビューが必要となる機械学習アプリケーションで特に多く見られます。医療業界での AI の使用により、医師がアルゴリズムによる診断を自分の経験や理解と一致しないという理由で却下するケースがすでに発生しています。多くの場合、多くの医師は最新の研究文献を読んでおらず、そこには自分の知識や経験とは異なる症状、技術、または診断結果が記載されている可能性があります。実際には、医師が読むジャーナルの数は限られていますが、機械学習システムはそれらすべてをインデックス化することができます。

(6)評価バイアス

あるチームが、米国選挙の投票率を予測するための機械学習モデルを構築しており、年齢、職業、収入、政党所属などのさまざまな特徴を取り入れることで、誰かが投票するかどうかを正確に予測できると期待しているとします。そこで私たちはモデルを構築し、地方選挙キャンペーンを通じてそれをテストし、その結果に非常に満足しました。誰かが投票するかどうかを 95% の確率で正確に予測できるようです。

チームは、このモデルが米国の選挙運動に適用されたことに非常に失望した。設計とテストに長い時間がかかったモデルは、55% しか正しくなく、ランダムな推測よりもわずかに優れているだけだったからです。その結果が悪かったのは評価バイアスの一例です。地方選挙運動を通じてモデルを評価することで、意図せずしてその地域にしか機能しないシステムを設計してしまった。また、米国の他の地域の投票パターンはまったく異なり、初期のトレーニングデータに含まれていたとしても、完全には考慮されていませんでした。

結論は

これらは、バイアスが機械学習に影響を与える 6 つの異なる方法です。これは網羅的なリストではありませんが、機械学習システムが偏りを生じてしまう最も一般的な方法について、よく理解できるはずです。

<<:  データ構造とアルゴリズム: 文字列の分割とバランス

>>:  データ構造とアルゴリズムの比較 バックスペースを含む文字列!

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

河南省鄭州市:自動運転オンライン配車サービス車両が一般公開

[[408894]]河南省鄭州市では7月1日、鄭東新区で自動運転バスと自動運転乗用車が運用開始され、...

Nature サブ出版物: 訓練されていないニューラルネットワークでも顔検出が可能

Nature Communications に最近発表された新しい研究によると、高度な視覚認知機能は...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...

企業に利益をもたらす 5 つの AI トレンド

市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく意思決定を行うために...

Canvasの画像認識技術とインテリジェントデザインについて考える

[[403856]]著者は最近、フロントエンドの視覚化と構築の技術を研究しています。最近、設計図に基...

多くのビッグデータサイエンティストが仕事を辞めた?理由を説明しましょう。

はい、私はデータ サイエンティストです。はい、あなたはそれを正しく読みました。しかし、誰かがそれを言...

...

AI が「長すぎて読めない」問題の解決を支援: 深層要約モデルの構築方法

過去数十年にわたり、私たちは情報に関する一連の根本的な変化と課題を経験してきました。今日、情報へのア...

ソファがリモコンに変身、PCBが落書きに隠れる、MITの技術オタクのスマートホームはこんな感じ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI音声アシスタントと仮想IP画像の組み合わせは、ブランドマーケティングの新たな名刺になるかもしれない

最近、世界インターネット会議で「世界インターネット発展報告書2020」が発表されました。報告書では、...

...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

畳み込みニューラルネットワークによる画像認識の仕組み

[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...

...