合成データ生成器はAIのバイアス問題を解決できるかもしれない

AI の偏見は、個人にさまざまな影響を及ぼす可能性がある深刻な問題です。

人工知能が進歩するにつれて、データサイエンスソリューションを取り巻く疑問や倫理的なジレンマが表面化し始めます。人間は意思決定プロセスから自らを排除しているため、これらのアルゴリズムによる判断が偏見や差別のないことを保証したいと考えています。人工知能は常に監視されなければなりません。 AI は大量のデータを処理する予測分析に基づくデジタルシステムであるため、この可能性のあるバイアスが AI によって引き起こされたとは言えません。問題は、システムに「入力」される監視されていないデータから始まります。

歴史を通じて、人類は偏見や差別を受けてきました。私たちの行動はすぐには変わらないようです。システムやアルゴリズムにも偏見が見つかっているが、人間とは異なり、それらのシステムやアルゴリズムはこの問題の影響を受けないようだ。

AIバイアスとは何ですか?

AI バイアスは、データの取得方法によって、関心グループを正しく表さないサンプルが生成された場合、データ関連の領域で発生します。これは、特定の人種、信条、肌の色、性別の人々がデータサンプル内で過小評価されていることを示唆しています。これにより、システムが差別的な結論を下す可能性があります。また、データサイエンスコンサルティングとは何か、その重要性についても疑問が生じます。

AI におけるバイアスとは、AI システムが意図的に特定の人々のグループを優遇するように作成されていることを意味するものではありません。 AI の目標は、個人が指示ではなく例を通じて自分の欲求を表現できるようにすることです。したがって、AI に偏りがあるとすれば、それはデータに偏りがあるためにしかあり得ません。AI による意思決定は現実世界で機能する理想的なプロセスであり、人間の欠陥を隠すことはできません。ガイド付き学習と組み合わせることも有益です。

なぜそうなるのでしょうか?

AI バイアスの問題は、データに、優れたアルゴリズムの結論を支持する先入観に基づく人間の選択が含まれる可能性があるために発生します。 AI における偏見の実際の例がいくつかあります。人種差別的な動機を持つ人々や有名なドラッグクイーンが、Google のヘイトスピーチ検出システムによって差別された。 10年間にわたり、アマゾンの人事アルゴリズムには主に男性従業員のデータが入力されており、その結果、女性候補者がアマゾンの職務に適格であると評価される可能性が高くなっていた。

MITのデータ科学者によると、顔認識アルゴリズムは少数民族、特に少数民族の女性の顔を分析する際に間違いを起こしやすいという。これは、トレーニング中にアルゴリズムに主に白人男性の顔が入力したためである可能性があります。

アマゾンのアルゴリズムは、米国のプライム会員1億1,200万人のデータと、同サイトを頻繁に利用し他の商品を頻繁に利用する数千万人の個人のデータに基づいてトレーニングされているため、同社は消費者の購買行動を予測できる。 Google の広告事業は、同社が毎日行う何十億ものインターネット検索と、市場に出回っている 25 億台の Android スマートフォンから得たデータを基にした予測アルゴリズムに基づいています。これらのインターネット大手は、大規模なデータ独占を確立しており、人工知能においてほぼ克服できないほどの優位性を持っています。

合成データは AI のバイアスに対処するのにどのように役立ちますか?

理想的な社会では、誰も偏見を持たず、肌の色、性別、宗教、性的指向に関係なく、誰もが平等な機会を持ちます。しかし、現実の世界では、特定の分野で大多数と異なる人々は仕事を見つけたり教育を受けたりすることが困難であり、多くの統計では彼らが過小評価される原因となっています。 AI システムの目的によっては、このような人々はスキルが低く、これらのデータセットに含まれる可能性が低く、良いスコアを得るのにあまり適していないという誤った推論につながる可能性があります。

一方、AI データは、偏りのない AI に向けた大きな一歩となる可能性があります。考慮すべきいくつかの概念を以下に示します。

実際のデータを見て、どこに偏差があるかを確認します。次に、現実世界のデータと観察可能なバイアスを使用して、合成データが生成されます。理想的な仮想データジェネレーターを作成したい場合は、偏ったデータを公平であると見なされるデータに変換しようとする公平性の定義を含める必要があります。

AI によって生成されたデータは、データセット内のバリエーションがほとんどないか不十分なギャップを埋め、偏りのないデータセットを形成する可能性があります。サンプルサイズが大きい場合でも、一部の個人が除外されたり、他の人に比べて代表性が低かったりする可能性があります。この問題は合成データを使用して解決する必要があります。

データマイニングは、偏りのないデータを生成するよりもコストがかかる場合があります。実際のデータ収集には、測定、インタビュー、大規模なサンプル、そしていずれにしても多大な労力が必要です。 AI によって生成されるデータは安価であり、データサイエンスと機械学習アルゴリズムの使用のみが必要です。

シンシアの創業者であるマイター社をはじめ、多くの営利目的の合成データ企業の幹部は、ここ数年で自社のサービスへの関心が高まっていることに気づいている。しかし、アルゴリズムが人生を変えるような決定を下すために広く使用されるようになると、顔認識、犯罪予測、医療の意思決定など、影響の大きい分野で人種差別、性差別、その他の有害な偏見を悪化させることが判明しました。研究者らは、アルゴリズムを訓練するためにアルゴリズムで生成されたデータを使用すると、多くの場合、AI システムが有害な偏見を永続させる可能性が高くなると述べています。

<<: 世界的なIT大手はAIを活用してデータセンターのエネルギー節約と排出量削減に取り組んでいる

>>: AIの未来: 汎用人工知能