合成データ生成器はAIのバイアス問題を解決できるかもしれない

合成データ生成器はAIのバイアス問題を解決できるかもしれない

AI の偏見は、個人にさまざまな影響を及ぼす可能性がある深刻な問題です。

人工知能が進歩するにつれて、データ サイエンス ソリューションを取り巻く疑問や倫理的なジレンマが表面化し始めます。人間は意思決定プロセスから自らを排除しているため、これらのアルゴリズムによる判断が偏見や差別のないことを保証したいと考えています。人工知能は常に監視されなければなりません。 AI は大量のデータを処理する予測分析に基づくデジタル システムであるため、この可能性のあるバイアスが AI によって引き起こされたとは言えません。問題は、システムに「入力」される監視されていないデータから始まります。

歴史を通じて、人類は偏見や差別を受けてきました。私たちの行動はすぐには変わらないようです。システムやアルゴリズムにも偏見が見つかっているが、人間とは異なり、それらのシステムやアルゴリズムはこの問題の影響を受けないようだ。

AIバイアスとは何ですか?

AI バイアスは、データの取得方法によって、関心グループを正しく表さないサンプルが生成された場合、データ関連の領域で発生します。これは、特定の人種、信条、肌の色、性別の人々がデータ サンプル内で過小評価されていることを示唆しています。これにより、システムが差別的な結論を下す可能性があります。また、データ サイエンス コンサルティングとは何か、その重要性についても疑問が生じます。

AI におけるバイアスとは、AI システムが意図的に特定の人々のグループを優遇するように作成されていることを意味するものではありません。 AI の目標は、個人が指示ではなく例を通じて自分の欲求を表現できるようにすることです。したがって、AI に偏りがあるとすれば、それはデータに偏りがあるためにしかあり得ません。AI による意思決定は現実世界で機能する理想的なプロセスであり、人間の欠陥を隠すことはできません。ガイド付き学習と組み合わせることも有益です。

なぜそうなるのでしょうか?

AI バイアスの問題は、データに、優れたアルゴリズムの結論を支持する先入観に基づく人間の選択が含まれる可能性があるために発生します。 AI における偏見の実際の例がいくつかあります。人種差別的な動機を持つ人々や有名なドラッグクイーンが、Google のヘイトスピーチ検出システムによって差別された。 10年間にわたり、アマゾンの人事アルゴリズムには主に男性従業員のデータが入力されており、その結果、女性候補者がアマゾンの職務に適格であると評価される可能性が高くなっていた。

MITのデータ科学者によると、顔認識アルゴリズムは少数民族、特に少数民族の女性の顔を分析する際に間違いを起こしやすいという。これは、トレーニング中にアルゴリズムに主に白人男性の顔が入力したためである可能性があります。

アマゾンのアルゴリズムは、米国のプライム会員1億1,200万人のデータと、同サイトを頻繁に利用し他の商品を頻繁に利用する数千万人の個人のデータに基づいてトレーニングされているため、同社は消費者の購買行動を予測できる。 Google の広告事業は、同社が毎日行う何十億ものインターネット検索と、市場に出回っている 25 億台の Android スマートフォンから得たデータを基にした予測アルゴリズムに基づいています。これらのインターネット大手は、大規模なデータ独占を確立しており、人工知能においてほぼ克服できないほどの優位性を持っています。

合成データは AI のバイアスに対処するのにどのように役立ちますか?

理想的な社会では、誰も偏見を持たず、肌の色、性別、宗教、性的指向に関係なく、誰もが平等な機会を持ちます。しかし、現実の世界では、特定の分野で大多数と異なる人々は仕事を見つけたり教育を受けたりすることが困難であり、多くの統計では彼らが過小評価される原因となっています。 AI システムの目的によっては、このような人々はスキルが低く、これらのデータセットに含まれる可能性が低く、良いスコアを得るのにあまり適していないという誤った推論につながる可能性があります。

一方、AI データは、偏りのない AI に向けた大きな一歩となる可能性があります。考慮すべきいくつかの概念を以下に示します。

実際のデータを見て、どこに偏差があるかを確認します。次に、現実世界のデータと観察可能なバイアスを使用して、合成データが生成されます。理想的な仮想データ ジェネレーターを作成したい場合は、偏ったデータを公平であると見なされるデータに変換しようとする公平性の定義を含める必要があります。

AI によって生成されたデータは、データセット内のバリエーションがほとんどないか不十分なギャップを埋め、偏りのないデータセットを形成する可能性があります。サンプルサイズが大きい場合でも、一部の個人が除外されたり、他の人に比べて代表性が低かったりする可能性があります。この問題は合成データを使用して解決する必要があります。

データマイニングは、偏りのないデータを生成するよりもコストがかかる場合があります。実際のデータ収集には、測定、インタビュー、大規模なサンプル、そしていずれにしても多大な労力が必要です。 AI によって生成されるデータは安価であり、データ サイエンスと機械学習アルゴリズムの使用のみが必要です。

シンシアの創業者であるマイター社をはじめ、多くの営利目的の合成データ企業の幹部は、ここ数年で自社のサービスへの関心が高まっていることに気づいている。しかし、アルゴリズムが人生を変えるような決定を下すために広く使用されるようになると、顔認識、犯罪予測、医療の意思決定など、影響の大きい分野で人種差別、性差別、その他の有害な偏見を悪化させることが判明しました。研究者らは、アルゴリズムを訓練するためにアルゴリズムで生成されたデータを使用すると、多くの場合、AI システムが有害な偏見を永続させる可能性が高くなると述べています。

<<:  世界的なIT大手はAIを活用してデータセンターのエネルギー節約と排出量削減に取り組んでいる

>>:  AIの未来: 汎用人工知能

推薦する

...

...

...

人工ニューラル ネットワークのドライバー: 活性化関数とは何ですか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

微分方程式と機械学習: 類似点と相違点の例

AI分野におけるモデリング手法として、微分方程式と機械学習がありますが、それぞれの利点は何でしょうか...

中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開

近年、拡散モデルに基づく画像生成モデルが次々と登場し、驚くべき生成効果を示しています。しかし、関連す...

エッジインテリジェンス: AIの次の波

人工知能と機械学習 (ML) の採用が増加するにつれて、計算目的でアルゴリズムの形で大量のデータを処...

このロボットは脳コンピューターインターフェース手術を行い、マスクのニューラリンクは大きな注目を集めている

近年、マスク氏の脳コンピューターインターフェース研究会社ニューラリンクが注目を集めている。 2019...

AR グラスは機械学習のキラーアプリか?

[[286412]] Facebook AI Researchの主任AI科学者であるヤン・ルカン氏...

C/C++アルゴリズム設計における任意のビット幅の使用

固定小数点アルゴリズムを開発する場合、設計機能、数値的に正確なモデリング、検証 (シミュレーション)...

「AIGC+」|新たなマーケティングパラダイム:AIGCは海外進出企業にとって「新たな武器」となり得るか?

わずか 1 年で、AIGC がもたらした業界を変革するアプリケーションは、徐々に人々の生活の隅々に浸...

AIに「擬人化技術」を使う?人工知能による認識への道は長く困難である

人工知能アルゴリズムやディープラーニングなどのさまざまな技術の徹底的な発展により、人工知能(AI)は...

ビッグモデルの「錯覚」、この記事を読んでください

ビッグモデルの「幻想」がついに体系的にレビューされました! 49 ページの記事では、幻覚の定義、分類...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

この記事は、著者が長年にわたり蓄積し収集してきた知識とスキルのマップです。編集者は、これを周囲の技術...