説明可能なAI: 機械が自らを説明できるようにし、アルゴリズムによって生成されるバイアスを減らす

説明可能なAI: 機械が自らを説明できるようにし、アルゴリズムによって生成されるバイアスを減らす

2018 年 5 月 25 日、一般データ保護規則 (GDPR) が欧州連合全域で発効し、組織による個人データの取り扱い方法に抜本的な変更が求められました。 GDPR 規制の制限に違反した場合、関係する組織は最大 2,000 万ユーロまたは全世界の収益の 4% (いずれか高い方) の罰金を支払う必要があり、これはほとんどの違反を抑止する上で非常に重要です。

最近のケンブリッジ・アナリティカのスキャンダルを受けて、多くの人がGDPRがデータプライバシーの新たな世界標準の例となることを期待しています。現在、一部の業界リーダーは、Facebook に対し、EU 域外の国での事業に GDPR 基準を適用するよう求めている。

[[230112]]

しかし、プライバシーはデータ駆動型システムをめぐる議論の一側面に過ぎません。機械学習を利用したシステムの人気の高まりにより、社会に大きな影響を与え、定量化が難しい「偏見」など、関連する多くの問題が浮上しています。

私たちの生活における多くの重要な決定は、何らかのシステムによって行われますが、これらのシステムの多くは、それが人間であれ、機械であれ、あるいはその両方の組み合わせであれ、明らかに偏っています。意思決定における機械学習の役割が拡大することで、偏りの少ないシステムを構築する機会が生まれますが、問題を悪化させるリスクも伴います。

一般的に、コンピューターは人間よりも客観的かつ公平であると考えられています。しかし、ここ数年、多くの機械学習システムが偏った、あるいは差別的な結果を生み出しているという事実をめぐって多くの論争が巻き起こっています。 2016年、プロパブリカは、米国の裁判所が被告の再​​犯の可能性を測定するために使用する機械学習アルゴリズムは、システムに被告の人種に関するデータが提供されていないにもかかわらず、同様の背景を持つ白人の被告と比較すると、黒人の被告を「リスクが高い」と判断すると報じた。

少し前に、「モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?」というタイトルの記事が公開されました。 》では、汎用的なインテリジェント アクターを学習することの可能性と限界、そしてアルゴリズムの公平性に関する微妙かつ真に標準化された課題について詳しく説明しました。機械学習システムを使用する目的は、人間の偏見をさらに増幅することではなく、世界をより公平かつ効率的にすることです。

そのため、GDPR では、機械が下した「法的または同様に重要な」決定についてユーザーが説明を求めることを認めており、説明を受ける権利によって「アルゴリズムによる差別」の被害者が人権を主張できるようになり、そうした偏見の影響が緩和されることを期待している。

しかし、こうした種類の説明を生成すること、つまり説明可能な AI を作成することは複雑であり、システムが決定を説明する場合でも、「偏見と本当に戦っているのか、それとも単に隠しているだけなのかを判断することは不可能」であると批判する人もいます。

説明可能な AI と GDPR はテクノロジーをより公平にするでしょうか?そうでない場合、機械学習の使用が普及するにつれて、偏見を防ぐためにどのような代替手段がありますか?

機械学習におけるバイアス

偏見に関する議論は、「人種差別的なアルゴリズム」などのフレーズで単純化されがちですが、問題はアルゴリズムそのものではなく、データ研究チームが機械に入力するデータにあります。

たとえば、過去からデータを収集することはデータサイエンスプロジェクトの一般的な出発点ですが、「過去のデータは、将来に引き継ぎたくないような偏りがあることが多い」と、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンス学部の助教授であり、カリフォルニア大学バークレー校RISEラボの創設者でもあるジョーイ・ゴンザレス氏は述べています。

ある企業が求職者をスクリーニングするための機械学習モデルを構築し、過去に同様の職種の求職者をスクリーニングしたデータセットに基づいてそのモデルをトレーニングするとします。会社の人事部が、職場復帰を試みた元専業主婦を繰り返し拒否していた場合、トレーニングの結果、長期の雇用空白期間があるこれらの人々もモデルから除外される可能性があります。

さらに一歩進めば、モデルが女性の求職者を不当に拒否する可能性があり(専業主婦は女性である可能性が高い)、モデルがトレーニングされたデータセットでは性別が特徴ではなかったとしても、性別に偏った比率が生まれます。したがって、この分野で機械学習を使用すると、人間の偏見がさらに増幅されることになります。

[[230113]]

ここで説明可能な AI が登場します。オペレーターがアルゴリズムの「推論」をチェックできれば、アルゴリズムに重大な逸脱が生じる前に修正できる可能性があります。

機械に自ら説明させる

機械学習システムの動作は学習したデータによって決まるため、人間が作成した標準的なコンピュータ プログラムとは大きく異なる動作をします。機械学習システムの精度を測定することはできますが、そのようなシステムが実際に行う決定についての可視性は限られています。

(人間の脳と同様に、人間の脳の思考は特定の領域のニューロンの複雑な放電によって生成されますが、どのようなニューロン活動がどのような思考につながるかは正確にはわかりません。そのため、決定の正しさを検証したい場合、脳をスキャンするのではなく、関連データと過去の経験を通じて判断します。)

説明可能な AI では、機械学習アルゴリズムが自らの決定の正しさを証明できることが求められます。ワシントン大学の研究者らは2016年にLIMEと呼ばれる説明技術を開発し、Googleが構築した画像分類ニューラルネットワークであるInception Networkでテストした。

LIME は、画像分類の決定を行う際にニューラル ネットワーク内のどのニューロンが発火するかを考慮するのではなく、画像自体の説明を検索します。元の画像のさまざまな部分を暗くし、その結果生じた「乱れた」画像を Inception に送り返し、どの乱れがアルゴリズムを最も狂わせるかを確認します。

このようにして、LIME は、初期のネットワーク分類の決定を元の画像の特定の特徴に帰属させることができます。たとえば、カエル​​の画像の場合、顔の一部を消去すると、初期ネットワークが画像を認識しにくくなることが LIME によって判明しました。これは、初期の分類決定が主にカエルの顔に基づいていたことを示唆しています。

LIME のような特徴属性手法はアルゴリズムの決定を完全には説明せず、すべてのタイプの機械学習モデルでうまく機能するとは限りませんが、少なくとも画像分類に関しては正しい方向への一歩となります。

米国の顔認識システムは、白人に比べて黒人の顔認識精度がはるかに低いことが分かっています(アルゴリズムのトレーニングに使用された画像はほとんどが白人です)。これにより、監視カメラで黒人が誤認され逮捕される可能性が高まり、深刻な場合には誤判定が発生することもあります。こうしたアルゴリズムの決定と監視についてより適切な説明があれば、明らかにそのような望ましくない結果を回避するのに役立つでしょう。

他に何をする必要があるのでしょうか?

説明可能な AI とニューラル ネットワークの特徴の帰属は有望ですが、AI からバイアスを取り除くには、最終的にはデータという 1 つの要素に帰着します。

アルゴリズムのトレーニング データが開発者がサービスを提供したい対象集団を公平にカバーしていない場合、システムは偏りを持つ可能性が高くなります。トレーニング データが歴史的な不正を示唆している場合、アルゴリズムはそれらの問題を永続化したり、さらには増幅したりすることを学習します。

GDPR や同様の規制は、組織によるデータの使用方法に一定の制御を設けていますが、組織がすでに偏ったデータセットを使用することを防ぐことはできません。

アルゴリズムの開発は確かに偏見を克服するのに役立っていますが、最終的な責任は数学的構造、ソフトウェア、ハードウェアではなく、これらの意思決定システムの設計者と運用者にあります。彼らは、このデータを賢明かつ公正に収集、保存、使用する責任を負っています。

ある意味では、機械学習アルゴリズムの偏りを減らすには、人工知能の進歩だけでなく、人間の多様性に対する理解の進歩も必要です。

[[230114]]

公正で責任ある AI を開発するには、偏見が人間の生活にどのような影響を与えるか、また偏見が機械学習システムに影響を与えないようにするにはどうすればよいかについて洞察を提供できる社会学者、心理学者、人類学者、その他の専門家の協力が技術者には必要になります。

テクノロジーだけでは社会問題を解決することはできませんが、分野を超えたコラボレーションを通じて、研究者と開発者はより公平な社会に貢献する機械学習技術を生み出すことができます。

<<:  モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

>>:  アコーディオン: HBase の「呼吸」メモリ圧縮アルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

AIスタートアップで2年間働いて学んだ7つのこと

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

3D MRI および CT スキャンのディープラーニング モデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズ データを扱う場合、...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

...

3Dデモを使用してさまざまな最適化アルゴリズムを理解します。これはC++プログラマーにとって朗報です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

看護師の負担を軽減し、病院の効率化を実現します!医療物流ロボットが「新たな人気」に

[[399194]]ロボット産業は、我が国のインテリジェント製造業の発展における重要なリンクであり、...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

膨大な顔情報が収集されている: 315 Galaが顔認識の混乱を暴露

3月15日、毎年恒例のCCTV Finance 3.15 Galaが開催されています。序文から判断す...

2022 年に AI が組織のランサムウェア防御を強化する方法

ランサムウェアは個人や企業にとって深刻な脅威になりつつありますが、人工知能はそれを軽減するのに役立ち...

...

エッセンス共有サイトのランキングアルゴリズムのまとめ

ウェブサイトのランキングは、ウェブサイトの最適化を行うすべての人が最も気にしていることです。しかし、...