人工知能は人間の文化を継承するが、人間の偏見も受け継いでいる

テクノロジーは既存の人間文化の延長です。テクノロジーは人類の知恵を広げた一方で、人々の偏見や差別も受け継いでいます。

現在、第四次産業革命の代表的な技術である人工知能は、私たちの知っている世界を急速に変えつつあります。しかし同時に、現実の世界では、人間が作り出し、人間のデータから学習する人工知能は、採用における性差別や顔認識における人種の誤判断など、人間と同様の偏見を示すことが多い。

差別の発生は、社会における既存の性別固定観念や偏見を反映しているだけでなく、人工知能は、設計やマーケティングの意思決定プロセスにおいてこれらの偏見をさらに増幅させることになります。テクノロジーの力が増すにつれ、こうした差別の事例について考え、対処することがますます重要になってきます。

[[388646]]

AIの偏見は人間の意志の産物である

進化のランダムで混沌とした自然淘汰のプロセスとは異なり、人工知能は人間の意志の産物であり、特定の目的を達成するために形成されます。技術としての人工知能は客観的な構造を持っていますが、人間の目的のある合理的な活動にも役立ちます。言い換えれば、あらゆる人工知能アルゴリズムは誕生前に概念化されており、開発プロセス中には開発者の意志が伴わなければなりません。

しかし、開発者の観点から見ると、米国労働統計局のデータによると、女性は労働力の 59% を占めているものの、テクノロジー業界の従業員のうち女性が占める割合は 20 ～ 30% に過ぎないことが多いことが示されています。プログラム開発関連の仕事の中で、ウェブサイト開発は女性の割合が最も高い職業ですが、その割合は40％未満です。

2018 年現在、米国だけで 140 万のコンピューター関連の仕事があり、そのうち女性が就いているのはわずか 29% であると推定されています。人工知能の発展は、当然ながら業界における男女不均衡を継承しています。女性のサンプル参加が不十分なため、必然的に人工知能に関する知識にギャップが生じ、バイアスエラーが発生します。

AIが社会に与える影響を研究する研究機関AI Nowの調査によると、男性中心のAI業界と、そこで生み出される差別的なシステムや製品との間には明確なつながりがあることがわかっています。たとえば、機械学習の分野では、バイアスの原因には、不完全または偏ったトレーニングデータセット、トレーニングモデルに導入された人間のラベルとバイアス、アルゴリズムとテクノロジの欠陥などがあります。

トレーニングデータに特定の統計カテゴリが欠落している場合、人工知能によって学習されたモデルはこの特徴を正しく測定できません。トレーニングデータ内の男性の割合が低すぎる場合、このアルゴリズムモデルを男性に適用するとエラーが大きくなります。トレーニングデータ内の「医師」の写真のほとんどが女性の場合、「医師」の写真を検索すると、アルゴリズムによって女性が現れる確率が増幅されます。

したがって、テクノロジー従事者間の男女不均衡が偏ったトレーニングデータセットにさらに反映されると、性差別が発生します。 Amazon の Alexa や Apple の Siri などの一般的な AI システムの中核である自然言語処理 (NLP) には性別による偏りがあり、単語埋め込みにおける AI の性別による偏りは、単語連想ゲームのようなものです。とりわけ、これらのシステムでは通常、「男性」は「医師」に、「女性」は「看護師」に関連付けられます。これは、不完全で不十分なトレーニングサンプルの典型的な例でもあります。

トレーニングモデルに挿入される人間のラベルとバイアスから判断すると、市販の人工知能システムの大部分は教師あり機械学習を使用しているため、トレーニングデータは手動でラベル付けする必要があります。このプロセスでは、意図的か否かにかかわらず、人間の偏見がアルゴリズムモデルにエンコードされることは避けられません。ラベルを設定する際に人々が「太っているか痩せているか」を「美しさ」と関連付けると、アルゴリズムは自然にこのバイアスを継承します。

同時に、こうした偏見はアルゴリズムやテクノロジーの欠陥によってさらに隠蔽されます。アルゴリズムが人々の生活に密接に関係している場合、アルゴリズムは誰にも理解できないブラックボックス内で動作します。「アルゴリズムのブラックボックス」によってもたらされる技術的障壁により、人工知能のディープラーニングにおけるプログラムエラーとアルゴリズムの識別の両方を特定することが困難になっています。したがって、偏見は説明できません。

また、テクノロジー業界における女性の割合が低いからこそ、業界に浸透している性差別を打破することは難しく、開発された人工知能製品に反映された男性優位、女性劣位の「女性観」は修正できない。女性を客体化し、性別による固定観念を強化するこの傾向は、科学技術分野への女性の参入意欲をさらに損ないます。開発から応用まで、ジェンダー差別はこの悪循環の中に存在し、いつでも起こります。

[[388647]]

技術的な公平性を回復するためのタイムリーな修正

現在、偏見、差別、誤りは、人々が偏見の存在に気づき、適時に修正することで変化を起こすことができれば、人工知能の進歩への避けられない道です。

当然のことながら、AI アルゴリズムは人間によって開発され、人間によって使用されます。開発者の価値観や偏見はアルゴリズムに大きな影響を与えます。これは、社会が人工知能の設計に参加する女性研究者を増やし、女性ユーザーのニーズや男女平等を尊重するという概念を人工知能システムに取り入れることを求めている重要な理由でもあります。

技術開発の観点から見ると、不公平なデータセットは偏見の温床となります。機械学習アルゴリズムのトレーニングに使用されるデータセットが客観的な現実を表現できない場合、アルゴリズムの適用結果には特定のグループに対する差別や偏見が含まれることが多くなります。実際、アルゴリズムが存在する前提はデータ情報であり、アルゴリズムの本質はデータ情報の取得、保有、処理、そしてこれに基づいて新しいデータと情報を生成することです。簡単に言えば、アルゴリズムとは、データ情報または獲得したすべての知識の変換と再現です。

アルゴリズムの「技術的論理」は、構造化された事実とルールから、確実で反復可能な新しい事実とルールを「推論」することであるため、人々は長い間、ビッグデータ技術から派生したこのアルゴリズム技術自体は善でも悪でもなく、倫理的判断のレベルで中立であると信じてきました。

しかし、第3次人工知能ブームにより、産業・社会応用の革新は加速し続け、データ量も増加し、アルゴリズムが依存するビッグデータは中立的ではないことが徐々に認識されてきました。それらは現実の社会から抽出されたものであり、必然的に社会に内在する不平等、排除、差別の痕跡を帯びています。したがって、アルゴリズムの偏りに対する最も直接的な解決策は、もともと不均衡なデータセットを調整することです。

[[388648]]

たとえば、トレーニングサンプルの多様性を確保し、トレーニングデータでは男性サンプルと同数の女性サンプルを使用し、サンプルにラベルを付ける人が多様な背景を持つようにします。

2018 年、Microsoft は専門家と協力して、Face API のトレーニングに使用されるデータセットを改訂および拡張しました。 Microsoft Azure の API である Face API は、顔画像の属性を検出、認識、分析するための事前トレーニング済みのアルゴリズムを提供します。新しいデータでは、肌の色、性別、年齢の比率を調整することで、肌の色が濃い男性と女性の間の認識エラー率が 20 倍、女性の認識エラー率が 9 倍減少しました。

さらに、組織が大規模に求めているあらゆる情報を集約し、その広さと深さを組み合わせた方法でグローバルコミュニティを構築しようとしている企業もあります。これにより、アルゴリズムの偏りなどの問題を克服するために、非常に異なるデータを取り込んで AI システムをトレーニングすることが可能になります。

より公平なデータセットを構築することが、アルゴリズムの偏りに対する重要な解決策の 1 つであることは間違いありません。これに基づいて、新しい機械学習技術を適用して偏りを除去することもできます。たとえば、コロンビア大学の研究者は、技術的な手段を使ってシステムにミスをさせ、アルゴリズムニューラルネットワークの欠陥を明らかにすることができる「DeepXplore」というソフトウェアを開発しました。

DeepXplore は、物事をさまざまな方法で調べる差分テストを使用します。他のすべてのモデルが特定の入力に対して一貫した予測を行い、1 つのモデルのみが異なる予測を行う場合、そのモデルはリーキーアプローチを採用していると判断され、ブラックボックスを開くことに重要な貢献をしたことになります。

さらに、Google は 2018 年に、TensorBoard のバイアス検出ツールとして What-If という新しいツールもリリースしました。このツールを使用すると、開発者はインタラクティブなビジュアルインターフェースと反事実的推論を通じて機械学習モデルの特徴の重要性を調査し、誤分類の原因を見つけ出し、決定の境界を決定し、アルゴリズムの公平性を検出することなどが可能になります。

明らかに、現実社会における偏見の原因は複雑かつ複雑であり、テクノロジーは鏡として、人間社会に内在する多くの偏見を反映しています。偏見をなくすための長年の努力にもかかわらず、偏見はまだ完全に根絶されていません。

偏見は避けられない人生の事実として存在しますが、それは偏見や差別が新しいテクノロジーの避けられない側面でもあることを意味するものではありません。第四次産業革命を代表する技術として、人工知能には常に偏見を是正し始める機会があります。テクノロジーは人間によって開発され、人間に役立ちます。誰にとっても効果的で公平なテクノロジーを創造する能力は、常に機械ではなく人間に依存してきました。

<<: Java プログラミングスキル - データ構造とアルゴリズム「シーケンシャルバイナリツリー」

>>: テンセント、アリババ、バイトダンスなど11社が協議に招集！政府は音声ソーシャルネットワーキングとディープフェイク技術を標的に行動を起こす