機械学習の公平性研究は正しい方向に進んでいるのでしょうか?

機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?

人工知能の発展に伴い、機械学習技術は人々の意思決定を支援するために社会のさまざまな分野でますます使用されるようになり、特に刑事判決、福祉評価、資源配分などの大きな影響を与える分野でその潜在的な影響力はますます大きくなっています。

[[314256]]

したがって、社会的影響の観点からは、機械学習システムが（影響の大きい）意思決定を行う際に、社会的弱者に対してより悪影響を及ぼすかどうかを考慮することが重要であると言えます。

では、機械学習システムの公平性をどのように評価するのでしょうか? 現在一般的な方法は、評価対象のシステムをいくつかの静的 (特に重点を置いた) データセットで実行し、エラーインジケーターを確認することです。実際、AIF360、Fairlearn、Fairness-Indicators、Fairness-Comparison など、機械学習の公平性をテストするためのツールキットが数多く存在します。

これらのツールキットは一部のタスクで何らかのガイダンスを提供できますが、欠点も明らかです。これらはすべて、フィードバックや短期的な影響のない静的なシナリオを対象としています。データセットは静的であるため、これは評価方法に反映されます。

ただし、現実のシナリオのほとんどは動的でフィードバックがあり、機械学習アルゴリズムが動作する背景は、アルゴリズムの意思決定に長期的かつ重大な影響を及ぼすことがよくあります。

したがって、静的公平性から動的公平性へ、単一行公平性からフィードバックによる公平性へ、短期公平性から長期公平性へといった機械学習アルゴリズムの公平性に関する研究は、重要かつ必要なステップです。

最近、スペインで開催された ACM FAT 2020 カンファレンス (コンピューター技術における公平性に関する国際会議) で、Google の研究者数名がこの問題に関する論文を発表しました。この論文の研究に基づいて、彼らは ML-fairness-gym という一連のシミュレーションコンポーネントを開発しました。これは、機械学習システムの決定が社会に与える潜在的で動的な長期的影響の調査に役立ちます。

論文とコードのリンク: https://github.com/google/ml-fairness-gym

1. ケーススタディから始める

まずはローン問題という事例から始めましょう。

この問題は機械学習における公平性の典型的な例であり、カリフォルニア大学バークレー校の Lydia T. Liu らが 2018 年の論文「公平な機械学習の遅延影響」で提起しました。

融資プロセスは大幅に簡素化され、形式化されているため、単一のフィードバックループとその影響に集中することができます。

この問題を様式化して表現すると、個々の申請者がローンを返済する確率は、その申請者の信用スコアの関数となります。

各応募者はグループに所属し、各グループには任意の数のメンバーを含めることができます。貸付銀行は各グループメンバーの借入能力と返済能力を監視します。

各グループは異なる信用スコアの分布から始まり、銀行はグループ全体に適用でき、銀行が目標を達成できるように各グループに合わせて調整できる信用スコアのしきい値を決定しようとします。

信用スコアが基準値を超える申請者には融資が認められますが、信用スコアが基準値以下の申請者には融資が拒否されます。シミュレーションシステムが申請者を選択すると、申請者がローンを返済するかどうかは、そのグループの返済確率に基づいてランダムに決定されます。

この場合、現在ローンを申請している個人は、将来的にさらに多くのローンを申請する可能性が高く、ローンを返済することで自分の信用スコアとグループの平均信用スコアを向上させることができます。同様に、申請者がローンを返済しない場合は、グループの平均信用スコアが低下します。

最も効果的なしきい値の設定は、銀行の目的によって異なります。

銀行が総利益の最大化を目指す場合、申請者がローンを返済する可能性の評価に基づいて、期待収益を最大化するしきい値を設定する場合があります。

他に何も考慮しない場合、銀行は総利益を最大化しようとします。利益は、銀行がローンの返済から受け取る金額と、不履行ローンによって銀行が失う金額の比率によって決まります。上の図では、損益比率は 1 対 -4 です。損失が利益に比べて大きくなるにつれて、銀行はより保守的に融資し、融資基準を引き上げるだろう。この閾値を超える部分を選択率と呼びます。

一部の銀行は、すべてのグループに対して公平であることを目指す場合があります。そのため、彼らは総利益の最大化と機会均等のバランスをとる閾値を設定しようとします。機会均等の目標は、真の陽性率 (TPR、感度と再現率とも呼ばれ、ローンを返済した申請者のうちローンが提供される割合を測定する) を均等に達成することです。

このシナリオでは、銀行は機械学習技術を適用して、すでに投稿されたローンや収益プロファイルに基づいて最も効果的なしきい値を決定します。ただし、これらの手法は短期的な目標に焦点を当てていることが多いため、さまざまなグループにとって意図しない不公平な結果が生じる可能性があります。

上の 2 つの図: 100 回のシミュレーションステップにわたって 2 つのグループのクレジットスコア分布が変化しています。グループ 2 は当初、信用スコアが低かったため、脆弱なグループでした。次の 2 つの図: 左の図はシミュレーションプロセス中の第 1 グループと第 2 グループの銀行現金を示し、右の図はシミュレーションプロセス中の第 1 グループと第 2 グループの TPR を示しています。

2. 静的データセット分析の欠点

機械学習の分野では、融資などのシナリオの影響を評価する標準的な方法は、データの一部を「テストセット」として使用し、このテストセットを使用して関連するパフォーマンスメトリックを計算することです。次に、これらのパフォーマンスメトリックが重要なグループ間でどのように異なるかを観察することによって公平性が評価されます。しかし、フィードバックのあるシステムでこのようなテストセットを使用すると、2 つの大きな問題があることは明らかです。

まず、テストセットが既存のシステムによって生成された場合、テストセットは不完全であったり、他のシステムに固有のバイアスを示したりする可能性があります。融資の場合、テストセットには、融資を受けたことがある申請者が融資を返済したかどうかに関する情報しか含まれていないため、不完全である可能性があります。したがって、データセットには、以前にローンの承認を受けなかった、またはローンを付与されなかった申請者は含まれない可能性があります。

第二に、機械学習システムの出力は将来の入力に影響を与えます。機械学習システムによって決定されたしきい値は、ローンを承認するかどうかを決定するために使用され、申請者がローンを返済するかどうかは将来の信用スコアに影響し、そのスコアは機械学習システムにフィードバックされます。これらの問題は、静的データセットを使用して公平性を評価することの欠点を浮き彫りにし、研究者がアルゴリズムが導入されている動的システムにおけるアルゴリズムの公平性を分析するよう促しています。

3. 長期分析のためのシミュレーションツール: ML-fairness-gym

上記のニーズに基づいて、Google の研究者は、機械学習の実践者がシミュレーションベースの分析を機械学習システムに導入できるように支援する ML-fairness-gym フレームワークを開発しました。このコンポーネントは、閉じた形式では解析が難しい動的システムの解析に効果的であることが多くの分野で実証されています。

ML-fairness-gym は、Open AI の Gym フレームワークを使用して、順次意思決定をシミュレートします。このフレームワークでは、エージェントはシミュレートされた環境と反復的に対話します。各ステップで、エージェントはその後環境の状態に影響を与えるアクションを選択します。次に、環境は観察結果を表示し、エージェントはそれを使用して次のアクションをガイドします。

このフレームワークでは、環境がシステムと問題のダイナミクスをモデル化し、観察結果はエージェントへのデータ入力として機能し、機械学習システムとして見ることができます。

融資の場合、銀行はインテリジェントエージェントとして機能します。環境からの観察を行い、ローン申請者、その信用スコア、およびグループメンバーシップに関する情報を受け取り、ローンを承認するか拒否するかの二者択一の決定という形でアクションを実行します。次に、環境は申請者がローンを正常に返済するかどうかをモデル化し、それに応じて申請者の信用スコアを調整します。 ML-fairness-gym はこれらの結果をシミュレートして、銀行のポリシーがすべての申請者の公平性に及ぼす長期的な影響を評価できます。

4. 公平性は静的なものではない：長期的な影響まで分析を拡大する

Liu らが提案した融資問題の元々の定式化では、短期的な利益最大化戦略 (つまり、エージェントへの報酬の最大化) や機会均等 (EO) 制約に従う戦略など、銀行政策の短期的な影響のみが考慮されていたためです。研究者たちは、ML-fairness-gym を使用して、シミュレーションを通じて分析を長期的な影響にまで拡張することができました。

上: 報酬最大化エージェントと機会均等エージェントの累計融資額を、申請者が属するグループで割ったもの。青はグループ 1、緑はグループ 2 を表します。下部: シミュレーション中の平均グループ信用スコア (各グループの条件付き返済確率によって定量化)。機会均等エージェントはグループ 2 のローン承認率を高めますが、グループ 2 とグループ 1 の間の信用スコアの差を拡大します。

Google の研究者は、上記の借用問題に関する長期的な分析に基づいて、次の 2 つの発見をしました。

まず、 Liu らが発見したように、機会均等エージェント (EO エージェント) は、報酬最大化エージェントよりも恵まれないグループ (当初クレジットスコアが低かったグループ 2) に対して低い閾値を設定することがあり、その結果、通常よりも多くのローンを彼らに付与します。これにより、グループ 2 のクレジットスコアがグループ 1 よりも低下し、最終的には、機会均等エージェントによるシミュレーションでは、報酬最大化エージェントによるシミュレーションよりも 2 つのグループ間のクレジットスコアの差が大きくなります。

同時に、彼らの分析では、機会均等エージェントがグループ 2 の状況を悪化させたように見えたが、累積ローングラフから判断すると、不利な立場にあるグループ 2 は機会均等エージェントから有意に多くのローンを受け取っていたことも判明しました。

したがって、福祉指標が融資総額である場合、機会均等エージェントが不利な立場にあるグループ（グループ 2）に対してより有利になることは明らかです。しかし、福祉指標が信用スコアである場合、機会均等エージェントが不利な立場にあるグループの信用をますます悪化させることは明らかです。

第二に、シミュレーション中、平等な機会の制約（各ステップでグループ間で平等な TPR を強制する）によって、TRP が全体的に均等化されません。この直感に反する結果は、シンプソンのパラドックスの一例と見ることができます。

シンプソンのパラドックスの例。 TP は真陽性分類、FN は偽陰性分類、TPR は真陽性率です。 1 年目と 2 年目に、借り手は 2 つのグループ間の TPR を均等にするポリシーを実施します。しかし、2 年間の TPR の合計は、等しい TPR を達成しませんでした。

上記の表に示されているように、2 年ごとに TPR が等しいということは、全体として TPR が等しいことを意味するわけではありません。これは、基礎となる人口が絶えず変化している場合に機会均等の指標を解釈することがいかに難しいかを示しており、機械学習が期待される結果を生み出していることを確認するために、より詳細な分析が必要であることも示唆しています。

上記の内容は貸付問題のみを扱っていますが、Google の研究者によると、ML-fairness-gym はより広範囲の公平性の問題を解決するために使用できるとのことです。この論文では、他の応用シナリオもいくつか紹介されています。興味のある方は、原著論文をお読みください。

ML-fairness-gym フレームワークは、これまで研究されていなかった公平性の問題をシミュレートして調査できるほど柔軟です。別の論文「ソーシャルネットワークにおける公平な治療の割り当て」では、著者らはソーシャルネットワークにおける精密疾病管理の公平性の問題も研究した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: ネイチャー、サイエンス、セルが参加し、80の学術機関がCOVID-19研究を無料で提供する

>>: AIが初めて新型コロナウイルスの警告を発するのか？人工知能はあなたが思っている以上に信頼できるものです!