携帯電話のAI分析で貧困削減を狙う：バークレーの研究がネイチャー誌に掲載

COVID-19パンデミックは多くの低・中所得国に壊滅的な打撃を与え、食糧不安の拡大と生活水準の急激な低下を招いている。この危機に対応して、世界中の政府と人道支援団体は15億人以上の人々に社会支援を配布した。しかし、彼らは重要な課題に直面しています。利用可能なデータを考慮すると、最も支援を必要としている人々を迅速に特定することは依然として困難な作業です。

最近ネイチャー誌に掲載された論文「機械学習と電話データは人道支援の対象絞り込みを改善できる」の中で、カリフォルニア大学バークレー校、ドイツのマンハイム大学、米国のノースウェスタン大学の研究者らは、携帯電話ネットワークのデータを使用することで人道支援の対象絞り込みを改善できることを実証した。彼らは従来の調査データを使用して機械学習アルゴリズムをトレーニングし、ユーザーの携帯電話データ内の貧困を特定しました。訓練されたアルゴリズムは、最も貧しい携帯電話ユーザーへの支援を優先することができます。

論文アドレス: https://www.nature.com/articles/s41586-022-04484-9

研究者らは、アルゴリズムを使用して数百万ドルのCOVID-19救援金を分配する西アフリカのトーゴの代表的な緊急現金給付プログラムであるNovissiを研究することで、自分たちのアプローチを評価した。分析では、除外エラー（本当に貧しい人々が誤って不適格とみなされる場合）、全体的な社会福祉、公平性の尺度など、さまざまな対象設定メカニズムの下での結果を比較しました。

研究者らは機械学習のアプローチを使用して、トーゴ政府が使用する地理ターゲティング方法と比較して除外エラーを4～21%削減しました。包括的な社会登録を必要とするアプローチ（トーゴには存在しない前提）と比較すると、機械学習アプローチでは除外エラーが 9～35% 増加しました。これらの結果は、特に従来のデータが欠落していたり古くなったりしている危機的状況において、人道支援を決定する際に新しいデータソースが従来のアプローチを補完する可能性を浮き彫りにしています。

背景

まず、トーゴの代表的な緊急現金給付プログラムであるノヴィッシから見てみましょう。トーゴ政府は、COVID-19の最初の症例が確認された直後の2020年4月にこのプログラムを開始した。経済的な制限により多くのトーゴ人が仕事をやめざるを得なくなり、食糧不安が広がっている。 Novissi プロジェクトは、最も被害を受けた人々に生存のための現金援助を提供することを目的としています。

プロジェクトアドレス: https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472

しかし、トーゴ政府が初めてノヴィッシを立ち上げた当時、援助の受給資格を評価するための伝統的な社会登録制度はなく、パンデミック中にそれを構築する時間も資源もなかった。 2011年に完了した最新の国勢調査には、世帯の富や貧困に関する情報は含まれていません。最新の全国生活水準調査は、一部の世帯のみを対象としています。

この場合、Novissi プログラムによる支援の受給資格は、2019 年後半に更新された国家有権者登録システムに含まれるデータに基づいて決定されます。残念ながら、このアプローチでは、トーゴの最貧困世帯をノヴィッシプロジェクトの支援に含めることができません。

この調査は、トーゴ政府がノヴィッシ・プログラムの対象範囲を首都ロメの非公式労働者から地方の貧困層にまで拡大し、同時に同国で最も貧しい地域に援助を向けること、およびそれらの地域の最も貧しい携帯電話利用者に援助を優先的に配分することという、政府が表明した2つの政策目標を満たすことを支援することを目的としている。

これを基に研究者らは機械学習アルゴリズムを使用して、衛星から携帯電話ネットワークまでの非伝統的なデータを分析し、最終的に最も貧しい携帯電話ユーザーへのターゲティングを改善しました。

携帯電話ユーザーを調査して、彼らの富と支出レベルを判断する

最初のステップでは、高解像度の衛星画像に機械学習アルゴリズムを適用し、トーゴの 2.4 km × 2.4 km のエリアごとに富のミクロ推定値を取得しました。これらの推定値は、各小さなグリッドセル内のすべての世帯の相対的な富を提供し、その後、人口の重みに基づいて平均化され、トーゴの最小の行政単位の富の推定値が生成されます。

2 番目のステップでは、トーゴの 2 つの携帯電話事業者から提供された携帯電話のメタデータを機械学習アルゴリズムで処理し、各携帯電話ユーザーの 1 日あたりの平均消費量を推定しました。

具体的には、この研究では、2018年から2021年の特定の期間におけるトーゴの2つのモバイルネットワーク事業者から携帯電話のメタデータ（通話詳細記録（CDR））を取得しました。この調査は、2018 年 10 月から 12 月、2019 年 4 月から 6 月、2020 年 3 月から 9 月の 3 つのセグメントのモバイルネットワークデータに焦点を当てました。 CDR データには次の情報が含まれます。通話: 発信者の電話番号、受信者の電話番号、通話日時、通話時間、通話元基地局の ID。SMS メッセージ: 送信者の電話番号、受信者の電話番号、メッセージの日時、メッセージの送信元アンテナの ID。モバイルデータの使用状況: 電話番号、取引の日時、消費されたデータ量 (アップロードとダウンロードを合わせた量)。モバイルマネー取引: 送信者の電話番号、受信者の電話番号 (ピアツーピアの場合)、取引の日時、取引額、取引タイプの大まかなカテゴリ (現金、現金、ピアツーピア、請求書支払い)。

この研究では、携帯電話ユーザーの代表的なサンプルを調査し、これらの調査結果を使用して各ユーザーの富や消費を測定しました。その後、調査に基づく推定値は、各ユーザーの携帯電話の使用履歴に関する詳細なメタデータと照合されました。サンプルデータに基づいて、教師あり機械学習アルゴリズムがトレーニングされ、携帯電話の使用を通じてユーザーの富と消費レベルを予測しました。この 2 番目のステップは、従来の代理資産検定 (PMT) に似ていますが、2 つの重要な違いがあります。この研究では、資産の低次元ベクトルではなく、電話機能の高次元ベクトルを使用して富を推定します。また、この研究では、サンプル内の適合度を最大化する従来の線形回帰ではなく、サンプル外の予測力を最大化するように設計された機械学習アルゴリズムを使用します。

誰もがデータのプライバシーを懸念しており、取得したデータの機密性を保護するために、この研究では、分析前に各電話番号を一意の ID にハッシュすることで CDR を仮名化しました。データはアクセス権限が設定された大学のサーバーに保存されます。 CDR 記録と調査回答を照合する前に、電話調査ですべての研究対象者からインフォームドコンセントを得ました。

正確な評価

この研究では、機械学習と携帯電話データの組み合わせを電話ベースのアプローチと呼んでいます。この方法によるターゲティング誤差を、反事実的方法（2020年夏に政府が試験的に実施した地理的ターゲティング方法（トーゴ行政第2極、すなわちトーゴの郡の貧困マップ、40郡）、貧困州（トーゴ行政第3極、397州）、職業ベースのターゲティング（ノヴィッシの非公式労働者に対する当初のターゲティング方法、および国内で最も貧しい職業カテゴリーに対する最良の方法を含む）など）と比較することにより、

この調査は、最も貧しい 100 州の最も貧しい人々に到達することを目的とし、図 1a と表 1 に示すように、電話によるターゲティングによって、トーゴ政府が利用できる他のターゲティング方法と比較して、除外エラーと包含エラー (貧困でない人々が誤って対象者とみなされる) の両方が大幅に減少することがわかりました。

PMT を真の貧困の尺度として使用した場合、電話ベースのターゲティング (曲線下面積 (AUC) = 0.70) は、農村部のノヴィッシ支援のための他の実行可能な方法 (たとえば、地域規模のターゲティングでは AUC = 0.59-0.64) よりも優れた結果を示しました。

図1: ノヴィッシターゲットと代替ターゲットの比較

表1.

詳細については原文をお読みください。

<<: 「電力を大量に消費する」データセンターで AI はどのような役割を果たすのでしょうか?