分析と AI に関する 6 つの警告すべき間違い

[[439096]]

2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値のある資源になったと発表しました。業界を問わず、組織がデータと分析への投資を増やし始めています。しかし、石油と同様に、データと分析にも暗い側面があります。

IDG が発表した 2021 CIO 現状レポートによると、IT リーダーの 39% が、2021 年にはデータ分析が自社の IT 投資の大部分を占めると回答しており、これは 2020 年の 37% から増加しています。機械学習アルゴリズムによる分析とアクションから得られる洞察は、企業に競争上の優位性をもたらしますが、誤った判断をすると、評判、収益、さらには個人の安全の面で大きな損失につながる可能性があります。

データとそれが伝えるメッセージを理解することは重要ですが、企業にとっては、使用されるツールとデータを理解し、ビジネスの価値を念頭に置くことも重要です。

何が問題になるかを示すために、過去 10 年間の分析と AI に関する注目すべき間違いをいくつか紹介します。

1. Zillowはアルゴリズムの問題で大きな損失を被り、従業員の25%を解雇した

2021年11月、オンライン不動産サービスプロバイダーのZillowは株主に対し、今後数四半期でZillow Offers事業を縮小し、従業員の25％（約2,000人）を解雇すると発表した。 Zillow の苦境は、住宅価格を予測するために使用していた機械学習アルゴリズムのエラー率によって引き起こされた。

Zillow Offers は、同社が機械学習アルゴリズム「Zestimate」によって導き出した住宅の価値に基づいて物件のオファーを出すアプリです。同社の考えは、物件を改装し、売上金としてすぐに販売することだった。しかし、ジロウの広報担当者は、同社のアルゴリズムの平均エラー率は1.9％で、非公開物件の場合はエラー率がさらに高くなり、6.9％にもなる可能性があると述べた。

CNNによると、Zillowは2018年4月の開始以来、Zillow Offersを利用して27,000軒の住宅を購入しているが、2021年9月末までに販売できたのはそのうち17,000軒に過ぎない。 COVID-19パンデミックや住宅改修における労働力不足などのブラックスワンイベントにより、アルゴリズムの精度に問題が生じました。

ジローは、アルゴリズムのせいで同社が住宅を高値で購入することになり、2021年第3四半期までに同社の資産が3億400万ドル減少したと述べた。

ジロウの共同創業者兼CEOのリッチ・バートン氏は投資家との電話会議で、アルゴリズムの調整は可能だがリスクが大きすぎると語った。

2. PHEはスプレッドシートのデータ制限を超えたため、コロナウイルス症例の数千件を失った

2020年10月、COVID-19感染者の集計を担当するイングランド公衆衛生局（PHE）は、今年9月25日から10月2日の間にコロナウイルスの症例が約1万6000件報告されていなかったことを明らかにした。原因は何でしょうか? マイクロソフトのオフィスソフト Excel のデータ制限が原因です。

イングランド公衆衛生局 (PHE) は、自動化されたプロセスを使用して、COVID-19 陽性検査結果を CSV ファイルとして、レポートダッシュボードと接触追跡で使用される Excel テンプレートに転送します。残念ながら、Excel スプレッドシートはワークシートあたり 1,048,576 行、16,384 列に制限されています。さらに、表では行ではなく列にケースがリストされます。 16384 列の制限を超えると、Excel は下位 15841 レコードを削除します。

この不具合はウイルス検査を受けた人々が結果を受け取ることには影響しなかったが、接触者追跡の取り組みを妨げ、英国国民保健サービス（NHS）が感染患者と濃厚接触した個人を特定して通知することをより困難にした。イングランド公衆衛生局（PHE）の暫定最高責任者マイケル・ブロディ氏は10月4日の声明で、この問題は迅速に解決され、すべての記録は直ちにNHSの検査・追跡システムに移管されたと述べた。

イングランド公衆衛生局（PHE）は、大規模な Excel ファイルを分割する「迅速な緩和策」を実施し、将来同様のインシデントが発生しないようにすべてのシステムの完全なエンドツーエンドのレビューを実施しました。

3. アメリカの医療アルゴリズムは黒人患者を識別できない

2019年にサイエンス誌に掲載された研究によると、全米の病院や保険会社が「高リスクケア管理」プログラムを必要とする患者を特定するために使用している医療予測アルゴリズムは、黒人患者を抽出できていないことが判明した。

この高リスクケア管理プログラムは、慢性疾患の患者に訓練を受けた介護者とプライマリケアモニタリングを提供し、深刻な合併症を予防します。しかし、アルゴリズムはこれらのプログラムに白人患者を推奨する可能性が高かった。

この研究の研究者たちは、いくつかの要因が寄与した可能性があると考えています。まず、有色人種は収入が低い可能性があり、たとえ保険に加入していたとしても医療を受けられる可能性が低い可能性があります。また、暗黙の偏見により、有色人種が低品質の医療を受けることにもなりかねません。

研究ではアルゴリズムや開発者の名前は明かされていないが、研究者らは開発者と協力して問題解決に取り組んでいると述べた。

4. マイクロソフトのチャットボットに人種差別的なツイートを投稿するよう訓練したデータセット

2016 年 3 月、マイクロソフトは、Twitter のやり取りを機械学習アルゴリズムのトレーニングデータとして使用すると、期待外れの結果が生じる可能性があることを知りました。

マイクロソフトは、ソーシャルメディアプラットフォーム上で人工知能チャットボット「Tay」をリリースした。同社はこれを「会話理解」の実験だと説明している。アイデアとしては、チャットボットが10代の女の子のペルソナを演じ、機械学習と自然言語処理を組み合わせてTwitter経由でユーザーと対話するというものだ。 Microsoft は匿名化された公開データを使用して、チャットボットアプリケーションに素材を事前に書き込み、ソーシャルネットワークでのやり取りから学習して開発できるようにします。

16時間で、チャットボットは95,000件以上のツイートを投稿し、それらはすぐに露骨な人種差別、女性蔑視、反ユダヤ主義の内容で満たされるようになった。マイクロソフトはすぐに調整のためにサービスを停止し、最終的にキャンセルしました。

マイクロソフトの研究・育成担当副社長ピーター・リー氏は、この事件後、マイクロソフトの公式ブログに次のように投稿した。「Tayからの意図しない攻撃的で傷つけるツイートについて深くお詫び申し上げます。これらのツイートは、Tayを設計した際の当社の見解や意図を反映したものではありません。」

リー氏は、マイクロソフトがTayの前身であるXiaoIceを2014年にリリースしたことを指摘した。Tayがリリースされる前の2年間で、XiaoIceは4000万人以上の人々との会話に成功していた。マイクロソフトが考慮していなかったのは、多くのTwitterユーザーがTayに対して即座に人種差別的、女性蔑視的なコメントをツイートするだろうということだ。ボットはこれらのツイートをすぐに学習し、それを自身のツイートに組み込みました。

同氏は「我々はAIシステムのさまざまな悪用に備えているが、今回の攻撃では怠慢だった。その結果、Tayは極めて不適切で非難されるべき文章や画像をツイートした」と書いている。

5. アマゾンのAI採用ツールは男性のみを推薦

多くの大企業と同様に、Amazon.com Inc. も人事部門が最適な求職者を選別するのに役立つツールを切望していました。 2014年、Amazon.com Inc. はまさにそれを実現する AI ベースの採用ソフトウェアの開発を希望しました。しかし、問題がありました。その制度は男性の応募者を優遇していたのです。アマゾンは2018年にこのプロジェクトを中止した。

Amazon の AI 採用システムは、求職者に 1 から 5 までの星評価を与えます。しかし、AIシステムの中核となる機械学習モデルは、アマゾンに提出された10年分の履歴書でトレーニングされたが、そのほとんどは男性のものだった。このトレーニングデータのおかげで、採用システムは履歴書の中で「女性」という単語を含むフレーズを格下げし始めました。

アマゾンは当時、採用担当者が求職者の評価にこのツールを使ったことは一度もないと述べていた。同社はツールを中立的なものにするために微調整を試みたが、最終的には、応募者を分類するための他の差別的な方法を学習しないという保証はないと判断し、プロジェクトを中止した。

6. ターゲットの分析プロジェクトはプライバシーを侵害している

2012年、小売大手ターゲットの分析プロジェクトは、顧客データから顧客についてどれだけ多くのことを知ることができるかを実証しました。ニューヨーク・タイムズ紙によると、2002年にターゲット社のマーケティング部門は、顧客が妊娠しているかどうかを判断する方法を知りたいと考えていた。予測分析プロジェクトが一連の調査につながり、小売業者が10代の少女の家族に彼女が妊娠していることをうっかり開示してしまう事態に至りました。この事件は、プライバシー侵害の代表的な例として、数多くの記事やマーケティングブログで引用されました。

ターゲットのマーケティング部門は、人生のある特定の時期に人々の購買習慣が劇的に変化する可能性が最も高い（妊娠は最も重要な時期の 1 つ）ため、妊娠中の女性をターゲットにしたいと考えました。たとえば、ターゲットがこの期間中にこれらの顧客にリーチできれば、これらの顧客に新しい行動を促し、食品、衣料品、その他の商品をターゲットで購入するよう促すことができます。

ターゲットは、他の大手小売業者と同様に、買い物客コード、クレジットカード、アンケートなどを通じて顧客に関するデータを長年収集してきた。そのデータは、購入した人口統計データやサードパーティのデータと混合されます。ターゲットの分析チームは、このデータをすべて分析することで、同社が販売する約25種類の製品を特定し、それらをまとめて分析することで「妊娠予測」スコアを算出できると分かった。マーケティング部門は、クーポンやマーケティングメッセージを使用して、スコアの高い顧客をフィルタリングできます。

他の研究では、クライアントの生殖能力の状態を調べることは、一部のクライアントにとって不気味なことである可能性があることが示されています。ニューヨーク・タイムズ紙によると、同社はターゲットを絞ったマーケティングを放棄する代わりに、芝刈り機やおむつなど妊婦が買わないと分かっている商品の広告を混ぜ、顧客に広告の組み合わせがランダムだと思わせたという。

<<: ロボット市場はかつてないほど活況を呈しており、これらの5つのトレンドが今後の方向性となる可能性がある。

>>: チャットボットを作りたいですか?まず100通の遺書をすべて読む