このモデルは数十万ドルの費用がかかり、数え切れないほどのプロジェクトを導いたのに、使用されたネガティブサンプルがゼロだったことが判明したのですか?

今日の人気のディープラーニングモデルはブラックボックスであるとよく言われます。つまり、入力を与えるとモデルが結果を決定しますが、そのプロセスは不明です。ディープラーニングによる意思決定の根拠や、その結果が信頼できるものかどうかは、正確にはわかりません。近年、信頼できる機械学習手法の構築に向けた新たな研究成果がますます増えています。

しかし、最近の事件から、広く使用されている機械学習モデルが失敗する理由の多くは、アルゴリズムのレベルに深く関わるものではないことがわかります。データにわずかな間違いがあると、とんでもない結果につながる可能性があり、最も重要なのは、そのようなことは、いわゆる「説明できないモデル」よりもはるかに大きな損失を引き起こすということです。

先週、ペンシルベニア州の歴史保存当局と交通局の間で、悲しみ、混乱、不満が入り混じった感情を表明するメールが大量にやり取りされた。このスキャンダルの影響はまだ続いており、公式の対応が出るまでは、私たちはそれ以上のことを知ることはできないだろう（ただし、この問題は地元の考古学者の間ではよく知られている）。

365,000 ドルの機械学習モデルが無駄になりました。

どうしたの？

5年前、先史時代の考古学遺跡に関する州全体の予測モデルを作成するというアイデアを持ったグループがペンシルベニア州交通局を訪れました。最終的に、同省は考古学調査に資金を費やしてきた大手エンジニアリング会社と協力することを選択した。

この契約は同社に納税者のお金で365,900ドルを費やし、GIS（地理情報システム）オーバーレイ分析を統合した最も堅牢なモデルを提供し、その結果を考古学者が利用できるようにすることを約束した。

それ以来、今日に至るまで、ペンシルベニア州運輸省のプロジェクトの大半と文化資源調査を必要とするすべてのプロジェクトでは、プロジェクトを進める前にこの機械学習モデルの推論結果を使用しています。

データの準備、モデルの選択からパフォーマンステストまで、このプロジェクトは当初順調に進んでいるように見えました。しかし、エラーが明らかになると、状況は耐え難いものになりました。

予測する領域を負のサンプルとして扱う

プロジェクトの請負業者は、2013年半ばから2015年までの約1年半を費やして、モデルと7巻の文書をペンシルベニア州運輸局に納品しました。

残念ながら、今のところ誰もその文書を読んでいないようです。モデルは意味のない数字を出力するように見えますが、その理由は非常に不思議です。

コンサルティング会社は未調査の土地をネガティブサンプルデータセットとして使用しましたが、これはモデルが予測する土地ではないのでしょうか? 30万ドル以上のモデルに実際にそのようなエラーが含まれていました。

いずれにしても、ヌルデータは負のサンプルとして表示されるべきではないため、モデル (混合回帰およびランダムフォレスト) でヌルデータを使用することは不適切です。これらのヌル値が従属変数ではなく独立変数に存在する場合でも、モデルの推論結果に大きな混乱をもたらす可能性があります。

プロジェクトのレビュー時にデータ処理のベストプラクティスを使用していなかった

しかし、開発チームのデータサイエンティストは、最初のステップで間違いを犯したことに気づかずに、なぜ 1 年半も懸命に取り組んでいたのでしょうか?それはアイテムをチェックする方法に関係しています。

一般的に、検査のゴールドスタンダードは、ランダムに選択された部分を取っておくことです。この時点で、モデルをトレーニングすると、実際のデータを与えられたときにモデルが機能するかどうかがわかります。

どうやら、今回のケースでは、関係する研究者らはそのような検証を行っていなかったようだ。何か不思議な統計手法を使ったのでしょうか?それはまだ分からない。

既知の場所をランダムサンプリングの結果として扱う

プロジェクトエリア内であっても、すべての土地が同じ割合でサンプリングされるわけではないことはよく知られています。ショベルテストピットのみを使用し、100 エーカーの土地があり、そのうち 50 エーカーは高確率で、50 エーカーは低確率であると仮定して、異なる間隔 (15 メートル、30 メートルが一般的) でテストします。これは、1 エーカーの土地で 15 メートル間隔で 16 回のシャベルテストと 30 メートル間隔で約 4 回のテストを実行できるため、テストの 80% が高確率の土地で行われることを意味します。したがって、高確率部分で 80% のサイトを見つける必要があります。

つまり、土地の無作為抽出から発見されたのではなく、人々が発見できると考えた場所から発見された遺跡がわかっているのです。

直感的に、ほとんどの考古学者はこれを知っています。これは、陽性サンプルデータセットの独立変数の分布が既知であり、これらの統計テストに使用されるため重要です。この分布は偏っており、データサイエンティストはこれらの偏りを説明する方法がわかりません。

したがって、いくつかのデータを別にしておく必要があります。

管理なしのプロジェクト管理?

365,000 ドルを費やすということは、請負業者が誰かを派遣して、数年間誰も管理しないままオフィスの片隅でいじくり回させるだけということを意味するのではありません。

2014 年の初めに、このプロジェクトはペンシルベニア州運輸省に提出された第 3 巻の文書ですでに致命的なミス (ヌルデータをネガティブサンプルデータとして使用) を犯していました。このプロジェクトは監督なしですか? GIS と機械学習を組み合わせたこのモデルは、なぜペンシルベニア州運輸局に数十万ドルの費用を請求する前に、他の人 (同僚や上司) の注目に値しなかったのでしょうか。

運輸局はその責任を果たしたか？

文書が配達された後、PennDOT の誰がそれを読みましたか?著者は、誰もこれらの文書を読んだり理解したりしていないと推測しています。しかし、これは単なる推測であり、私たちは文書が注意深く読まれなかっただけだと信じたいのです。

このモデルの最大の誤差については、大学の統計学の授業を受けた人なら誰でも理解できるはずです。しかし、誰かが指摘したように、考古学者がこうした数学の授業を受けることはめったにないので、こうした誤りを指摘できる考古学者はいないかもしれない。

レッスン

このミスにより、納税者は36万5000ドルの損害を被り、米国運輸省とこのモデルを販売した会社による品質管理のずさんさが明らかになり、また、欠陥のあるモデルの一部が今もいくつかの主要プロジェクトで使用されていることも明らかになった。

正直なところ、予測モデルが必要な場合は、プロジェクト予算の 3 ～ 5% で十分です。モデルをシンプルにして、自分で更新してテストできるようにします。このモデルに品質管理上の問題があまりないとしても、複雑な数学モデルが単純なモデルよりも優れたパフォーマンスを発揮することはありません。

これを明らかにしたMediumブロガーのArchaic Inquiries氏は、まだSHPOとDOTからの返答を待っていると述べた。同氏は、同州で働いておらず、近い将来に働く予定もないと強調し、批判記事の執筆に対していかなる報酬も受け取っていないと述べた。彼の動機は単純だった。規制の欠如によりこのモデルが政策の指針として使われているのを見て、専門家として自分の分野を恥ずかしく思ったのだ。

機械学習の推論結果のエラーによって生じる損失は、大きい場合も小さい場合もあります。ここでは、古代の人類の遺物の多くが無視されていることを意味するかもしれませんが、最も恐ろしいのは、機械学習技術が広く使用されている今日では、このようなエラーが実際には一般的であるということです。

ソーシャルネットワークでは、ペンアルゴリズム事件が機械学習界隈の人々によって広く議論されました。ある人物は次のように述べました。「私が会ったデータサイエンティストのほとんどは、この誤った推論 (データ漏洩) の問題にまったく気付いていません。機械学習に対する無条件の信頼のために、彼らは自分のドメイン知識よりもアルゴリズムを信頼しているのです。」

「政府機関に勤めるデータサイエンティストを知っているのですが、彼にデータサイエンス分野の基本的な概念を説明しなければならないことが何度もありました。彼が勤務する機関の名前は言いませんが、アメリカ人の命が脅かされたとき、人々が最初に助けを求めるのは政府機関でしょう」と、Redditのユーザー、ステレオイソマーさんは述べた。

技術的に解決が難しくないこのような問題は、今後ますます少なくなっていくのだろうか。

<<: 近似アルゴリズムとは何ですか?どのような問題に適用されますか?この記事でその答えが分かります

>>: ニューラルシンボリックシステム、学際的相互作用、李飛飛と他の16人の学者がAIの未来について議論する