このモデルは数十万ドルの費用がかかり、数え切れないほどのプロジェクトを導いたのに、使用されたネガティブサンプルがゼロだったことが判明したのですか?

このモデルは数十万ドルの費用がかかり、数え切れないほどのプロジェクトを導いたのに、使用されたネガティブサンプルがゼロだったことが判明したのですか?

今日の人気のディープラーニング モデルはブラック ボックスであるとよく言われます。つまり、入力を与えるとモデルが結果を決定しますが、そのプロセスは不明です。ディープラーニングによる意思決定の根拠や、その結果が信頼できるものかどうかは、正確にはわかりません。近年、信頼できる機械学習手法の構築に向けた新たな研究成果がますます増えています。

しかし、最近の事件から、広く使用されている機械学習モデルが失敗する理由の多くは、アルゴリズムのレベルに深く関わるものではないことがわかります。データにわずかな間違いがあると、とんでもない結果につながる可能性があり、最も重要なのは、そのようなことは、いわゆる「説明できないモデル」よりもはるかに大きな損失を引き起こすということです。

先週、ペンシルベニア州の歴史保存当局と交通局の間で、悲しみ、混乱、不満が入り混じった感情を表明するメールが大量にやり取りされた。このスキャンダルの影響はまだ続いており、公式の対応が出るまでは、私たちはそれ以上のことを知ることはできないだろう(ただし、この問題は地元の考古学者の間ではよく知られている)。

365,000 ドルの機械学習モデルが無駄になりました。

どうしたの?

5年前、先史時代の考古学遺跡に関する州全体の予測モデルを作成するというアイデアを持ったグループがペンシルベニア州交通局を訪れました。最終的に、同省は考古学調査に資金を費やしてきた大手エンジニアリング会社と協力することを選択した。

この契約は同社に納税者のお金で365,900ドルを費やし、GIS(地理情報システム)オーバーレイ分析を統合した最も堅牢なモデルを提供し、その結果を考古学者が利用できるようにすることを約束した。

それ以来、今日に至るまで、ペンシルベニア州運輸省のプロジェクトの大半と文化資源調査を必要とするすべてのプロジェクトでは、プロジェクトを進める前にこの機械学習モデルの推論結果を使用しています。

データの準備、モデルの選択からパフォーマンステストまで、このプロジェクトは当初順調に進んでいるように見えました。しかし、エラーが明らかになると、状況は耐え難いものになりました。

予測する領域を負のサンプルとして扱う

プロジェクトの請負業者は、2013年半ばから2015年までの約1年半を費やして、モデルと7巻の文書をペンシルベニア州運輸局に納品しました。

残念ながら、今のところ誰もその文書を読んでいないようです。モデルは意味のない数字を出力するように見えますが、その理由は非常に不思議です。

コンサルティング会社は未調査の土地をネガティブサンプルデータセットとして使用しましたが、これはモデルが予測する土地ではないのでしょうか? 30万ドル以上のモデルに実際にそのようなエラーが含まれていました。

いずれにしても、ヌル データは負のサンプルとして表示されるべきではないため、モデル (混合回帰およびランダム フォレスト) でヌル データを使用することは不適切です。これらのヌル値が従属変数ではなく独立変数に存在する場合でも、モデルの推論結果に大きな混乱をもたらす可能性があります。

プロジェクトのレビュー時にデータ処理のベストプラクティスを使用していなかった

しかし、開発チームのデータサイエンティストは、最初のステップで間違いを犯したことに気づかずに、なぜ 1 年半も懸命に取り組んでいたのでしょうか?それはアイテムをチェックする方法に関係しています。

一般的に、検査のゴールドスタンダードは、ランダムに選択された部分を取っておくことです。この時点で、モデルをトレーニングすると、実際のデータを与えられたときにモデルが機能するかどうかがわかります。

どうやら、今回のケースでは、関係する研究者らはそのような検証を行っていなかったようだ。何か不思議な統計手法を使ったのでしょうか?それはまだ分からない。

既知の場所をランダムサンプリングの結果として扱う

プロジェクトエリア内であっても、すべての土地が同じ割合でサンプリングされるわけではないことはよく知られています。ショベル テスト ピットのみを使用し、100 エーカーの土地があり、そのうち 50 エーカーは高確率で、50 エーカーは低確率であると仮定して、異なる間隔 (15 メートル、30 メートルが一般的) でテストします。これは、1 エーカーの土地で 15 メートル間隔で 16 回のシャベル テストと 30 メートル間隔で約 4 回のテストを実行できるため、テストの 80% が高確率の土地で行われることを意味します。したがって、高確率部分で 80% のサイトを見つける必要があります。

つまり、土地の無作為抽出から発見されたのではなく、人々が発見できると考えた場所から発見された遺跡がわかっているのです。

直感的に、ほとんどの考古学者はこれを知っています。これは、陽性サンプル データ セットの独立変数の分布が既知であり、これらの統計テストに使用されるため重要です。この分布は偏っており、データ サイエンティストはこれらの偏りを説明する方法がわかりません。

したがって、いくつかのデータを別にしておく必要があります。

管理なしのプロジェクト管理?

365,000 ドルを費やすということは、請負業者が誰かを派遣して、数年間誰も管理しないままオフィスの片隅でいじくり回させるだけということを意味するのではありません。

2014 年の初めに、このプロジェクトはペンシルベニア州運輸省に提出された第 3 巻の文書ですでに致命的なミス (ヌル データをネガティブ サンプル データとして使用) を犯していました。このプロジェクトは監督なしですか? GIS と機械学習を組み合わせたこのモデルは、なぜペンシルベニア州運輸局に数十万ドルの費用を請求する前に、他の人 (同僚や上司) の注目に値しなかったのでしょうか。

運輸局はその責任を果たしたか?

文書が配達された後、PennDOT の誰がそれを読みましたか?著者は、誰もこれらの文書を読んだり理解したりしていないと推測しています。しかし、これは単なる推測であり、私たちは文書が注意深く読まれなかっただけだと信じたいのです。

このモデルの最大の誤差については、大学の統計学の授業を受けた人なら誰でも理解できるはずです。しかし、誰かが指摘したように、考古学者がこうした数学の授業を受けることはめったにないので、こうした誤りを指摘できる考古学者はいないかもしれない。

レッスン

このミスにより、納税者は36万5000ドルの損害を被り、米国運輸省とこのモデルを販売した会社による品質管理のずさんさが明らかになり、また、欠陥のあるモデルの一部が今もいくつかの主要プロジェクトで使用されていることも明らかになった。

正直なところ、予測モデルが必要な場合は、プロジェクト予算の 3 ~ 5% で十分です。モデルをシンプルにして、自分で更新してテストできるようにします。このモデルに品質管理上の問題があまりないとしても、複雑な数学モデルが単純なモデルよりも優れたパフォーマンスを発揮することはありません。

これを明らかにしたMediumブロガーのArchaic Inquiries氏は、まだSHPOとDOTからの返答を待っていると述べた。同氏は、同州で働いておらず、近い将来に働く予定もないと強調し、批判記事の執筆に対していかなる報酬も受け取っていないと述べた。彼の動機は単純だった。規制の欠如によりこのモデルが政策の指針として使われているのを見て、専門家として自分の分野を恥ずかしく思ったのだ。

機械学習の推論結果のエラーによって生じる損失は、大きい場合も小さい場合もあります。ここでは、古代の人類の遺物の多くが無視されていることを意味するかもしれませんが、最も恐ろしいのは、機械学習技術が広く使用されている今日では、このようなエラーが実際には一般的であるということです。

ソーシャル ネットワークでは、ペン アルゴリズム事件が機械学習界隈の人々によって広く議論されました。ある人物は次のように述べました。「私が会ったデータ サイエンティストのほとんどは、この誤った推論 (データ漏洩) の問題にまったく気付いていません。機械学習に対する無条件の信頼のために、彼らは自分のドメイン知識よりもアルゴリズムを信頼しているのです。」

「政府機関に勤めるデータサイエンティストを知っているのですが、彼にデータサイエンス分野の基本的な概念を説明しなければならないことが何度もありました。彼が勤務する機関の名前は言いませんが、アメリカ人の命が脅かされたとき、人々が最初に助けを求めるのは政府機関でしょう」と、Redditのユーザー、ステレオイソマーさんは述べた。

技術的に解決が難しくないこのような問題は、今後ますます少なくなっていくのだろうか。

<<:  近似アルゴリズムとは何ですか?どのような問題に適用されますか?この記事でその答えが分かります

>>:  ニューラルシンボリックシステム、学際的相互作用、李飛飛と他の16人の学者がAIの未来について議論する

ブログ    
ブログ    

推薦する

...

Googleは機械学習ベースのDDoS攻撃防御をテスト中

[[412418]] Google Cloud のお客様は、分散型サービス拒否 (DDoS) 保護...

「機械学習」CNNを徹底理解

[[212238]]前世紀、科学者は視覚神経のいくつかの特性を発見しました。視神経には局所的な知覚が...

...

英国はAI大規模モデルの分野で利用するためのスーパーコンピュータの開発に2億2500万ポンドを投資する予定

英国政府は11月2日、国の人工知能能力をさらに強化するため、人工知能研究資源への投資を2023年3月...

GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63%でした。

長い間、「チューリングテスト」は、コンピュータが「知性」を持っているかどうかを判断するための中心的な...

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...

Omdia の観察: 配車サービスの大手企業が自動運転から撤退するのは幸運か、それとも災いか?

市場調査会社オムディアの最新レポートによると、北米第2位の配車プラットフォームプロバイダーであるLy...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

2030年にAIは人間のためにどんな仕事を創出できるでしょうか?

[[201234]]編集者注: 人工知能は多くの人の仕事を奪うだろう、これはメディアの報道でも事実...

超速い! ByteDanceが配列推論エンジンLightSeqをオープンソース化

これは、Transformer や GPT などの複数のモデルの高速推論を完全にサポートする業界初の...

Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」

[[388829]]まず質問を見てみましょうシーケンス{1,3,6,8,10,14}を二分木に構築...

人工知能が医師の「映画鑑賞」を支援:診断精度は95%を超える

[[233292]]最近、北京天壇病院は、世界初のCTおよびMRI神経画像人工知能支援診断製品「Bi...

Nougat: 科学文書の OCR 用トランスフォーマー モデル

人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...