AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

COVID-19パンデミックの発生以来、世界中の研究チームがコロナウイルスの検出や感染の予測に役立つさまざまなAIツールを開発してきました。

残念なことに、オランダのマーストリヒト大学とイギリスのケンブリッジ大学の2つの研究チームがそれぞれ232個と415個のAIツールを独立してテストしたところ、 647個のツールはどれも臨床使用に適しておらず、一部は有害である可能性さえあることが判明しました。

[[414897]]

この結果は主に、 AI モデルのトレーニングに使用されるデータの品質に関係しています。開発者が使用するデータセットには無効または誤った情報が含まれていることが多く、AI ツールが誤った判断方法を学習する原因となります。開発者は医療の専門知識を持っていないことが多く、エラーを検出することが困難になります。

一部の専門家は、開発者と臨床医の緊密な協力を通じてのみ、このようなエラーを可能な限り回避できると考えています。さらに、一部の専門家は、各国が適切に対応できるよう、こうした世界的な健康上の緊急事態に関する「データ共有」を求めている。

1. 合計647個のAIツールがテストされたが、臨床使用に適したものはなかった。

2020年3月、COVID-19がヨーロッパを襲い始めましたが、当時は人々がそのことをほとんど知らず、ヨーロッパの病院は危機に陥りました。「医師たちは、これらの患者をどう扱えばよいのか本当にわかっていない」と、伝染病の予測ツールを開発してきたオランダのマーストリヒト大学の疫学者、ローレ・ウィナンツ氏は言う。

専門家は、機械学習アルゴリズムを過去のデータに基づいて訓練し、医師が患者の診断を行うのを支援できれば、多くの命が救われるだろうと考えている。ローレ・ウィナンツ氏は「この問題においてAIがその有用性を証明できることを期待している」と述べた。

世界中の研究チームが研究を強化し、特にAIコミュニティはさまざまなソフトウェアの開発を急ぎました。多くの人は、これらのソフトウェアにより、病院はより迅速に患者を診断したりトリアージしたりできるようになり、伝染病と戦う最前線に支援を提供できると考えている。しかし、何百ものテストツールが開発されていますが、どれも実際には機能しません。

今年6月、英国のデータサイエンスと人工知能の国立センターであるチューリング研究所は、2020年末に開催した一連のワークショップでの議論をまとめた報告書を発表した。これらのワークショップで得られた明確なコンセンサスの一つは、AIツールは新型コロナウイルス感染症のパンデミックとの戦いにおいて実質的な影響をほとんど与えなかったということだった。この結論は、これらの AI ツールに関して 2 つの研究チームが実施した 2 つの別々の研究の結果によって裏付けられています。

ローレ・ワイナンツ氏とその同僚は、COVID-19の患者を予測または診断するために使用される232のアルゴリズムを研究し、そのどれもが臨床使用に適していないことを発見した。将来、臨床試験に役立つ可能性があるアルゴリズムは2つだけだ。この研究結果は英国医学雑誌のレビュー記事に掲載されており、新しいツールがリリースされ、研究者が既存のツールをテストするたびに記事は更新され続けている。

ローレ・ワイナンツ氏はこの結果について、「衝撃的です。私は非常に懸念しながらこの研究を始めましたが、この結果は私の予想を超えていて、とても怖いです」と述べた。

[[414898]]

▲ オランダのマーストリヒト大学の疫学者、ローレ・ウィナンツ氏

ケンブリッジ大学の機械学習研究者デレク・ドリッグス氏とその同僚が行った別の研究でも、同様の結論に達しました。研究チームはディープラーニングモデルを使用してCOVID-19を診断し、胸部X線やCTスキャンを通じてAIが患者の病気のリスクを予測できるようにした。彼らは公開されている 415 個の AI ツールを研究しましたが、その結果は Laure Wynants の調査結果と一致しており、どのツールも臨床使用には適していませんでした。

研究結果は、「胸部X線写真とCTスキャンを使用して機械学習を使用してCOVID-19を検出および予測する際の一般的な落とし穴と推奨事項」と題された論文でNature Machine Intelligenceに掲載されました。

「今回のパンデミックはAIと医療にとって大きな試練であり、私たちはその試練を乗り越えたとは思っていない」と、新型コロナウイルス感染症の流行中に医師の助けとなることを期待して機械学習ツールの開発に取り組んでいるデレク・ドリッグス氏は語った。

これらの結果にもかかわらず、ローレ・ワイナンツ氏とデレク・ドリッグス氏は、AI が医師を助ける可能性を依然として持っていると信じているが、間違った方法で構築された AI ツールは、医師が誤った診断を下したり、患者の状態を過小評価したりする可能性があるため、役に立たないだけでなく、有害になる可能性もあると懸念している。

デレク・ドリッグス氏は、機械学習モデルとその可能性については過大評価されており、人々の非現実的な期待がこれらのツールの時期尚早な使用につながっていると述べた。ローレ・ワイナンツ氏とデレク・ドリッグス氏が研究した数百のAIツールのうちいくつかはすでにいくつかの病院で使用されており、他のツールは民間開発者によって販売されている。「彼らが患者に危害を加えたのではないかと懸念している」とローレ・ワイナンツ氏は語った。

COVID-19 のパンデミックにより、多くの研究者は AI ツールの構築方法を変える必要があることに気づきました。「COVID-19パンデミックにより、この問題が鮮明に浮かび上がった」とローレ・ウィナンツ氏は述べた。

2. AIトレーニングデータにエラーが多すぎると、AI学習結果に偏差が生じる

研究者らは、これらの AI ツールの問題の多くは、開発者がツールの構築に使用するデータの品質に関連していることを発見しました。 COVID-19パンデミックの間、医療スキャンを含む病気に関する情報の収集と共有をしてきたのは、COVID-19を治療する医師たちであることが多い。この情報とデータは、ツール開発者が利用できる唯一の公開データセットです。つまり、その多くは誤ってラベル付けされたデータや不明なソースからのデータを使用して構築されています。

デレク・ドリッグス氏は、複数のソースからつなぎ合わされ、重複が含まれる可能性がある「フランケンシュタイン」データセットと呼ばれるデータセットの問題点を指摘した。つまり、一部のツールはトレーニングに使用したのと同じデータでテストされることになり、実際よりも正確であるように見える可能性があります。

開発者が特定のデータセットのソースを混同し、モデルのトレーニング結果に影響する重要な機能を見逃してしまう可能性もあります。例えば、コロナウイルスに感染していない子どもの胸部スキャン画像を含むデータセットを、知らないうちに非コロナウイルス感染例の例として使っていた人もいました。その結果、AIは新型コロナウイルスではなく、子どもを認識する方法を学習した。

デレク・ドリッグス氏のグループは、横たわっている患者と立っている患者のスキャンを混ぜたデータセットを使用してモデルのトレーニングを試みた。横になった状態でスキャンされた患者は重症である可能性が高いため、AIは人が立っているか横になっているかから病気の重症度を予測することを誤って学習しました。

別のケースでは、研究者らは、一部のAIが特定の病院でスキャン結果のマークに使用されているテキストフォントに反応することを発見した。その結果、重症患者を入院させた病院のフォントが、COVID-19感染リスクを予測する指標となった。

後から考えてみると、これらのエラーは簡単に見つけることができ、開発者がそれを知っていればモデルを微調整することで修正できたはずです。しかし、これらのツールの多くは、データの欠陥を見つけるための医学的専門知識を持たない AI 研究者、またはそのギャップを埋めるための数学的スキルを持たない医療研究者によって開発されています。

Derek Driggs 氏は、より微妙なエラーである組み込みバイアス、つまりデータセットに注釈が付けられたときに導入されるバイアスについても言及しました。たとえば、多くの医療スキャンは、コロナウイルスが写っているかどうかについての放射線科医の判断に基づいてラベル付けされていますが、これにより、医師の偏見の一部がデータセットに埋め込まれたり組み込まれたりします。デレク・ドリッグス氏は、PCR検査の結果を医療スキャンに記録する方が医師の意見だけに頼るよりもはるかに良いが、病院にはそうした詳細を集計する時間がないことが多いと述べた。

ローレ・ワイナンツ氏は、既知の誤りがあるにもかかわらず、これらのツールの一部が臨床現場に急いで導入されるのを阻止できず、どのツールが使用されているのか、どのように使用されているのかは不明だと述べた。病院側はツールを研究目的にのみ使用していると主張することもあり、研究者が医師がこれらの AI ツールにどの程度依存しているかを評価するのは困難です。

ローレ・ワイナンツ氏は、ディープラーニングのアルゴリズムを販売する企業にその手法に関する情報を共有するよう求めたが、返答は得られなかった。その後、彼女は同社と提携している研究者から公開されたモデルをいくつか受け取りましたが、当然のことながら、これらのモデルには高いバイアスのリスクがありました。

「この会社が何をしているのか、私たちは実際には知りません。病院の中には、医療用AIベンダーと秘密保持契約を結んでいるところもあります」と、ローレ・ウィナンツ氏は言う。彼女が医師たちに、どんなアルゴリズムやソフトウェアを使用しているのか尋ねたところ、病院側はそれらを共有することを許可していないと言われた。

3. AI開発者は臨床医と協力する必要があり、専門家は「データ共有」を求める

より良いデータはこの問題の解決に役立つかもしれないが、危機の時にはそれを手に入れるのは難しい。デレク・ドリッグス氏は、既存のデータセットを最大限に活用し、AI開発チームが臨床医とより協力できるようにすることが重要だと述べた。開発者はモデルを共有し、モデルをどのようにトレーニングしたかを公開することが推奨されます。そうすることで、他のユーザーがモデルをテストし、それに基づいて情報に基づいた意思決定を行うことができます。

「今できるいくつかの対策で、おそらく見つかった問題の50％は解決できるだろう」とデレク・ドリッグス氏は語った。

ロンドンに拠点を置く世界的な健康研究慈善団体ウェルカム・トラストの臨床技術チーム責任者、ビラル・マティーン氏は、フォーマットが標準化されていればデータへのアクセスも容易になると語る。

Laure Wynants、Derek Driggs、Bilal Mateen が発見した問題は、ほとんどの開発者が他の開発者と協力したり既存のモデルを改良したりするのではなく、独自のモデルの開発を急ぐことです。その結果、世界中の開発者が協力して少数の訓練およびテスト済みのツールを作成するのではなく、共同で何百もの役に立たないツールを作成することになります。

「モデルは非常に似ており、わずかな調整を加えたほぼ同じ技術を使用し、ほぼ同じデータを入力し、ほぼ同じ間違いを犯します」とローレ・ワイナンツ氏は語った。

「ある意味、これは研究における昔からの問題です。学術研究者が自分の研究を共有したり、既存の結果を検証したりする動機がほとんどありません。最後の技術を研究室のベンチからベッドサイドに持ち込むことには、何の見返りもありません」とビラル・マティーンは言う。

この問題に対処するため、世界保健機関は国際的な健康危機の際に発効する緊急データ共有協定の締結を検討している。これにより、研究者は国境を越えてデータを共有しやすくなります。 6月に英国で開催されるG7サミットを前に、参加国の主要な科学団体も、将来の健康上の緊急事態に備えるために「データを準備しておくこと」を求めた。

こうした呼びかけは漠然としており、希望的観測の色合いを帯びているように聞こえる。新型コロナウイルス感染症のパンデミック以前、データ共有に向けたこうした取り組みは行き詰まっていた。

ビラル・マティーン氏は、COVID-19パンデミックによって多くのことが再び議題に上がったと考えている。「データ共有の問題を解決する前に、データを共有しないことの背後にある課題を克服する必要があることに全員が同意しない限り、私たちは同じ過ちを繰り返す運命にある」と彼は述べた。「このような過ちが再び起こることは許されないし、この世界的なパンデミックの教訓を忘れることは死者に対する失礼だ」

結論：感染症との戦いで明らかになったAIの欠点

新型コロナウイルス感染症のパンデミックは世界を襲った災害です。 COVID-19パンデミックとの闘いは、特定の個人、グループ、または国の責任ではなく、全人類が参加しなければならない闘いです。

AIはこの戦いで大きな役割を果たすと予想されており、多くの研究チームが医師によるCOVID-19の検出と診断を支援するためにさまざまなAIツールの開発に携わっています。しかし、これらの AI ツールは実際には機能しないことが判明しました。しかし、これは病気の診断における AI の可能性を否定するものではありません。

AIが新型コロナウイルスを検出するためには、一方ではAIを訓練するためのより正確で完全なデータセットが必要であり、他方ではAIツールの開発者が医療分野の専門家と協力して、より効果的にAIの抜け穴を発見することも必要だ。

さらに、このような世界的な健康危機に対応するには、各国が協力してオープンな研究環境を構築し、さまざまな国の科学研究グループ間であらゆる種類の関連研究データをより自由に流通させ、研究成果を病気との闘いにより効果的に活用できるようにする必要があります。

適切に訓練されていれば、AIは病気をより効率的かつ正確に診断することができますが、残念ながら、期待されていたAIツールの中には、COVID-19パンデミックとの戦いにおいて本来の能力を発揮できなかったものもありました。この世界的な流行から学んだ教訓により、AI 開発者や関連組織は自らの欠点を認識し、世界で発生する可能性のある次の新たな危機に備えることができるようになるかもしれません。

<<: AIはサイバーセキュリティにおいて人間に取って代わるでしょうか?両者は対立していない

>>: 機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!