なぜ医療においてAIを信頼できないのか?データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

なぜ医療においてAIを信頼できないのか?データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、いくつかの実用的な応用シナリオが登場しています。しかし、AI による正確な医療診断は難しいようです。その理由は何でしょうか? この記事では、AI による医療診断に関する独自の洞察を探り、まとめます。

[[392053]]

近年登場した新しい分野として、AIと医療の融合は大きな発展の可能性を秘めています。医療用のAIアルゴリズムは次々と登場しています。この分野には将来性を感じていますが、いくつかの問題点も発見されています。

たとえば、医師がCOVID-19の潜在的な患者をスクリーニングするのを支援するために、AI分野の研究者は、胸部X線やCT画像に基づいてCOVID-19を迅速かつ正確に検出および予測するさまざまな機械学習アルゴリズムを開発しました。しかし、ケンブリッジ大学の研究により、これらのアルゴリズムには重大な欠陥と偏りがあり、実際の臨床応用には使用できないことが判明しました。

実際、AIとヘルスケアの統合に取り組んでいる研究者は数多くおり、多くのプロジェクトがこの分野に投資していますが、この分野にはまだいくつかの実際的な問題が残っています。最近、Reddit の投稿で AI ヘルスケアと AlphaZero が比較され、AI ヘルスケアの問題について多くの議論が巻き起こりました。

データ セットが小さく、認証が必要で、フォールト トレランス コストが高い...

一部のネットユーザーは、データセットのサイズ、人間とコンピュータの相互作用、認証、フォールトトレランスコストの観点からDeepMindのAlphaZeroと総合的に比較し、既存のAI医療診断システムの基本的な問題点を指摘した。

まず、医療データセットは一般的にそれほど大きくありません。これは、医師による注釈付けのコストが高いためです。さらに、医療プロセスは非常に遅いです。たとえば、MRI 装置は 1 時間あたり 2 回しかスキャンを実行できず、1 日あたり最大 48 回、年間 20,000 回未満しか実行できません。病気が 20 種類ある場合、病気ごとに 1,000 回のスキャンしか取得できません。複数の病院からデータを収集する場合、各病院で処理に数か月かかる可能性があり、研究者にはさまざまなフォームに記入する余裕がありません。それに比べて、AlphaZero のデータ収集ははるかに簡単です。ゲームをプレイするだけで、1 時間ごとに数百万のデータが生成されます。

他のユーザーもこの点に強く同意しました。彼はかつて、最初に 3 人の医師によって注釈が付けられ、その後ドメインの専門家によって再検査された MRI データセットを見たことがありますが、このプロセスには長い時間がかかりました。

2 つ目は、人間とコンピューターの相互作用です。少なくとも近い将来、医療診断システムには人間の医師の参加が必要です。したがって、医療診断システムは予測を行うことに加えて、信頼度レベル、その他の可能性のある結果、および有用な補助情報も出力する必要があります。これらに適切に対処する方法は、依然としてほとんど未解決の問題です。 AlphaZero は単一のアクションを出力するだけで済みます。

もう一度、認証です。医療診断システムが機能することを政策立案者や医療免許委員会に「証明」する必要があります。現在、ニューラル ネットワークの説明は未解決の問題であり、説明がそもそも可能かどうか疑問視する人もいます。 AlphaZero には承認や認可は必要ありません。ゲーム サーバーに展開するか、人間のプレイヤーでテストするだけで済みます。

[[392054]]

最後に、フォールト トレランスのコストです。医療診断システムが誤った判断をした場合、その開発者は数百万ドルの訴訟に直面する可能性がある。したがって、システムが正しく実行されていることを確認する必要があります。 AlphaZero は囲碁で負けました。本当にひどかったです、それだけです。

医療診断は一度きりのものではない

データセットのサイズ、医療認証、フォールトトレランスコストなどのマクロ的な問題に加えて、一部のネットユーザーは別の問題にも言及しました。さまざまな状態の患者が診断画像上でまったく同じ症状を示す場合があり、医療診断システムが誤った判断を下すことがあります。

[[392055]]

さらに、異なるマシンや異なるイメージング デバイスによって生成された画像の分布は大きく異なる場合があり、あるマシンで適切に機能するアルゴリズムが別のマシンではまったく適さない場合もあります。解釈可能性も問題です。たとえアルゴリズムが正しい医学的結果を出したとしても、医師はアルゴリズムがどのようにしてその結論に達したのかを尋ねることがよくあります。

実際、診断は AI や ML にとって極めて難しい問題です。患者は複数の病状を抱え、さまざまな症状を経験する場合があります。したがって、医療診断システムの初期診断に加えて、さらなる診断、治療計画、予後、健康スケジュールに対するインテリジェントなサポートも必要です。

AI医療は健康や安全に深く関わる分野であるため、信頼性は最も重要な課題の一つですが、見落とされがちです。病理サンプルの分析においても、ある程度の不確実性が残ることがよくあります。画像にラベルを付けるだけでは、さまざまなバイアスが生じる可能性があります。これは、複数の専門家の間で合意に達した後でも発生する可能性があり、コストが飛躍的に高くなる可能性があります。

ヘルスケアにおける問題は複雑であり、AI は現在、明確な医学的診断や予測を提供するよりも、日常生活に適用されています。ある医師のネットユーザーはこう語った。「AI医療の分野で発表された論文のほとんどは全く役に立たないが、これらの研究は多くの可能性を提供している。今後数年で、この分野の誇大宣伝バブルははじけ、関連規制により、臨床現場にAIツールを導入するハードルが上がるだろう。現在、一部の製品はEUやFDAの支援を受けているが、臨床面での支援はまだない。」

AIが医療に本格的に活用されるまでには、まだ長い道のりがありそうです。

参考リンク:

https://www.reddit.com/r/MachineLearning/comments/mkol81/why_are_correct_ai_medical_diagnoses_seemingly_so/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  機械学習の特徴選択のためのPythonツール

>>:  AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

ブログ    

推薦する

人工知能は製造業の未来をどのように変えるのでしょうか?

ある研究機関が最近発表した調査報告によると、2022年までに人工知能が製造業にもたらす価値は23億ド...

ロボット介護は人間に比べて高齢者にとって負担が少ない?

最近、浙江省金華市のある家族の監視ビデオがインターネット上で話題になった。動画の全長は3分15秒。こ...

...

Java でよく使われる 7 つのソート アルゴリズムの概要

しばらく時間が空いたので、Java でよく使われる 7 つのソート アルゴリズムをまとめてみました。...

2020 年のデータサイエンスのトレンド

企業が自社が所有するビッグデータを高速かつ効率的、コスト効率よく革新的な方法で活用することをますます...

顔認識禁止が迫る:テクノロジー企業はどこへ向かうべきか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

2030 年の汎用人工知能 (AGI) の見通しはどうなるでしょうか?

人工汎用知能 (AGI) とは、人間のような認知能力を備え、さまざまな領域にわたって理解、学習、タ...

Java プログラミング スキル - データ構造とアルゴリズム「フィボナッチ検索」

[[398011]]基本的な紹介フィボナッチとは、線分を 2 つの部分に分割し、一方の長さと全体の...

...

3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理...

顔認識システムにおける「バイアス」のジレンマとは何ですか?ジェフ・ディーンは、この若者のスピーチに思わず賛同した。

AIアルゴリズムの偏り(性別、人種など)は海外ではもはや新しい話題ではありません。少し前には、イン...