これから議論する論文で採用されているアプローチは、これまでのどのアプローチよりも間違いなく優れています。当初は、1 つのブログでいくつかの類似した論文について議論したいと思っていましたが、残念ながら、各論文には人々が深く考える価値のある内容が多数含まれているため (この記事はすでに 3,000 語を占めています)、すべてのスペースを各論文の詳細な調査と理解に費やしたいと思います。その後、数週間にわたってこれらの記事を個別に議論し、医療用人工知能に関するブログシリーズを作成します。 このテーマに関しては、私が提起した多くの質問に非常に詳しく回答してくださった論文の著者の一人、リリー・ペン博士に深く感謝いたします。 以下に簡単な要約を示します。 要約: Google(とその協力者)は、糖尿病性網膜症(世界中で失明の5%の原因となっている)を検出するシステムをトレーニングしており、このシステムは眼科医と同等の診断を下すことができる。 これは有用な臨床タスクです。多額の費用を節約できるわけではないし、医療の自動化後に医師に取って代わるわけでもありませんが、その提案には素晴らしい人道的感情が込められています。 彼らはトレーニングに 130,000 枚の網膜画像を使用しましたが、これは公開されているデータセットよりも 1 ~ 2 桁大きいものです。 彼らは、肯定的な事例でトレーニング セットを充実させ、不均衡なデータ分布の影響をある程度相殺しました。 ほとんどのディープラーニング モデルは低解像度の画像でトレーニングされるため、元のデータはダウンサンプリングされ、ピクセル値の 90% 以上が破棄されましたが、これが有益であったかどうかを評価することはできませんでした。 彼らは、注釈をより正確にし、誤診を避けるために、画像に注釈をつける眼科医のチームを雇ったが、これには数百万ドルの費用がかかる可能性がある。 ポイント 5 と 6 は、現在のすべてのディープラーニング システムのエラー率が高い理由ですが、この問題はほとんど議論されていません。 ディープラーニングは、さまざまな「動作ポイント」で動作することができ、追加のトレーニングを必要とせずに同じシステムで高感度スクリーニングと高特異度診断を実行できるため、医師よりも優れています。 これは、人々が簡単に理解できる優れた研究コンテンツであり、本文と補足資料には多くの有用な情報が含まれています。 この研究は、510(k) 承認に関する現在の FDA の要件を満たしていると思われます。この技術が承認される可能性は低いですが、このシステムまたはその派生システムが今後 1 ~ 2 年以内に臨床実践に組み込まれる可能性は高いです。 免責事項:この記事は主に機械学習分野の専門家、医師などを含む一般の人々を対象としています。関連する専門家は、いくつかの概念に対する私の理解が表面的であると感じるかもしれませんが、それでも私は彼らが自身の研究分野以外でより興味深い新しいアイデアを見つけられることを願っています。もう一つ強調したい点は、この記事に間違いがあれば私に知らせていただければ、すぐに修正します、ということです。 研究状況 議論の前に、ディープラーニングは2012年以降、研究者の間で頻繁に使用される手法へと徐々に発展してきたものの、5年以内に医療分野でこの手法が使用されたことはないことを皆さんに思い出していただきたいと思います。安全上の理由から、私たちの医療従事者は通常、技術の発展から一歩遅れています。こうした背景を理解すると、これまでに達成された成果のいくつかはさらに驚くべきものであることが想像でき、医療における人工知能の発展は始まったばかりであることを客観的に認識できるはずです。 この論文では、医療の自動化が画期的な進歩を遂げたと提唱しており、本稿ではその点について簡単にレビューし、必要に応じていくつかの有用な知識も追加します。この研究についてさらに詳しく紹介しますが、その前に、いくつかの重要な問題について少し説明したいと思います。 タスク – これは臨床タスクですか?自動化が導入された場合、医療現場にどの程度の混乱が生じるでしょうか?なぜこの特定のタスクが選ばれたのでしょうか? データ – 必要なデータはどのように収集され、処理されますか?医学実験および監督の要件を満たすためにデータをどのように処理すればよいでしょうか?ビッグデータに対する医療用人工知能の要件をより深く理解する必要があります。 結果、AIは医師に勝つのか、それとも同点になるのか?彼らは具体的に何をテストしたのでしょうか?他に何か得られるものはありますか? 結論 – この結果はどれほど影響力があるのでしょうか?さらに何か結論を導き出すことはできますか? Google の最新調査 タスク: 糖尿病性網膜症は失明の主な原因であり、眼の奥にある小さな血管の損傷によって引き起こされます。医師は眼球の奥の血管を観察することで診断を下すことができますが、これは本質的には知覚的な作業です。 図1 例えば、DLシステムは「綿の斑点」のような白い斑点を認識する方法を学習できる。 彼らは、糖尿病性網膜症に関連するいくつかのタスクを完了および評価するためのディープラーニング システムをトレーニングし、主な結果として、中等度以上の眼疾患を患う糖尿病性網膜症患者グループ (対照群の患者とは異なる治療を受けた) の評価を実現しました。研究者らは、ディープラーニングシステムが他の深刻な網膜疾患や黄斑の腫れの有無を識別する能力についてもテストした。 データ: 設計されたディープラーニングシステムをトレーニングするために、13万枚の網膜画像が使用されました。各レベルは3〜7人の眼科医の投票によって決定され、最終結果は多数決で決定されました。画像は、異なるカメラで撮影された 4 つの病院 (米国の EyePACS とインドの 3 つの病院) の遡及的臨床データから収集されました。 彼らは 2 つのデータセットでシステムを検証しました (医学では、「検証」という用語は、システムの開発とトレーニングに関与していない患者を指し、機械学習のテスト セットと同じです)。データセットの 1 つは EyePACS データセットからランダムにサンプリングされたもので、もう 1 つのデータセットはフランスの 3 つの病院 (Messidor-2) の公開データセットです。 2 番目のデータセット内のすべての画像は同じカメラで撮影されました。これらのテスト セットは、多数決メカニズムを使用して 7 ~ 8 人の眼科医によって採点されました。 開発とトレーニングに使用したデータセットでは、網膜症の有病率は55%、悪化率は8%でした。検証データにおける患者の有病率は、一般患者のそれよりもはるかに低く、19.5%の有病率のうち、重症または悪化したのはわずか1.7%でした。このようなデータセットは研究者によって意図的に設計されており、トレーニング セットには多くの陽性症例が含まれています (臨床集団で通常発生する症例よりも多くの症例が追加されています)。 データセットの品質に関しては、網膜画像の解像度は通常 1.3 ~ 3.5 メガピクセルの範囲です。これらのピクセルは、299 x 299、つまり 0.08 メガピクセルの解像度に縮小されます (ピクセル数が 94 ~ 98 パーセント減少します)。これは彼らが設計したネットワーク構造の特性であり、他のサイズや解像度の画像は使用できません。 ニューラルネットワーク: 彼らは、これまでに使用された画像処理システムの中でも最も優れたものの 1 つである、Google の Inception-v3 ディープ ニューラル ネットワークの事前トレーニング済みバージョンを使用しました。事前トレーニング済みとは、ネットワークがいくつかの非医療用オブジェクト (猫や車の写真など) でトレーニングされ、その後、これに基づいて特定の医療用画像でトレーニングされていることを意味します。これは、ネットワークが 229*229 解像度の画像入力のみを受け入れる理由でもあります。 結果: この論文は、医療人工知能の分野におけるディープラーニングの最初の大きな進歩であると思います。この機械は眼科医とほぼ同等の病気診断能力を持ち、「中級」レベルの眼科医にも匹敵する優れた診断能力を持っています。 図 2 これはいわゆる ROC 曲線であり、病気の診断システムを判断するための最良の方法の 1 つです。 曲線下面積 (AUC) を計算することで、感度と特異度を 1 つのメトリックに組み合わせることができます。 99.1%は非常に良好です。 色のついた点は専門の眼科医の診断結果、黒い線は訓練されたディープラーニングシステムの診断結果です。ご覧のとおり、色付きの点をすべてつなげると、ディープラーニング システムの ROC 曲線に似た眼科医の診断の ROC 曲線* が得られます。 ROC 曲線について知らない場合でも、2 つの診断が同等であることを証明する完全に有効な方法であることを信じてください (FDA も私に同意するでしょう)。 彼らのシステムは黄斑浮腫を非常に正確に検出できますが、一部の重度の網膜病変では絶対値(AUC値)データが多少不足していますが、眼科医との直接比較ではこの点は説明できませんでした。 話し合う: この研究について議論すべき興味深い点がいくつかあります。 コスト: データに注釈を付けるために眼科医のチームを雇いましたが、注釈を付ける必要があったラベルは合計 500,000 個でした。通常の医療費を医師に支払った場合、おそらく数百万ドルの費用がかかるでしょう。このコストはほとんどのスタートアップが費やすコストよりも高く、単一のデータセットにラベルを付ける余裕は確かにありません。統計的な観点から見ると、データは力です。医療用人工知能の場合、これほど大量のデータを生成できるのはお金だけです。つまり、お金は力なのです。 課題:彼らは、目の写真から 2 種類以上の「目に見える目の病気」(中程度または重度の網膜症)と、さらに重度の網膜症および黄斑浮腫を検出することができました。これらはすべて臨床実践において非常に重要なタスクです。最も重要なのは、これらの作業は、ほとんどの医師が糖尿病患者の目を診察するときに行っている作業と同じであるということです。もちろん、このシステムではまれな網膜黒色腫を検出することはできませんが、定期的な眼科検査では、医師の作業をうまくシミュレートできるシステムです。 データ: データは、品質と量という 2 つの理由から興味深い領域です。 彼らが行った一連の実験から、必要だった写真の枚数がわかります。彼らはまた、さまざまな数のトレーニング サンプルを使用してシステムのパフォーマンスをテストしました。 図3. データセット内の画像数(千単位) この画像は非常に興味深いことを示しています。トレーニング セットには、少なくとも 97% の感度動作点にある 60,000 枚の画像が上限として含まれています。注目すべきは、これは公開されているデータセットよりも 1 ~ 2 桁大きいことであり、実験の感度が 97% を超える場合は、データ要件が間違いなく増加するということです。 この結果は、データセットのサイズに関する別の情報も教えてくれます。彼らが眼科医の仕事を再現しようとしたところ、一般的な眼疾患を90パーセントの感度で検出できたが、重篤な疾患やより深刻な疾患の検出感度は84パーセントにとどまった。これは、重篤な病気を特定する作業がより困難になるためと考えられます。 さらに、「中等度または重度」の病気のトレーニング データが通常の 3 ~ 4 倍あることに気付きました。絶対データは少なく(約 9500 件対 34000 件)、眼疾患の有病率のデータも少なくなっています(陽性 9% 対 陽性 30%)。 機械学習には不均衡な分布を持つトレーニングデータが必要ですが、不均衡なデータを入手するのは簡単ではありません。私の経験上、不均衡比率が 30/70 未満の場合、機械学習を進めることは困難になります。このようなデータは、トレーニングを困難にするだけでなく(例が少ない = 学習が少ない)、実際の診断も困難にします(マルチクラスの問題を予測するときにシステムにノイズが発生します)。 しかし、研究グループもこの課題の解決に取り組んでいることがわかりました。スクリーニング対象集団では、「参照」疾患の有病率は 10% 未満であるため、これは非常に不均衡な作業です。そのため、彼らは追加の陽性症例でトレーニングデータセットを拡張し、有病率を 30% に引き上げました。このようにして、トレーニングの結果が向上します。さらに、このシステムは検証データで良好なパフォーマンスを示し、臨床的有病率は約 8% でした。 しかし、より小さなデータセットを増幅するというこのアプローチは、より多くの陽性事例がある場合にのみ機能し、そのようなケースは多くありません。不均衡なデータを処理する方法はすでにいくつかありますが、不均衡なデータを処理する最適な方法はまだありません。 データ品質に関して興味深い観察結果が 2 つあります。 1 つ目はデータのダウンサンプリングです。このシステムは、画像のピクセル数が人間が観察するものより 98% 少ないにもかかわらず、人間と同じ観察結果を生成できるでしょうか?このシステムは本当にそれができると確信を持って言えます。もちろん、破棄されるピクセルのほとんどは役に立たないノイズ情報であるという前提があり、そうでなければディープラーニング システムのトレーニング プロセスがより困難になります。人間はコンピュータよりも視覚的なノイズを無視するのが得意です。 これは実際にはもっと深い意味があります。なぜなら、ディープラーニング システムは小さな画像を処理する場合によく使用されてきましたが、数百万ピクセルの大きな画像を処理する場合にはそれほど効果的ではなかったからです。実際には、高解像度の画像にはより有用な情報が含まれている可能性がありますが、ディープラーニング システムには適していません。 ダウンサンプリングの考え方は、一連の疑問を提起します。 高解像度画像ではディープラーニングをより効果的にトレーニングできますか? 低解像度の画像はすべての医療作業に適していますか? 技術的な観点から、高解像度の画像をディープラーニングで使用できますか? これらの質問の答えはわかりませんが、今後数週間で他の論文を読むことでわかるでしょう。 データ品質に関する 2 番目の興味深い側面は、注釈の品質です。機械学習では、非常に正確な情報が必要です。つまり、トレーニング データが正しくラベル付けされることを期待します。たとえば、網膜症のトレーニング データは実際の網膜症である必要があります。これらの理論は言うのは簡単ですが、実際には病気の診断に関して医師によって意見が異なることがよくあります。つまり、論文の著者はデータだけを提供したのです。 このグラフから、中等度以上の病気の場合、少なくとも 1 人の医師が他の医師と矛盾する結論に達する可能性が 80% あることがわかります。したがって、一貫したラベルを使用することで、人為的なエラーの可能性を減らすことができます。 ただし、データセット内のラベル エラーは回避が難しく、モデルのパフォーマンスに悪影響を与える可能性があります。ディープラーニングは、与えられたものを何でも学習できます。一方、ラベル付けに問題がある場合、ディープラーニングマシンは簡単に誤判断を下す可能性があります。 コンセンサス注釈を持つことがこの問題を解決する唯一の方法ではありません。来週見る皮膚病変に関する論文のように、一部のタスクにはより正確な情報が含まれている可能性があります。この論文の各病変は、病理学者による生検で確定診断されていますが、ばらつきはほとんどありません。極端なケースでは、一部のタスクには非常に完璧なラベルが付けられます。私のプロジェクトの 1 つは、誤解されることのできないラベル、つまり「死亡率」に焦点を当てています。 ラベルに関して言えば、自分がそこに込めた意味がラベルから得られるものと同じだと思います。個々の医師のラベルを使用すれば、少なくともその医師と同じくらい優秀になれます。コンセンサスデータを使用すると、他のどのデータよりも優れた結果が得られます。修正情報を完全に使用すれば、タスクを完璧に完了できる可能性があります。 影響: 医療ロボットを病気のスクリーニングツールとして使用するという著者のアイデアに私は大きな敬意を抱いています。彼らは、機械が眼科医と同じように機能した場合の結果(偽陽性率は低いが、陽性例をいくつか見逃す)と、システムがスクリーニングを最適化した場合の結果(ほぼすべての陽性例を特定するが、依然として偽陽性がいくつかある)を示しました。 これらのシステムには、医師に比べて 1 つの大きな利点があります。人間の医師は、仮想 ROC 曲線上に 1 つの動作点を持っています。この動作点は、医師の経験に基づいた感度と特異度のバランスであり、予測可能な方法で変更することは困難です。対照的に、ディープラーニング システムは追加のトレーニングを必要とせずに ROC 曲線上のどこでも動作できます。追加費用なしで診断モードとスクリーニングモードを切り替えることができる柔軟性は本当に素晴らしいです!実際の臨床試験に非常に役立ちます。 規制当局を考慮すると、この研究は臨床使用のレベルに近づいています。彼らは、症例ごとに複数の参加者がいる実際の医療症例からキュレーションされたデータセットでモデルを検証しました。これは MRMC 調査と呼ばれ、FDA がコンピューター支援テスト システムに使用する一般的な証拠基準です。この研究が診断システムとどう関係するかは不明だが、このシステムまたは類似のシステムが今後 2 年以内に FDA の承認を受けるとしても驚かないだろう。 この作業は、医療費の面ではまだ相当な額です。眼科は医学の大きな部分を占めるものではなく、費用の面でも眼科検査はそれほど高価ではありません。 人工知能を使って眼疾患を検査するこの技術が普及すれば、人類に与える影響は計り知れないものとなるでしょう。多くの発展途上国では糖尿病が深刻な問題となっているが、眼科専門医が深刻に不足している。画像処理は低解像度の画像で最も効果的に機能するため、このシステムを低コストで使いやすいハンドヘルド網膜カメラと組み合わせることで、何百万人もの命を救うことができます。 しかし、たとえ人工知能が網膜症の診断において医師の代わりを務めることができたとしても、医療現場への影響は限られるだろう。さらに、網膜症の自動スクリーニングにより、これまで診断されていなかった患者にさらなる評価と治療が必要になるため、医師の作業負荷が簡単に増加する可能性があると思います。 今のところは網膜症の評価についてのみ議論しましたが、さらにいくつかの論文を見ると、医療自動化の軌跡がもたらす影響について検討できるようになります。 次に、ディープラーニング システムを「皮膚がんを分類」するようにトレーニングしたと主張するスタンフォード大学の論文を見てみましょう。 眼科医の結果が曲線上でどのように分布しているかは、私にとって非常に驚きでした。なぜなら、医師によって予測が大きく異なることがあるからです。 医師の中には、偽陽性はゼロだと考える人もいれば、偽陽性が10%あると考える人もいました。それは大きな誤差の余地です。 最初に画像をスライスするなどのいくつかの解決策が使用されてきました。しかし、これにより通常、負の例の数が大幅に増加し、データの不均衡の問題が悪化します。 |
<<: Frontier Insights: VRヘルメットをかぶって操作できるロボット
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[201520]] Silicon Valley Data Science の研究者らは、リカレン...
現在、AI 市場はスタートアップから政府、軍隊に至るまで、業界全体で急速に成長しています。いくつかの...
ガベージコレクションのボトルネック従来の世代別ガベージ コレクション方式では、ある程度、アプリケーシ...
銀行の収益モデルとは何でしょうか? 3 つの言葉: 情報の非対称性です。銀行は預金者から資金を集めて...
2019年、国内外の業界関係者が共同でAIチップの開発を推進しました。 7nmチップはまだ完全に展...
人工知能といえば、最先端のクールなアプリケーションのほかに、この話題になると「偽物」という言葉が思い...
[[408123]]最近、Google Brain チームは Vision Transformer ...
IoT アプリケーションでは、AI はデータ スタックの「最上位」で使用されることが多く、複数のソー...
ヒント エンジニアリング技術は、大規模な言語モデルが検索強化型生成システムで代名詞などの複雑なコア参...
自律型ドローン技術は、業界全体に変革をもたらす力として登場し、比類のない効率性と革新性を約束していま...
Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...
最近、GPT-4(コンテキスト長32k)、MosaicMLのMPT(コンテキスト長65k)、Anth...
[[210306]]以下は、AI ビジネスを始める方法の紹介です。これは比較的人気のある科学講演で...