Google AIがチューリングテストに合格、ビッグモデルドクターが登場か? GPT-4は17人の医師を困惑させた奇妙な病気を診断した

Google AIがチューリングテストに合格、ビッグモデルドクターが登場か? GPT-4は17人の医師を困惑させた奇妙な病気を診断した

人類に利益をもたらす AGI を開発する必要がある理由の 1 つ:

妻は過去 5 年間、あらゆる種類の痛みに悩まされ、最終的にはエーラス・ダンロス症候群 (過剰可動性症候群) と呼ばれる遺伝性疾患と診断されました。現在の医療システムはさまざまな部門に分かれていますが、この遺伝性疾患であるhEDSは人体のすべてのシステムと臓器に影響を及ぼします。ほとんどの医師は自分の専門分野に関連する症状にのみ焦点を当てているため、総合的な診断を下すことが困難です。

OpenAIの共同創設者グレッグ・ブロックマン氏は、人間の医療問題を解決するためには、現在の高度なAIシステムがさらに進化し続ける必要があると指摘した。

写真

それはゲームを大きく変えるには十分です。誰もが知っているように、医師と患者の間の対話は医療の基礎です。

現在の医療ビッグモデルは、患者の感情に共感を持って対応したり、医療サマリーを要約したり、病歴に基づいて病状を鑑別診断したりするなど、大きな進歩を遂げています。

しかし、臨床医に匹敵する専門知識と強力な会話診断機能を備えた AI を開発することは大きな課題です。

現在、Google DeepMind 研究チームは、「チューリング テスト」に合格した新しい医療会話 AI AMIE を発表しました。

写真

写真

論文アドレス: https://arxiv.org/pdf/2401.05654.pdf

具体的には、AMIE は強化学習アルゴリズムに「自己ゲーム」方式を採用しており、シミュレーション環境で自分自身と対戦することができ、自動フィードバック メカニズムを通じて、さまざまな病気、医療専門分野、環境で拡張学習を行うことができます。

写真

二重盲検患者テキストテストでは、AMIE は呼吸器疾患や心血管疾患などの症状の診断において医師を直接上回り、主治医 (PCP) よりも正確でした。

同時に、AMIE は一貫した共感も示しました。

写真

論文では、AMIE が臨床的に使用されるようになるまでにはさらなる研究が必要であるものの、会話型診断人工知能に向けた画期的な出来事であると述べられています。

結局のところ、Google の最新の研究は、AI 主導の診断会話の未来を示唆しています。近い将来、グレッグが語る AGI が実現するでしょう。

GoogleのAI医師がチューリングテストに合格、診断会話AIの画期的な出来事

診断会話用の AI システムの開発と最適化に加えて、そのようなシステムの評価も難しい問題です。

研究者らは、診察の質と臨床コミュニケーションスキルを測定するために使用されている実際のツールにヒントを得て、病歴聴取、診断精度、臨床管理、臨床コミュニケーションスキル、関係構築、共感などの基準に基づいて診断会話のプロセスを評価するパイロット評価基準を作成しました。

写真

その後、研究者らはランダム化二重盲検クロスオーバー研究を設計し、検証された患者が認定プライマリケア医(PCP)または診断会話に最適化されたAIシステムのいずれかとテキストチャットでやり取りしました。

研究者らは、客観的臨床検査(OSCE)の形で相談シナリオを設定しました。

OSCE は、臨床医のスキルと能力を標準化された客観的な方法で検査する、実社会で一般的に使用されている実用的な評価方法です。

典型的な OSCE 試験では、臨床医は複数の作業シナリオを順番に実行し、それぞれのシナリオで実際の臨床シナリオをシミュレートします。

一例としては、標準化された患者役(特定の病気の患者をシミュレートするために厳格に訓練された人物)との相談が挙げられます。

相談は、現在 LLM を使用しているほとんどの消費者に馴染みのあるインターフェースを模倣した同期テキスト チャット ツールを介して行われます。

写真

AMIE: LLM に基づく会話型診断研究 AI システム

研究者らは、医学的推論、医学的要約、実際の臨床会話などの現実世界のデータセットで AMIE をトレーニングしました。

個々の臨床訪問の受動的な収集と転写を通じて開発された現実世界の会話を使用して LLM をトレーニングすることは実現可能ですが、2 つの大きな課題により、医療会話 LLM のトレーニングにおける有効性が制限されています。

まず、既存の現実世界のデータでは、幅広い病状やシナリオを捉えられないことが多く、データの拡張性と包括性が損なわれます。

第二に、現実世界の会話の書き起こしから得られるデータはノイズが多く、あいまいな言葉(俗語、専門用語、ユーモア、皮肉など)、中断、文法に反する文、あいまいな参照などが含まれています。

これらの制限に対処するために、研究者らは、仮想医療環境での診断医療会話のための自動フィードバック メカニズムを備えたセルフプレイ ベースのシミュレーション学習環境を設計し、研究者らが複数の医療状態や環境にわたって AMIE の知識と機能を拡張できるようにしました。

研究者たちは、説明した現実世界のデータの静的コーパスに加えて、常に変化する一連のシミュレートされた対話を使用して AMIE を反復的に微調整する環境を使用しました。

このプロセスは 2 つの自己ループで構成されます。

(1)AMIEが文脈内の批評家のフィードバックを利用してAI患者シミュレーターとの模擬会話における自らの行動を改良する「内部」自己再生ループ。

(2)完成したシミュレートされた対話のセットがその後の微調整の反復に組み込まれる「外部」の自己再生ループ。

結果として得られる新しいバージョンの AMIE は、再び内部循環に参加することができ、継続的な学習サイクルを形成します。

さらに、研究者らは推論時間の推論連鎖戦略を採用しました。これにより、AMIE は現在の会話状況に基づいて回答を徐々に改善し、十分に根拠のある応答を導き出すことができます。

写真

研究者らはランダム化法を用いて模擬患者(プロの俳優が演じる)のパフォーマンスをテストし、それを実際のプライマリケア医20名のパフォーマンスと比較した。

AMIE は、カナダ、英国、インドの OSCE プロバイダーからのさまざまな専門分野と疾患を網羅した 149 のケース シナリオを含むランダム化二重盲検クロスオーバー研究で、専門医の主治医と模擬患者の視点からプライマリケア医によって評価されました。研究者の研究は、従来の対面式の OSCE 評価を模倣するように設計されたものではなく、臨床医が通常使用するテキスト、電子メール、チャット、または遠隔医療の手法を模倣するように設計されたものでもなかったことに留意することが重要です。

むしろ、研究者の実験は、消費者が今日 LLM とやり取りする最も一般的な方法を反映しており、AI システムが遠隔診断会話を行うための、潜在的にスケーラブルで使い慣れたメカニズムです。

写真

アミーがドクターに勝つ

この場合、研究者らは、AMIE が模擬診断会話において少なくともプライマリケア医と同等の成績を示したことを観察しました。

専門家の観点から見ると、AMIE は診断精度が高く、32 の指標のうち 28 で優れたパフォーマンスを示しました。また、患者の観点から見ると、26 の指標のうち 24 で優れたパフォーマンスを示しました。

写真

AMIE は、研究者が評価しようとしたすべての基準において、プライマリケア医よりも優れた成績を収めました。

写真

専門家によって評価されたトップkの診断精度。 149 の病状に対する AMIE とプライマリケア医によるトップ k 鑑別診断 (DDx) の精度を、基礎にある真の診断 (a) および認識された鑑別診断に記載されているすべての診断 (b) と比較しました。ブートストラップ(n=10,000)により、AMIE と PCP DDx の精度間のトップ k の差はすべて、誤診率(FDR)の補正後に p < 0.05 で有意であることが確認されました。

写真

専門家による診断会話と推論の質の評価: AMIE は 32 の指標のうち 28 でプライマリケア医を上回り、その他の指標でも同等のパフォーマンスを示しました。

臨床医のアシスタントとしてのAMIEの可能性

最近発表された出版前の論文で、研究者らは AMIE システムの初期バージョンが単独で、または臨床医の補助として DDx を生成する能力を評価しました。

20 人の一般診療医が、New England Journal of Medicine (NEJM) の臨床病理学会議 (CPC) に掲載された 303 件の困難な実際の医療症例を評価しました。

各症例報告は 2 人の臨床医によってレビューされ、2 つの補助療法のいずれかにランダムに割り当てられました。

1) 検索エンジンや標準的な医療リソースからの支援、

2) これらのツールを超えた AMIE 支援。

すべての臨床医は、対応する補助ツールを使用する前に、補助なしのベースライン DDx を提供しました。

写真

AMIE の独立したパフォーマンスは、支援を受けていない臨床医のそれを上回りました (トップ 10 の精度は 59.1%、医師は 33.6%、P = 0.04)。

2 つの研究支援を比較すると、AMIE 支援を使用した臨床医は、AMIE 支援を使用していない臨床医 (24.6%、p < 0.01) や検索を使用した臨床医 (5.45%、p = 0.02) と比較して、上位 10 件の正解率が高かった。

さらに、AMIE の支援を受けた臨床医は、AMIE の支援を受けなかった臨床医よりも包括的な識別リストを生成しました。

写真

NEJM CPC は日常の臨床診療を反映したものではないことに注意することが重要です。これらはわずか数百人を対象とした異例の事例報告であり、公平性や正義といった重要な問題を調査する余地は限られている。

大胆かつ責任あるヘルスケア研究 - 可能性の芸術

世界中で、臨床専門知識へのアクセスは依然として不足しています。

AI は特定の臨床アプリケーションで大きな可能性を示していますが、臨床現場で動的な会話型診断プロセスを実行するには、多くの AI システムがまだ実証していない機能が必要です。

医師は知識とスキルを備えているだけでなく、安全性と品質、コミュニケーション、パートナーシップとチームワーク、信頼とプロ意識など、さまざまな原則を遵守する必要があります。

AI システムでこれらの品質を実現することは、研究者が責任を持って慎重に取り組むべき刺激的な課題です。

AMIE は研究者による「可能性の芸術」の探求であり、研究者にケアを提供するよう委託された熟練した臨床医の特性と AI システムがよりよく一致する可能性のある将来のビジョンを安全に探求するための調査システムです。

これはまだ初期の実験段階であり、製品ではないため、いくつかの制限があるが、研究者たちは、会話型、共感型、診断型の AI システムが安全で便利、かつ簡単に使えるようになる未来を見据えて、厳密かつ広範囲にわたるさらなる科学的研究を行う価値があると考えている。

制限

研究者の研究にはいくつかの限界があり、適切な注意をもって解釈する必要がある。

まず、私たちの評価手法では、現実世界における人間の会話の価値を過小評価している可能性が高い。私たちの研究に参加した臨床医は、大規模な LLM 患者とのやり取りを可能にするものの、通常の臨床診療を代表するものではない、なじみのないテキスト チャット インターフェイスの使用に限定されていたためである。

第二に、このような研究は、長い旅の最初の探索的ステップとして捉えられなければなりません。研究者が本研究で評価した LLM 研究プロトタイプから、人々や介護者が使用できる安全で堅牢なツールに移行するには、大幅な追加研究が必要です。

現実世界の制約下での実験的パフォーマンスや、健康の公平性と公正性、プライバシー、テクノロジーの安全性と信頼性を確保するための堅牢性などの重要なトピックの専用調査など、対処する必要がある重要な制限が多数あります。

AIは医療に革命を起こすかもしれない

過去 1 年間の大規模なモデルの開発により、多くの人々が医療における AI の応用の可能性に気付くようになりました。

Google はこの垂直モデル分野の代表的な企業です。

Google の Med-PaLM 2 は 14 の基準に基づいてテストされ、医療専門家のレベルの性能を発揮することが確認されました。

写真

昨年、4歳の男の子が「奇妙な病気」にかかり、3年間で17人の医師に診てもらったが、誰もその痛みの具体的な原因を説明できなかったことを思い出してください。

少年の母親がChatGPTに登録し、病状をアップロードしてようやく正しい診断結果が出た。

最近、あるネットユーザーが、ChatGPTの助けを借りて、ガールフレンドのアレルギー反応を発見したと投稿しました。

写真

午前4時、彼女の全身にじんましんが出た。彼女は病院に行き、医師から静脈内コルチコステロイドを投与され、回復した。医師は保存料や食品化学物質が原因かもしれないと言いましたが、私たちはいつもクリーンな食事をしてきたのに、どうしてこんなことが起こるのでしょうか?

写真

次に、研究者たちは過去 24 時間以内に食べたものをすべて GPT-4 に伝え、最も可能性の高いアレルゲンをランク付けするように依頼しました。

写真

GPT-4は最初、チョコレートの中のヘーゼルナッツが原因だと思ったそうですが、ネットユーザーは突然、昨日スーパーで買った肉のことを思い出し、ゴミ箱から肉を拾い上げて、その材料をGPT-4に与えたそうです...

原材料: 牛肉 (86%)、水、パン粉 (米粉、コーン粉、デンプン、コーン、塩、デキストロース)、塩、ビートエキス、スパイス、芳香性ハーブ、天然香料、保存料 E223 (亜硫酸塩)。

写真

GPT-4 はすぐに亜硫酸塩をじんましんを引き起こす可能性のあるアレルゲンのトップとして挙げ、Google 検索でそれがじんましんの原因の 1 つであることが確認されました。

写真

結局、これは医師の言ったことと一致しており、おそらく食品保存料に対するアレルギーであることが判明しました。

別のネットユーザーも自身の体験を共有し、GPT を使って医師が見逃していた疾患間の関連性を発見した経緯を語りました。

1年前、私の体は自分自身と戦い、専門家が理解できないほど急速に衰弱していきました。その後、GPT が私の副操縦士になりました。

写真

写真

現在、Google が立ち上げた AMIE システムが再び医療 AI 革命をリードしています。

論文の著者らは、「われわれの知る限り、これは診断会話と病歴記録用に設計された初の会話型AIシステムである」と述べた。

AI医療には有望な未来がある。

参考: https://blog.research.google/2024/01/amie-research-ai-system-for-diagnostic_12.html

<<: 

>>:  小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

ブログ    
ブログ    

推薦する

AI時代のセキュリティ情勢にはどのような新たな変化が起こっているのでしょうか?

近年、世界の人工知能産業は急速な発展の勢いを見せており、セキュリティ状況はますます複雑になっています...

強化学習は、抽象的思考を行うときに脳がどのように機能するかを明らかにする

[[418206]] 「すべての芸術はある程度抽象的である。」 20 世紀の世界的に有名な彫刻家ヘン...

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...

機械学習モデルが公平かどうかを簡単に確認する方法

[[361220]] [51CTO.com クイック翻訳] 私たちはますます分断が進む世界に住んでい...

ディープラーニングと群衆カウントの融合

【51CTO.comオリジナル記事】 1. はじめに:昨今、人工知能の研究が盛んになり、機械学習技術...

小売業界におけるロボットの応用は何ですか?

巨大食品店で溢れかえった商品を見つける高さ6フィートの自由に動くロボットから、ウォルマートの在庫をチ...

OpenAIの共同創設者Karpathyがアルパカに恋をする: 赤ちゃんLlama2を実装する純粋なCコード、MacBookが動作可能、1.6kの星を獲得

今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...

...

Go言語で遺伝的アルゴリズムを実装する方法

ただの楽しみのために、Go 言語を学ぶことにしました。新しい言語を学ぶ最良の方法は、深く学び、できる...

Aスターアルゴリズムの実装手順のJavaバージョン

スターアルゴリズムの手順: 1. 最初に、オープン リストに開始点を追加します。 2. オープンリス...

衝突の火花: ディープ AI とワイヤレス センシング (パート 1)

[[435758]]序文モノのインターネット (IoT) の発展により、さまざまな無線信号 (Wi...

Microsoft PowerPoint は 11 月に Copilot を統合します: 数秒でプレゼンテーションを生成

10月13日、Microsoft 365 ロードマップによると、OneNote、Word、OneDr...

...

...

MIT教授が交通渋滞を解決するアルゴリズムを開発

交通渋滞は車をブロックするだけでなく、人々の心もブロックします。車の窓から頭を出して、目の前に無限に...