Google の医療モデルが Nature に掲載、Med-PaLM が重要な秘密を明らかに! AI医師は人間と同等の能力を発揮する

Google の医療モデルが Nature に掲載、Med-PaLM が重要な秘密を明らかに! AI医師は人間と同等の能力を発揮する

5月のI/Oカンファレンスでは、Med-PaLM 2が大幅にアップグレードされ、エキスパートレベルにまで達しました。

本日、Google は改良された Med-PaLM を発表しました。これも医療問題の解決に大きな進歩をもたらします。

研究結果はNature誌に掲載されました。

写真

論文アドレス: https://www.nature.com/articles/s41586-023-06291-2

この研究の最も重要な貢献は、Google が大規模モデルの臨床能力を評価するための新しい MultiMedQA 評価ベンチマークを提案したことです。

OpenAIはChatGPTで汎用大規模モデルの分野をリードしており、AI+医療の分野ではGoogleが主導的なプレーヤーと言えます。

これと Med-PaLM 2 の違いは何だろうと疑問に思う人もいるかもしれません。

論文の著者らは、Med-PaLM 2 は最新モデルであり、USMLE 形式の質問で 86.5% の精度を達成しており、これは Google 独自の Med-PaLM の最先端の結果よりも 19% の改善であると回答した。

写真

写真

主な貢献

AIの回答をどのように評価するか?特に医療分野では、治療計画や医療行為に極めて高い精度が求められます。

現在、医療モデルを評価する最も一般的な方法は、主に単一の医療検査のスコアに依存しています。

これは、AIを候補として扱い、そのレベルをテストするようなものです。しかし、実際の医療のシナリオでは、AIが状況にうまく対応できない場合があり、未知の場合もあります。

したがって、AI 候補者を本物の AI ドクターに変え、包括的な評価を構築する方法が非常に重要になります。

写真

これに対応して、Google は医療検査や医療研究などの分野の質問と回答を網羅した新しいベンチマーク テスト、MultiMedQA を提案しました。

研究者らは、MultiMedQA に基づいて、PaLM とその命令微調整バリアントである Flan-PaLM も評価しました。

次に、プロンプト戦略の組み合わせを活用することで、Flan-PaLM は MedQA (米国医師免許試験 USMLE)、MedMCQA、PubMedQA、および MMLU の臨床トピックで SOTA を上回ります。

特に、MedQA (USMLE) では以前の SOTA を 17% 以上向上させます。

写真

最後に、研究者らは、指示ベースの微調整を通じて Flan-PaLM を医療分野にさらに適合させ、新しい医療モデルである Med-PaLM を提案しました。

人間による評価フレームワークでは、消費者の医療に関する質問に対する Med-PaLM の応答は、臨床医による応答と比較して良好であり、指示プロンプトを微調整することの有効性が実証されました。

写真

大規模医療モデルの最新ベンチマークであるMultiMedQA

Google の最新の Nature 研究の最初の重要な貢献: 医療に関する質問への回答のコンテキストにおける LLM の評価。

Google が構築した最新のベンチマークである MultiMedQA は、7 つの医療質問回答データセットで構成されるベンチマークです。

これらには、MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA、MMLU Clinical Topics の 6 つの既存のデータセットが含まれます。

ここで、Google が新しいデータセット、7 番目のデータセット「HealthSearchQA」を追加したことは注目に値します。

これはよく検索される健康に関する質問で構成されており、このデータセットだけでも 3,173 件の一般的な消費者の医療に関する質問が含まれています。

具体的には、これらのデータセットは次のように構成されています。

写真

- MedQA データセットは、4 つまたは 5 つの回答が可能な USMLE スタイルの質問で構成されています。開発セットは 11,450 問で構成され、テスト セットには 1,273 問が含まれます。

- MedMCQA データセットには、インド医学部入学試験 (AIIMS/NEET) の 4 択多肢選択問題が 194,000 件以上含まれています。このデータセットは、2,400 件のヘルスケア トピックと 21 件の医療トピックをカバーしています。開発セットは豊富で、187,000 を超える質問が含まれています。

PubMedQA データセットは、専門家がラベル付けした 1,000 個の質問と回答のペアで構成されており、そのタスクは、コンテキストとして PubMed の要約を含む質問が与えられた場合に、はい/いいえ/多分の複数選択の質問に対する回答を生成することです (Q+Context+A)。

- MMLU には 57 分野の試験問題が含まれています。チームは、医学知識に最も関連性の高いサブタスクとして、解剖学、臨床知識、大学医学、医学遺伝学、専門医学、大学生物学を選択しました。各 MMLU サブタスクには、4 つのオプションと回答を含む複数選択の質問が含まれています。

- LiveQA データセットは、2017 Text Retrieval Challenge (TREC) の一環としてキュレーションされました。このデータセットは、国立医学図書館 (NLM) に提出された医学的な質問で構成されています。

- MedicationQA データセットは、医薬品に関する一般的な消費者の質問で構成されています。質問に加えて、データセットには薬物の焦点と相互作用に対応する注釈も含まれています。

MultiMedQA を使用して LLM を評価するために、研究者らは、5,400 億のパラメータを持つ LLM である言語モデル PaLM と、その命令を微調整したモデルバリアントである Flan-PaLM を構築しました。

モデル開発とパフォーマンス評価

この研究の2番目の重要な貢献は次のとおりです。

Flan-PaLM は、少数ショット、CoT、自己一貫性ヒント戦略の組み合わせにより、MedQA、MedMCQA、PubMedQA、MMLU 臨床トピックで SOTA を達成し、いくつかの強力な LLM ベースラインを上回りました。

写真

3 番目の重要な貢献は次のとおりです。

この研究では、指示プロンプトの微調整を導入し、Med-PaLMを構築しました。これは、LLM を安全性が極めて重要な医療分野に合わせるための方法です。

MedQAの最新技術

4 つの選択肢がある USMLE 形式の質問で構成される MedQA データセットでは、Flan-PaLM 540B モデルは 67.6% の複数選択精度を達成し、DRAGON モデル (他の論文で使用) よりも 20.1% 高くなりました。

Google の研究と並行して実施された PubMedGPT は、生物医学の抄録と論文に特化してトレーニングされた 27B モデルであり、4 つの選択肢がある MedQA の質問で 50.3% のスコアを達成しました。

これは MedQA における最先端の技術であり、Flan-PaLM 540B はこれを 17.3% 上回ります。

MedMCQAとPubMedQAの結果

インドの医学部入学試験の質問で構成される MedMCQA データセットでは、Flan-PaLM 540B は開発テスト セットで 57.6% のスコアを達成し、Galactica モデルが達成した最高スコア 52.9% を上回りました。

同様に、PubMedQA データセットでは、Google のモデルは 79.0% の精度を達成し、以前の最先端モデル BioGPT21 を 0.8% 上回りました (上図参照)。

MedQA および MedMCQA データセットと比較すると改善は控えめであるように見えますが、PubMedQA での単一評価者のスコアはわずか 78.0% であり、このタスクのスコアには一定の上限がある可能性があることを示しています。

MMLU臨床トピックにおけるパフォーマンス

MMLU データセットには、複数の臨床知識、医学、生物学関連のトピックからの複数選択質問が含まれています。

これらには、解剖学、臨床知識、専門医学、人類遺伝学、大学医学、大学生物学が含まれます。

Flan-PaLM 540B はこれらすべてのサブセットで最高の結果を達成し、専門医学と臨床知識のサブセットでは、それぞれ 83.8% と 80.4% という最高の精度を達成しました。

次の図は結果をまとめ、他の LLM と比較したものです。

写真

アブレーション実験

私たちは、結果をより深く理解し、Flan-PaLM のパフォーマンスに貢献する主要なコンポーネントを特定することを目的として、3 つの多肢選択式質問データセット (MedQA、MedMCQA、PubMedQA) に関するいくつかのアブレーション研究を実施しました。

命令の微調整によりパフォーマンスが向上

すべてのモデル サイズにおいて、命令を微調整した Flan-PaLM モデルは、MedQA、MedMCQA、および PubMedQA データセットのベースライン PaLM モデルよりも優れたパフォーマンスを発揮することがわかりました。

PubMedQA データセットでは、8B の Flan-PaLM モデルがベースライン PaLM モデルよりも 30% 以上優れています。

62B および 540B バリアントの場合にも同様の大幅な改善が見られました。

下の図に示すこれらの結果は、命令の微調整の強力な利点を示しています。

写真

Google は、指導キューの微調整が多肢選択問題の正確性に与える影響について徹底的な分析を行っていません。

このセクションでは、Google Analytics は Med-PaLM ではなく Flan-PaLM を対象としています。

スケーリングにより医療に関する質問に答えるパフォーマンスが向上

モデルを 8B から 540B にスケーリングすると、PaLM モデルと Flan-PaLM モデルの両方でパフォーマンスが約 2 倍向上します。

これらの改善は MedQA および MedMCQA データセットでより顕著であり、特に Flan-PaLM では 540B バリアントによってパフォーマンスが 62B バリアントよりも 14% 以上、8B バリアントよりも 24% 以上向上します。

これらの結果と Flan-PaLM 540B モデルの優れたパフォーマンスを考慮して、Google はその後の実験とアブレーション研究をこのモデルに基づいて行う予定です。

思考連鎖のヒント

研究者らは、MedQA、MedMCQA、およびPubMedQAの多肢選択データセットにおいて、標準的な少数ショットのキューワード戦略に比べてCOTの改善は見られなかったと報告しています。

これは、特定の答えに至る推論パスが多数存在し、ランダムにパスを選択すると最も正確な結果が得られない可能性があるためです。

さらに、研究者らは非医療的なCOTプロンプトの使用についても調査しました。

下の図の結果は、COT ヒントが、モデルに新しい知識を追加せずに、モデルをガイドしてこれらのタイプの問題を解決するのに効果的であることを示しています。

写真

人間による評価結果

研究者らは、人間による詳細な評価のための小規模な長文回答ベンチマークとして、HealthSearchQA から 100 問、LiveQA から 20 問、MedicationQA から 20 問をランダムに選択しました。

では、具体的な評価結果はどうでしょうか?

理解、検索、推論

Med-PaLM の医学的理解、知識検索、推論における機能を調査します。

チームは臨床医のパネルを招き、回答に正しい医学的読解力、医学的知識の検索、医学的推論(1 つ以上の例)が含まれているかどうかを評価しました。

比較すると、専門家の回答は Flan-PaLM の回答よりもはるかに優れていることがわかります。また、指示プロンプトの微調整により Med-PaLM のパフォーマンスが大幅に向上しています。

たとえば、医学知識の証拠を正しく検索することに関しては、臨床医の回答のスコアは 97.8 パーセントであったのに対し、Flan-PaLM のスコアは 76.3 パーセントでした。

しかし、指示プロンプトで微調整された Med-PaLM モデルは 95.4% のスコアを獲得し、臨床医との差を縮めました。

写真

コンテンツが間違っているか欠落している

モデルの回答に情報が不足していないか、または誤った回答が返されていないかを評価するには、生成された回答の完全性と正確性を理解する必要があります。

臨床医が不適切または誤った内容を伝えた割合は 1.4% であったのに対し、Flan-PaLM では 16.1% であった。

指示プロンプトの微調整によりパフォーマンスが低下したようで、Med-PaLM の回答の 18.7% に不適切または誤った内容が含まれていると判断されました。

写真

対照的に、指示ヒントの微調整により、「重要な情報の欠落」という点でモデルのパフォーマンスが向上します。

Flan-PaLM の回答の 47.6% が重要な情報を省略していると判断されたのに対し、Med-PaLM の回答ではわずか 15.3% で、臨床医との差は縮まりました。

写真

評価に基づくと、臨床医の回答では 11.1% の確率で情報が省略されていると判断されました。

次の表は、LLM の回答が将来の使用シナリオで患者の質問に対する医師の回答を補足および改善するために使用できることを示す定性的な例を示しています。

これらの結果に対する考えられる説明の 1 つは、指示キューの微調整によって Med-PaLM モデルが Flan-PaLM モデルよりも詳細な回答を生成するように学習し、重要な情報の省略が減ったというものです。

写真

科学的コンセンサスと安全性

科学的コンセンサスの観点から見ると、臨床医の回答の 92.9% がそれと一致していました。

同時に、アライメントに新しい指示指示による微調整技術を使用する Med-PaLM も、92.6% の確率でこれと一致しています。

対照的に、一般的な指示のみで微調整された Flan-PaLM の一貫性はわずか 61.9% です。

写真

さらに、指示プロンプトを微調整することで、生成される回答をより安全なものにすることもできます。

このうち、Flan-PaLM の回答の 29.7% は潜在的な危害リスクがあると考えられていましたが、Med-PaLM ではその数字は 5.9% に低下し、臨床医が生成した回答 (5.7%) と同程度でした。

同様に、傷害の可能性の評価では、指示キューの微調整により、Med-PaLM の回答は専門家が生成したものと同等になりました。

写真

医療人口統計上の偏り

偏見評価のために、チームは回答に不正確な情報や特定の集団には当てはまらない情報が含まれているかどうかを把握しようとしました。

それぞれの回答について、レビュー担当者は、提供された回答に特定の患者グループまたは人口統計セグメントには当てはまらない、または不正確な情報が含まれているかどうかを尋ねられました。

写真

たとえば、回答は特定の性別の患者にのみ関連し、他の性別の患者には異なる情報が必要になる可能性がありますか?レビュー担当者は「はい」または「いいえ」で回答する必要があります。

このバイアスの定義によれば、Flan-PaLM の回答には 7.9% の確率で偏った情報が含まれていると判断されました。

しかし、Med-PaLM の場合、この数字は 0.8% に低下し、1.4% のケースで偏見の証拠が含まれていると判断された臨床医の回答と比べて大幅に改善されました。

一般ユーザー評価

専門家による評価に加えて、研究チームは、非分野の専門家グループ(インドの非医療分野の一般人)にも回答の評価を依頼しました。

図に示されているように、Flan-PaLM の回答が役に立ったと判断されたのは 60.6% のみでしたが、Med-PaLM の回答が役に立ったと判断されたのは 80.3% でした。

しかし、これは臨床医の回答に比べるとまだ劣っており、臨床医は回答が 91.1% の確率で役に立ったと評価しました。

同様に、Flan-PaLM の回答は 90.8% の確率でユーザーの質問に直接答えていると考えられました。 Med-PaLMの割合は94.4%で、臨床医の回答は95.9%でした。

一般ユーザーによる評価では、プロンプトを微調整することで、より満足のいく回答が得られることがさらに実証され、人間の臨床医が提供する出力品質に近づくためには、まだ多くの作業が必要であることも示唆されています。

写真

<<:  Google Bard「叙事詩」アップデート:カスタマイズされた中国語サービス、画像分析機能を公開

>>: 

ブログ    
ブログ    
ブログ    

推薦する

グラフアルゴリズムシリーズ: 計算グラフにおける最短経路

[[398324]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

機械学習が交通と物流に革命を起こす4つの方法

AI は、自動運転車、より優れたルートマッピング、より正確な予測を通じて、輸送と物流をよりスマートか...

Google AIオープンソース:携帯電話で3D物体検出が可能、しかもリアルタイム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

60歳以上のインターネット利用者は音声検索やAI学習ツールを活用し、急速に増加している

高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...

注目すべきAIハードウェアスタートアップ3社

AI は本質的にはソフトウェアの追求ですが、ハードウェア エンジニアに多くの機会を生み出し、多くのス...

ガートナーの2020年のトップ10戦略的テクノロジートレンド: ハイパーオートメーション、分散クラウド、AIセキュリティなど

ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...

バナナの皮をむくのに9つの手順が必要ですか?ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...

PenFedは人工知能を活用して高度なパーソナライゼーションを実現

米国第2位の信用組合であるPenFedは、人工知能を活用して顧客とのやり取りの方法を変えようとしてい...

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...

...

人工知能チュートリアル (V): Anaconda とさらなる確率理論

このシリーズの前回の記事では、まず TensorFlow の使い方を紹介しました。これは、人工知能お...

AI時代のセキュリティ情勢にはどのような新たな変化が起こっているのでしょうか?

近年、世界の人工知能産業は急速な発展の勢いを見せており、セキュリティ状況はますます複雑になっています...