放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

近年、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で革新の波を起こしています。大規模で高品質なデータトレーニングによって、LLM はさまざまな分野で優れたパフォーマンスを発揮しています。 LLM の台頭により、自然言語を処理する方法を再検討するだけでなく、複数の分野に革新的な「新鮮な血」を注入することになります。注目すべきは、最近 ChatGPT、BLOOM、Llama などの LLM が大量に登場し、急速に進化していることです。これは驚くべきことです。さらに嬉しいのは、Ziya-LLaMA、ChatGLM、baichuanなど、多くの優れた国内モデルもLLMの世界舞台に登場していることです。この傾向は、LLM の継続的な出現と反復を目撃するだけでなく、ヘルスケア分野における LLM の大きな可能性を示しています。

この波の中で、放射線学NLPの分野は大きな注目を集めており、この分野におけるLLMの開発と応用は無視できないトレンドとなっています。しかし、LLM の急速な発展にもかかわらず、放射線科における NLP 機能を体系的に評価する研究は依然として不足しており、特に中国などの多言語国で登場したモデルについてはその傾向が顕著です。これらのモデルは、英語や中国語 (およびその他の言語) での多言語処理機能において独自の利点がありますが、詳細な科学的パフォーマンス評価研究はほとんどありません。医学と放射線医学の分野では、早急に埋める必要のある知識のギャップに直面しています。

したがって、私たちは、これらのグローバルLLMについて厳密かつ体系的な調査と分析を行う必要があると考えています。これにより、LLM の能力と限界についてより包括的かつ深く理解できるようになるだけでなく、LLM をグローバル LLM エコシステムに有機的に統合し、医療および放射線学の分野におけるグローバル LLM コミュニティの発展を促進することができます。この研究の目的は、2 つの公開放射線データセット (MIMIC-CXR と OpenI) でパフォーマンスを広範囲にテストすることにより、31 の主流 LLM が放射線診断情報 (印象) を生成する能力を検証することです。

論文アドレス: https://arxiv.org/pdf/2307.13693.pdf

本研究では、一連の特定の指標を使用して、放射線学的所見から診断情報を生成する能力に基づいてモデルを評価し、特定の指標を使用して、モデルによって生成された診断情報の品質を検証しました。使用されるメトリックには、ゼロショット、ワンショット、および 5 ショットの条件下での Recall@1、Recall@2、および Recall@L が含まれます。これらの指標に基づいて 31 の国際的な主流の LLM を比較することにより、放射線学の分野における相対的な強みと弱みを明らかにし、放射線学における LLM の応用についてより深い理解を提供することを目指しています。

この研究の結果は、放射線科の自然言語処理ツールと LLM の最適化と開発を促進するだけでなく、これらの LLM モデルが放射線科医や医療コミュニティ全体にとって貴重なツールとなり、放射線科の NLP 分野の発展を促進することは注目に値します。課題と機会に満ちたこの時代に、私たちは放射線学の分野における法学修士号の応用に自信を持っており、将来の発展において法学修士号がより重要な役割を果たすことを期待しています。

方法の紹介

試験方法

全体的な実験では、慎重に設計されたプロンプトと推論パラメータを使用して、これら 31 の大規模モデルをテストします。ゼロショット、ワンショット、および 5 ショットの 3 種類のサンプル数推論テストについては、専門的な医学的アドバイスに基づいて、各テストタイプごとに独自の統一されたプロンプトを設計しました。プロセス中のテスト結果と組み合わせて、多数の実験における推論パラメータをまとめ、温度=0.9、top-k=40、top-p=0.9 に固定しました。

モデルの選択

リソースと比較の一貫性を考慮して、約 70 億のパラメータを持つ大規模言語モデル (LLM) の評価に重点を置いています。このパラメータスケールは、計算効率とパフォーマンスのバランスが取れており、効率的な方法で包括的な評価を可能にし、さまざまな種類の LLM のパフォーマンスを代表するものであるため選択されました。オープンソースモデルについては、正しい実装と評価を確実に行うために、公式 GitHub リポジトリからコードとモデルパラメータを取得しました。商用モデルの場合、アプリケーションプログラミングインターフェイス (API) を活用して、一貫性と信頼性のある方法でモデルと対話し、評価の正確性と一貫性を確保します。

テストプロンプト

異なる LLM 間の公平かつ偏りのない比較を保証するために、ゼロショット、ワンショット、または 5 ショットの状況に関係なく、一貫性を維持するために同じプロンプト設定に厳密に従います。ゼロショット評価では、モデルは参照できる過去の例を一切持たずに、まったく新しいタスクに直面します。ワンショットシナリオでは、以前の例を参照としてモデルに提供します。一方、5 ショットの場合、モデルは学習するための 5 つの例を取得します。すべての例は、医師のアドバイスと組み合わせて厳密に選択および設計されています。これらの評価シナリオは、モデルに限られた数の例のみが与えられ、そこから一般的なルールを推論する必要がある実際の使用条件をシミュレートするように設計されています。

データセット

私たちの研究では、放射線学分野で広く使用されている 2 つの公開データセット、MIMIC-CXR と OpenI を活用し、放射線学のテキストレポート生成における大規模言語モデル (LLM) のパフォーマンスを評価します。私たちの研究は、画像所見と放射線科医に関する詳細な解釈テキスト情報を提供する放射線レポートの「所見」と「印象」のセクションに焦点を当てました。

実験結果

OpenI データセットでは、Anthropic の Claude2 が最高のゼロショットパフォーマンスを達成し、BayLing-7B が 5 ショットでリードしています。 MIMIC-CXRでは、Claude2が再びゼロショットで1位、PaLM2がワンショットで1位、BayLing-7Bがファイブショットでトップに立った。

異なるモデル間でパフォーマンスに大きな違いがあることがわかります。これらの包括的なテスト結果は、放射線医学アプリケーションにおける各 LLM の品質メトリックデータを提供し、分野の研究者にその豊富な長所と短所に関する深い洞察を提供します。

数多くの実験結果から、中国の多くの新興 LLM は世界の同業他社と比べて十分な競争力があり、世界の舞台で新星として世界のライバルと競争できることがわかります。ただし、AtomGPT_8k などの一部のモデルでは、すべての設定でパフォーマンスが低下します。一般的に、モデルのサイズは必ずしも優れたパフォーマンスを意味するわけではありません。より重要なのは、モデルをアプリケーション分野に適応させることです。私たちの研究結果は、モデルのサイズ自体ではなく、特定の放射線学タスクに基づいて LLM を慎重に選択することの重要性を強調しています。私たちの研究は、現在の LLM 研究におけるモデルのサイズと有効性に関する関連問題に対して予測的な「和解の糸口」を投げかけ、将来のより効率的な LLM 研究のための経験的知識を提供しました。

結論は

この画期的な研究では、放射線レポートの解釈の分野における世界的なチームによる LLM の包括的な評価が行われました。モデル間の機能とパフォーマンスのギャップに関して得られた洞察は、放射線科やヘルスケア以外の分野での実践を強化するために LLM を将来的に拡張するための強固な基盤として役立ちます。 LLM は、慎重な応用と開発を通じて、世界中で医療提供を前進させる上で大きな可能性を示しています。

しかし、全体的に見ると、結果における LLM の能力は限られている (指標スコアはまだ十分に高くない) ことから、さまざまな医療専門分野でその可能性を十分に発揮するには、より専門的でドメイン特化型、かつ正確な多言語およびマルチモーダル LLM を開発するための継続的な研究が必要であることがわかります。これは、世界中の医療業界にインスピレーションと利便性をもたらすものであり、医療業界における汎用人工知能 (AGI) のもう 1 つの強力な可能性でもあります。

結論として、この包括的なベンチマーク研究は、世界中の放射線科医にとって貴重なツールとしての LLM の採用に重要な貢献を果たし、特に放射線医学の分野で世界的な LLM コミュニティの発展を促進し、医療分野における AGI のさらなる実践と発展に重要なインスピレーションを提供しました。

<<: Googleが小規模でGeminiのテストを開始したと報道：GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

>>: Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする