遠隔医療の普及に伴い、便利で効率的な医療サポートを求める患者にとって、オンライン医療相談が第一の選択肢になりつつあります。最近、大規模言語モデル (LLM) が強力な自然言語対話機能を実証し、ヘルスケアアシスタントが人々の生活に入り込む希望をもたらしています。 医療や健康に関する相談のシナリオは通常より複雑であり、パーソナルアシスタントは広範な医療知識、複数回の会話を通じて患者の意図を理解し、専門的で詳細な回答を提供する能力を備えている必要があります。医療や健康に関する相談に直面すると、一般的な言語モデルは医療知識が不足しているため、話題を避けたり、無関係な回答をしたりすることがよくあります。同時に、現在の一連の質問に基づいて相談を完了する傾向があり、複数のラウンドで満足のいく質問をする能力が欠けています。さらに、高品質な中国語の医療データセットは現在非常に少なく、医療分野で強力な言語モデルをトレーニングする上で課題となっています。 復旦大学のデータインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナルアシスタント DISC-MedLLM をリリースしました。単一ラウンドの質問と回答および複数ラウンドの対話における医療および健康相談の評価では、このモデルのパフォーマンスは既存の大規模な医療対話モデルよりも明らかに優れていることが示されました。研究チームはまた、470,000 個のサンプルを含む DISC-Med-SFT と呼ばれる高品質の教師あり微調整 (SFT) データセットもリリースしました。モデル パラメータと技術レポートもオープンソース化されました。
1. サンプル表示図1: 会話の例 患者が体調不良を感じた際、モデルにアドバイスを求めたり、症状を説明したりすることができます。モデルは、考えられる原因や推奨される治療プランなどを参考に提供し、情報が不足している場合には、症状の詳しい説明を積極的に求めます。 図2: 医療相談シナリオにおける対話 ユーザーは、自分の健康状態に基づいてモデルに明確な質問をすることもできます。モデルは詳細で役立つ回答を提供し、情報が不足している場合は積極的にフォローアップの質問をして、回答の適切性と正確性を高めます。 図3:自分の健康状態についての相談に基づく対話 ユーザーは、自分に関係のない医学知識について質問することもできます。この場合、モデルは、ユーザーが包括的かつ正確に理解できるように、可能な限り専門的に回答します。 図4: 患者に関係のない医学知識についての会話 2. DISC-MedLLMの紹介DISC-MedLLM は、私たちが構築した高品質のデータセット DISC-Med-SFT に基づいて、一般領域の中国のビッグモデル Baichuan-13B でトレーニングされた医療ビッグモデルです。注目すべきは、当社のトレーニング データとトレーニング方法は、あらゆるベース モデルに適応できるということです。 DISC-MedLLM には 3 つの重要な機能があります。
モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築の指針として、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、ビッグモデルインザループとヒューマンインザループの 2 つのアプローチを使用してデータセットを構築しました。 図5: DISC-Med-SFTの構造 3. 方法: DISC-Med-SFTデータセットの構築モデルトレーニングプロセス中に、DISC-Med-SFT に一般ドメインデータセットと既存のコーパスのデータサンプルを追加して、DISC-Med-SFT-ext を作成しました。詳細は表 1 に示されています。 表1: DISC-Med-SFT-extデータ内容の紹介 AIによる医師と患者の対話の再構築 データセット。 SFT データセットを構築するためのソース サンプルとして、2 つの公開データセット (MedDialog と cMedQA2) からそれぞれ 400,000 と 20,000 のサンプルがランダムに選択されました。 リファクタリング。現実世界の医師の回答を必要な高品質の統一形式に調整するために、GPT-3.5 を使用してこのデータセットの再構築プロセスを完了します。プロンプトは、次の原則に従って書き直す必要があります。
図 6 にリファクタリングの例を示します。調整された医師の回答は AI 医療アシスタントのアイデンティティと一致しており、元の医師が提供する重要な情報に準拠するだけでなく、患者により豊富で包括的な支援を提供します。 図6: ダイアログの書き換えの例 ナレッジグラフの質問と回答 医療ナレッジグラフには、整理された大量の医療専門知識が含まれており、それに基づいてノイズの少ない QA トレーニング サンプルを生成できます。 CMeKG に基づいて、疾患ノードの部門情報に応じて知識グラフをサンプリングし、適切に設計された GPT-3.5 モデルプロンプトを使用して、合計 50,000 を超える多様な医療シナリオの対話サンプルを生成しました。 行動嗜好データセット トレーニングの最終段階では、モデルのパフォーマンスをさらに向上させるために、二次監督の微調整に人間の行動の好みにより合ったデータセットを使用します。 MedDialog および cMedQA2 データセットから約 2,000 個の高品質で多様なサンプルを手動で選択しました。それらを GPT-4 に渡していくつかの例を書き直し、手動で修正した後、小サンプル法を使用してそれらを GPT-3.5 に渡して、高品質の行動嗜好データセットを生成しました。 他の 一般データ。トレーニング セットの多様性を高め、SFT トレーニング フェーズ中にモデルの基本機能が低下するリスクを軽減するために、2 つの一般的な教師あり微調整データセット (moss-sft-003 と alpaca gpt4 データ zh) からいくつかのサンプルをランダムに選択しました。 メディカルMCQA。モデルの質問応答機能を強化するために、英語の医療分野の多肢選択式の質問の MedMCQA データセットを選択し、GPT-3.5 を使用して多肢選択式の質問と正解を最適化し、約 8,000 件の専門的な中国語医療質問応答サンプルを生成しました。 4. 実験電車。下の図に示すように、DISC-MedLLM のトレーニング プロセスは 2 つの SFT ステージに分かれています。 図7: 2段階のトレーニングプロセス レビュー。医療 LLM のパフォーマンスは、シングルターン QA とマルチターン ダイアログの 2 つのシナリオで評価されます。
評価結果 モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国の医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、HuatuoGPT-13B が含まれます。 単一ラウンドの QA 結果。多肢選択式テストの全体的な結果を表2に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM は、小規模サンプル設定では 2 位を獲得し、ゼロサンプル設定では Baichuan-13B-Chat に次いで 3 位にランクされています。特に、強化学習環境でトレーニングされた HuatuoGPT (13B) よりも優れたパフォーマンスを発揮します。 表2: 単一選択テストの結果 複数回の対話の結果。 CMB-Clin 評価では、DISC-MedLLM が最高の複合スコアを獲得し、HuatuoGPT がそれに続きました。私たちのモデルはポジティブ基準で最高のスコアを獲得し、医療行動パターンを優先するトレーニング アプローチの有効性を浮き彫りにしました。結果を表3に示す。 表3: CMB-clinの結果 CMD サンプルでは、図 8 に示すように、GPT-4 が最高のスコアを獲得し、次に GPT-3.5 が続きます。医療分野のモデル DISC-MedLLM と HuatuoGPT は、全体的なパフォーマンス スコアは同じですが、それぞれ異なる部門で優れたパフォーマンスを発揮します。 図8: CMDの結果 CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズ以外では、DISC-MedLLM が最も優れたパフォーマンスを発揮しました。症状、治療計画、薬剤の 3 つの点で HuatuoGPT を上回ります。 図9: CMIDの結果 CMB-Clin と CMD/CMID の各モデルのパフォーマンスに一貫性がないのは、3 つのデータセット間のデータ分布が異なることが原因である可能性があります。 CMD と CMID にはより明確な質問サンプルが含まれており、患者の質問やニーズが個人の健康状態とは関係ない場合でも、患者は診断を受けており、症状を説明する際に明確なニーズを表明している可能性があります。多くの面で優れている汎用モデル GPT-3.5 と GPT-4 は、この状況への対応に適しています。 5. まとめDISC-Med-SFT データセットは、現実世界の会話と一般ドメイン LLM の長所と機能を活用し、ドメイン知識、医療会話スキル、人間の好みの 3 つの側面を特に強化します。この高品質のデータセットは、医療インタラクションの大幅な改善を達成し、高いユーザビリティを実証し、大きな応用可能性を示した優れた医療大規模モデル DISC-MedLLM をトレーニングします。 この分野の研究は、オンライン医療費の削減、医療資源の促進、バランスの達成に向けたさらなる展望と可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利でパーソナライズされた医療サービスを提供し、素晴らしい医療産業に貢献します。 |
<<: マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案
人工知能は、データセンターのリソース管理において前例のない役割を果たしています。 AI テクノロジー...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
壊れた凧や飛んでいる風船、捨てられたビニール袋などをいつも追いかけている人たちがいます。彼らは「凧追...
人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...
私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることが...
[[201526]]人間の行動に関する研究が最近、Nature の子会社である Nature Hum...
修士課程の学生として、私は頑固にアルゴリズムの方向を選択しました。今年の秋の採用は確かに寒い冬でした...
[[348166]]導入2020年は世界にとって激動の年です。経済状況は流行病の影響を受けており、不...
データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...