復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化

遠隔医療の普及に伴い、便利で効率的な医療サポートを求める患者にとって、オンライン医療相談が第一の選択肢になりつつあります。最近、大規模言語モデル (LLM) が強力な自然言語対話機能を実証し、ヘルスケアアシスタントが人々の生活に入り込む希望をもたらしています。

医療や健康に関する相談のシナリオは通常より複雑であり、パーソナルアシスタントは広範な医療知識、複数回の会話を通じて患者の意図を理解し、専門的で詳細な回答を提供する能力を備えている必要があります。医療や健康に関する相談に直面すると、一般的な言語モデルは医療知識が不足しているため、話題を避けたり、無関係な回答をしたりすることがよくあります。同時に、現在の一連の質問に基づいて相談を完了する傾向があり、複数のラウンドで満足のいく質問をする能力が欠けています。さらに、高品質な中国語の医療データセットは現在非常に少なく、医療分野で強力な言語モデルをトレーニングする上で課題となっています。

復旦大学のデータインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナルアシスタント DISC-MedLLM をリリースしました。単一ラウンドの質問と回答および複数ラウンドの対話における医療および健康相談の評価では、このモデルのパフォーマンスは既存の大規模な医療対話モデルよりも明らかに優れていることが示されました。研究チームはまた、470,000 個のサンプルを含む DISC-Med-SFT と呼ばれる高品質の教師あり微調整 (SFT) データセットもリリースしました。モデルパラメータと技術レポートもオープンソース化されました。

ホームページアドレス: https://med.fudan-disc.com
Githubアドレス: https://github.com/FudanDISC/DISC-MedLLM
技術レポート: https://arxiv.org/abs/2308.14346

1. サンプル表示

図1: 会話の例

患者が体調不良を感じた際、モデルにアドバイスを求めたり、症状を説明したりすることができます。モデルは、考えられる原因や推奨される治療プランなどを参考に提供し、情報が不足している場合には、症状の詳しい説明を積極的に求めます。

図2: 医療相談シナリオにおける対話

ユーザーは、自分の健康状態に基づいてモデルに明確な質問をすることもできます。モデルは詳細で役立つ回答を提供し、情報が不足している場合は積極的にフォローアップの質問をして、回答の適切性と正確性を高めます。

図3：自分の健康状態についての相談に基づく対話

ユーザーは、自分に関係のない医学知識について質問することもできます。この場合、モデルは、ユーザーが包括的かつ正確に理解できるように、可能な限り専門的に回答します。

図4: 患者に関係のない医学知識についての会話

2. DISC-MedLLMの紹介

DISC-MedLLM は、私たちが構築した高品質のデータセット DISC-Med-SFT に基づいて、一般領域の中国のビッグモデル Baichuan-13B でトレーニングされた医療ビッグモデルです。注目すべきは、当社のトレーニングデータとトレーニング方法は、あらゆるベースモデルに適応できるということです。

DISC-MedLLM には 3 つの重要な機能があります。

信頼性が高く、豊富な専門知識。医療知識グラフを情報源として使用し、トリプルをサンプリングし、一般的な大規模モデルの言語機能を使用して対話サンプルを構築します。
複数回の対話を実施する能力。実際の診察会話記録を情報源として、大規模なモデルを使用して会話を再構築します。構築プロセスでは、会話内の医療情報を完全に一致させるモデルが必要です。
応答を人間の好みに合わせて調整します。患者は診察の過程でより豊富な裏付け情報や背景知識を得たいと望んでいますが、人間の医師の回答は簡潔であることが多いため、私たちは患者のニーズに合わせて手動スクリーニングを通じて高品質の小規模な指導サンプルを構築します。

モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築の指針として、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、ビッグモデルインザループとヒューマンインザループの 2 つのアプローチを使用してデータセットを構築しました。

図5: DISC-Med-SFTの構造

3. 方法: DISC-Med-SFTデータセットの構築

モデルトレーニングプロセス中に、DISC-Med-SFT に一般ドメインデータセットと既存のコーパスのデータサンプルを追加して、DISC-Med-SFT-ext を作成しました。詳細は表 1 に示されています。

表1: DISC-Med-SFT-extデータ内容の紹介

AIによる医師と患者の対話の再構築

データセット。 SFT データセットを構築するためのソースサンプルとして、2 つの公開データセット (MedDialog と cMedQA2) からそれぞれ 400,000 と 20,000 のサンプルがランダムに選択されました。

リファクタリング。現実世界の医師の回答を必要な高品質の統一形式に調整するために、GPT-3.5 を使用してこのデータセットの再構築プロセスを完了します。プロンプトは、次の原則に従って書き直す必要があります。

言葉による表現を削除し、統一された表現を抽出し、医師の言語使用における不一致を修正します。
医師の回答の重要な情報に忠実に従い、より包括的かつ論理的になるように適切な説明を加えます。
患者に予約を依頼するなど、AI 医師が送信すべきではない応答を書き直したり削除したりします。

図 6 にリファクタリングの例を示します。調整された医師の回答は AI 医療アシスタントのアイデンティティと一致しており、元の医師が提供する重要な情報に準拠するだけでなく、患者により豊富で包括的な支援を提供します。

図6: ダイアログの書き換えの例

ナレッジグラフの質問と回答

医療ナレッジグラフには、整理された大量の医療専門知識が含まれており、それに基づいてノイズの少ない QA トレーニングサンプルを生成できます。 CMeKG に基づいて、疾患ノードの部門情報に応じて知識グラフをサンプリングし、適切に設計された GPT-3.5 モデルプロンプトを使用して、合計 50,000 を超える多様な医療シナリオの対話サンプルを生成しました。

行動嗜好データセット

トレーニングの最終段階では、モデルのパフォーマンスをさらに向上させるために、二次監督の微調整に人間の行動の好みにより合ったデータセットを使用します。 MedDialog および cMedQA2 データセットから約 2,000 個の高品質で多様なサンプルを手動で選択しました。それらを GPT-4 に渡していくつかの例を書き直し、手動で修正した後、小サンプル法を使用してそれらを GPT-3.5 に渡して、高品質の行動嗜好データセットを生成しました。

他の

一般データ。トレーニングセットの多様性を高め、SFT トレーニングフェーズ中にモデルの基本機能が低下するリスクを軽減するために、2 つの一般的な教師あり微調整データセット (moss-sft-003 と alpaca gpt4 データ zh) からいくつかのサンプルをランダムに選択しました。

メディカルMCQA。モデルの質問応答機能を強化するために、英語の医療分野の多肢選択式の質問の MedMCQA データセットを選択し、GPT-3.5 を使用して多肢選択式の質問と正解を最適化し、約 8,000 件の専門的な中国語医療質問応答サンプルを生成しました。

4. 実験

電車。下の図に示すように、DISC-MedLLM のトレーニングプロセスは 2 つの SFT ステージに分かれています。

図7: 2段階のトレーニングプロセス

レビュー。医療 LLM のパフォーマンスは、シングルターン QA とマルチターンダイアログの 2 つのシナリオで評価されます。

1 回の QA 評価: 医療知識の観点からモデルの精度を評価するために、中国国家医師資格試験 (NMLEC) と国家大学院入学試験 (NEEP) 西洋医学 306 専攻から 1,500 以上の多肢選択問題を抽出し、1 回の QA ラウンドでモデルのパフォーマンスを評価しました。
複数ラウンドの対話評価：モデルの会話機能を体系的に評価するために、中国医療ベンチマーク評価（CMB-Clin）、中国医療対話データセット（CMD）、中国医療意図データセット（CMID）の3つの公開データセットからサンプルをランダムに選択し、GPT-3.5を使用してモデルとの対話で患者の役割を果たしました。私たちは、イニシアチブ、精度、有用性、言語品質の4つの評価指標を提案し、GPT-4によって採点されました。

評価結果

モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国の医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、HuatuoGPT-13B が含まれます。

単一ラウンドの QA 結果。多肢選択式テストの全体的な結果を表2に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM は、小規模サンプル設定では 2 位を獲得し、ゼロサンプル設定では Baichuan-13B-Chat に次いで 3 位にランクされています。特に、強化学習環境でトレーニングされた HuatuoGPT (13B) よりも優れたパフォーマンスを発揮します。

表2: 単一選択テストの結果

複数回の対話の結果。 CMB-Clin 評価では、DISC-MedLLM が最高の複合スコアを獲得し、HuatuoGPT がそれに続きました。私たちのモデルはポジティブ基準で最高のスコアを獲得し、医療行動パターンを優先するトレーニングアプローチの有効性を浮き彫りにしました。結果を表3に示す。

表3: CMB-clinの結果

CMD サンプルでは、図 8 に示すように、GPT-4 が最高のスコアを獲得し、次に GPT-3.5 が続きます。医療分野のモデル DISC-MedLLM と HuatuoGPT は、全体的なパフォーマンススコアは同じですが、それぞれ異なる部門で優れたパフォーマンスを発揮します。

図8: CMDの結果

CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズ以外では、DISC-MedLLM が最も優れたパフォーマンスを発揮しました。症状、治療計画、薬剤の 3 つの点で HuatuoGPT を上回ります。

図9: CMIDの結果

CMB-Clin と CMD/CMID の各モデルのパフォーマンスに一貫性がないのは、3 つのデータセット間のデータ分布が異なることが原因である可能性があります。 CMD と CMID にはより明確な質問サンプルが含まれており、患者の質問やニーズが個人の健康状態とは関係ない場合でも、患者は診断を受けており、症状を説明する際に明確なニーズを表明している可能性があります。多くの面で優れている汎用モデル GPT-3.5 と GPT-4 は、この状況への対応に適しています。

5. まとめ

DISC-Med-SFT データセットは、現実世界の会話と一般ドメイン LLM の長所と機能を活用し、ドメイン知識、医療会話スキル、人間の好みの 3 つの側面を特に強化します。この高品質のデータセットは、医療インタラクションの大幅な改善を達成し、高いユーザビリティを実証し、大きな応用可能性を示した優れた医療大規模モデル DISC-MedLLM をトレーニングします。

この分野の研究は、オンライン医療費の削減、医療資源の促進、バランスの達成に向けたさらなる展望と可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利でパーソナライズされた医療サービスを提供し、素晴らしい医療産業に貢献します。

<<: マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案

>>:

人工知能は標的の照準を加速し、人間と機械の統合を支援して即時攻撃を可能にします。

復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化

1. サンプル表示

2. DISC-MedLLMの紹介

3. 方法: DISC-Med-SFTデータセットの構築

4. 実験

5. まとめ

人工知能は標的の照準を加速し、人間と機械の統合を支援して即時攻撃を可能にします。

Photoshop 2020が登場、人工知能でデザインが簡単に

CES 2024 AIスマートホームのハイライト

USTC で量子コンピューティングの新たなブレークスルーが達成されました! 1時間のスーパーコンピューティングを数秒で完了することで、スーパーコンピューティング時間のボトルネックが解消されます。

中国と米国の間で技術冷戦が勃発するだろうか？人工知能は「引き金」

人工知能は正面の顔に基づいて複数の横顔を生成し、生成的敵対ネットワークを使用して多角度の側面顔を生成します。

清華大学は8人のグループを組織してChatGPT人狼をプレイしたが、このゲームにはあらゆるトリックや変装が含まれていた。清華大学：私はそれを教えたことはない

推薦する

2021 年の人工知能の 4 つのビジネスアプリケーション

推奨システムにおけるTensorFlowの分散トレーニング最適化の実践

人工知能バーチャル試着室：小売業者向けの新たな主流マーケティングツール

GPT-4の知能は突然低下した。OpenAIがアーキテクチャを再設計し、コストを削減して効率を高めるためにMOEを使用したことが明らかになった。公式の噂は否定されたが、ネットユーザーはそれを信じなかった。

タンパク質言語モデルを数千億のパラメータに拡張し、Baitu BioscienceとTsinghua xTrimoPGLMモデルの詳細な解釈

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

機密コンピューティングが生成型AIの導入を確実にする方法

Google は、ロボット犬に曖昧な指示を理解させるため、大型モデルを使用しています。

3つの大きなトレンドが浮上、我が国のドローン産業の発展の概要

AIアプリケーションのための実用的なフレームワークを構築するための5つのステップ

一般的なモデル統合手法の紹介: バギング、ブースティング、スタッキング