復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化

復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化

遠隔医療の普及に伴い、便利で効率的な医療サポートを求める患者にとって、オンライン医療相談が第一の選択肢になりつつあります。最近、大規模言語モデル (LLM) が強力な自然言語対話機能を実証し、ヘルスケアアシスタントが人々の生活に入り込む希望をもたらしています。

医療や健康に関する相談のシナリオは通常より複雑であり、パーソナルアシスタントは広範な医療知識、複数回の会話を通じて患者の意図を理解し、専門的で詳細な回答を提供する能力を備えている必要があります。医療や健康に関する相談に直面すると、一般的な言語モデルは医療知識が不足しているため、話題を避けたり、無関係な回答をしたりすることがよくあります。同時に、現在の一連の質問に基づいて相談を完了する傾向があり、複数のラウンドで満足のいく質問をする能力が欠けています。さらに、高品質な中国語の医療データセットは現在非常に少なく、医療分野で強力な言語モデルをトレーニングする上で課題となっています。

復旦大学のデータインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナルアシスタント DISC-MedLLM をリリースしました。単一ラウンドの質問と回答および複数ラウンドの対話における医療および健康相談の評価では、このモデルのパフォーマンスは既存の大規模な医療対話モデルよりも明らかに優れていることが示されました。研究チームはまた、470,000 個のサンプルを含む DISC-Med-SFT と呼ばれる高品質の教師あり微調整 (SFT) データセットもリリースしました。モデル パラメータと技術レポートもオープンソース化されました。

  • ホームページアドレス: https://med.fudan-disc.com
  • Githubアドレス: https://github.com/FudanDISC/DISC-MedLLM
  • 技術レポート: https://arxiv.org/abs/2308.14346

1. サンプル表示

図1: 会話の例

患者が体調不良を感じた際、モデルにアドバイスを求めたり、症状を説明したりすることができます。モデルは、考えられる原因や推奨される治療プランなどを参考に提供し、情報が不足している場合には、症状の詳しい説明を積極的に求めます。

図2: 医療相談シナリオにおける対話

ユーザーは、自分の健康状態に基づいてモデルに明確な質問をすることもできます。モデルは詳細で役立つ回答を提供し、情報が不足している場合は積極的にフォローアップの質問をして、回答の適切性と正確性を高めます。

図3:自分の健康状態についての相談に基づく対話

ユーザーは、自分に関係のない医学知識について質問することもできます。この場合、モデルは、ユーザーが包括的かつ正確に理解できるように、可能な限り専門的に回答します。

図4: 患者に関係のない医学知識についての会話

2. DISC-MedLLMの紹介

DISC-MedLLM は、私たちが構築した高品質のデータセット DISC-Med-SFT に基づいて、一般領域の中国のビッグモデル Baichuan-13B でトレーニングされた医療ビッグモデルです。注目すべきは、当社のトレーニング データとトレーニング方法は、あらゆるベース モデルに適応できるということです。

DISC-MedLLM には 3 つの重要な機能があります。

  • 信頼性が高く、豊富な専門知識。医療知識グラフを情報源として使用し、トリプルをサンプリングし、一般的な大規模モデルの言語機能を使用して対話サンプルを構築します。
  • 複数回の対話を実施する能力。実際の診察会話記録を情報源として、大規模なモデルを使用して会話を再構築します。構築プロセスでは、会話内の医療情報を完全に一致させるモデルが必要です。
  • 応答を人間の好みに合わせて調整します。患者は診察の過程でより豊富な裏付け情報や背景知識を得たいと望んでいますが、人間の医師の回答は簡潔であることが多いため、私たちは患者のニーズに合わせて手動スクリーニングを通じて高品質の小規模な指導サンプルを構築します。

モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築の指針として、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、ビッグモデルインザループとヒューマンインザループの 2 つのアプローチを使用してデータセットを構築しました。

図5: DISC-Med-SFTの構造

3. 方法: DISC-Med-SFTデータセットの構築

モデルトレーニングプロセス中に、DISC-Med-SFT に一般ドメインデータセットと既存のコーパスのデータサンプルを追加して、DISC-Med-SFT-ext を作成しました。詳細は表 1 に示されています。

表1: DISC-Med-SFT-extデータ内容の紹介

AIによる医師と患者の対話の再構築

データセット。 SFT データセットを構築するためのソース サンプルとして、2 つの公開データセット (MedDialog と cMedQA2) からそれぞれ 400,000 と 20,000 のサンプルがランダムに選択されました。

リファクタリング。現実世界の医師の回答を必要な高品質の統一形式に調整するために、GPT-3.5 を使用してこのデータセットの再構築プロセスを完了します。プロンプトは、次の原則に従って書き直す必要があります。

  • 言葉による表現を削除し、統一された表現を抽出し、医師の言語使用における不一致を修正します。
  • 医師の回答の重要な情報に忠実に従い、より包括的かつ論理的になるように適切な説明を加えます。
  • 患者に予約を依頼するなど、AI 医師が送信すべきではない応答を書き直したり削除したりします。

図 6 にリファクタリングの例を示します。調整された医師の回答は AI 医療アシスタントのアイデンティティと一致しており、元の医師が提供する重要な情報に準拠するだけでなく、患者により豊富で包括的な支援を提供します。

図6: ダイアログの書き換えの例

ナレッジグラフの質問と回答

医療ナレッジグラフには、整理された大量の医療専門知識が含まれており、それに基づいてノイズの少ない QA トレーニング サンプルを生成できます。 CMeKG に基づいて、疾患ノードの部門情報に応じて知識グラフをサンプリングし、適切に設計された GPT-3.5 モデルプロンプトを使用して、合計 50,000 を超える多様な医療シナリオの対話サンプルを生成しました。

行動嗜好データセット

トレーニングの最終段階では、モデルのパフォーマンスをさらに向上させるために、二次監督の微調整に人間の行動の好みにより合ったデータセットを使用します。 MedDialog および cMedQA2 データセットから約 2,000 個の高品質で多様なサンプルを手動で選択しました。それらを GPT-4 に渡していくつかの例を書き直し、手動で修正した後、小サンプル法を使用してそれらを GPT-3.5 に渡して、高品質の行動嗜好データセットを生成しました。

他の

一般データ。トレーニング セットの多様性を高め、SFT トレーニング フェーズ中にモデルの基本機能が低下するリスクを軽減するために、2 つの一般的な教師あり微調整データセット (moss-sft-003 と alpaca gpt4 データ zh) からいくつかのサンプルをランダムに選択しました。

メディカルMCQA。モデルの質問応答機能を強化するために、英語の医療分野の多肢選択式の質問の MedMCQA データセットを選択し、GPT-3.5 を使用して多肢選択式の質問と正解を最適化し、約 8,000 件の専門的な中国語医療質問応答サンプルを生成しました。

4. 実験

電車。下の図に示すように、DISC-MedLLM のトレーニング プロセスは 2 つの SFT ステージに分かれています。

図7: 2段階のトレーニングプロセス

レビュー。医療 LLM のパフォーマンスは、シングルターン QA とマルチターン ダイアログの 2 つのシナリオで評価されます。

  1. 1 回の QA 評価: 医療知識の観点からモデルの精度を評価するために、中国国家医師資格試験 (NMLEC) と国家大学院入学試験 (NEEP) 西洋医学 306 専攻から 1,500 以上の多肢選択問題を抽出し、1 回の QA ラウンドでモデルのパフォーマンスを評価しました。
  2. 複数ラウンドの対話評価:モデルの会話機能を体系的に評価するために、中国医療ベンチマーク評価(CMB-Clin)、中国医療対話データセット(CMD)、中国医療意図データセット(CMID)の3つの公開データセットからサンプルをランダムに選択し、GPT-3.5を使用してモデルとの対話で患者の役割を果たしました。私たちは、イニシアチブ、精度、有用性、言語品質の4つの評価指標を提案し、GPT-4によって採点されました。

評価結果

モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国の医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、HuatuoGPT-13B が含まれます。

単一ラウンドの QA 結果。多肢選択式テストの全体的な結果を表2に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM は、小規模サンプル設定では 2 位を獲得し、ゼロサンプル設定では Baichuan-13B-Chat に次いで 3 位にランクされています。特に、強化学習環境でトレーニングされた HuatuoGPT (13B) よりも優れたパフォーマンスを発揮します。

表2: 単一選択テストの結果

複数回の対話の結果。 CMB-Clin 評価では、DISC-MedLLM が最高の複合スコアを獲得し、HuatuoGPT がそれに続きました。私たちのモデルはポジティブ基準で最高のスコアを獲得し、医療行動パターンを優先するトレーニング アプローチの有効性を浮き彫りにしました。結果を表3に示す。

表3: CMB-clinの結果

CMD サンプルでは、​​図 8 に示すように、GPT-4 が最高のスコアを獲得し、次に GPT-3.5 が続きます。医療分野のモデル DISC-MedLLM と HuatuoGPT は、全体的なパフォーマンス スコアは同じですが、それぞれ異なる部門で優れたパフォーマンスを発揮します。

図8: CMDの結果

CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズ以外では、DISC-MedLLM が最も優れたパフォーマンスを発揮しました。症状、治療計画、薬剤の 3 つの点で HuatuoGPT を上回ります。

図9: CMIDの結果

CMB-Clin と CMD/CMID の各モデルのパフォーマンスに一貫性がないのは、3 つのデータセット間のデータ分布が異なることが原因である可能性があります。 CMD と CMID にはより明確な質問サンプルが含まれており、患者の質問やニーズが個人の健康状態とは関係ない場合でも、患者は診断を受けており、症状を説明する際に明確なニーズを表明している可能性があります。多くの面で優れている汎用モデル GPT-3.5 と GPT-4 は、この状況への対応に適しています。

5. まとめ

DISC-Med-SFT データセットは、現実世界の会話と一般ドメイン LLM の長所と機能を活用し、ドメイン知識、医療会話スキル、人間の好みの 3 つの側面を特に強化します。この高品質のデータセットは、医療インタラクションの大幅な改善を達成し、高いユーザビリティを実証し、大きな応用可能性を示した優れた医療大規模モデル DISC-MedLLM をトレーニングします。

この分野の研究は、オンライン医療費の削減、医療資源の促進、バランスの達成に向けたさらなる展望と可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利でパーソナライズされた医療サービスを提供し、素晴らしい医療産業に貢献します。

<<:  マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案

>>: 

ブログ    
ブログ    
ブログ    

推薦する

AIはインフラの応用と開発を定義する

人工知能は、データセンターのリソース管理において前例のない役割を果たしています。 AI テクノロジー...

...

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

1.4GB 未満のビデオ メモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープン ソースです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

カイト・ランナーがドローンに出会ったとき...

壊れた凧や飛んでいる風船、捨てられたビニール袋などをいつも追いかけている人たちがいます。彼らは「凧追...

2021年、AIはどんな未来を迎えるのでしょうか?

人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...

...

データセキュリティ認識システムにおける機械学習の応用

私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることが...

画像内の文字の教師なし学習

[[201526]]人間の行動に関する研究が最近、Nature の子会社である Nature Hum...

アルゴリズム面接経験:Google、Microsoft、Alibaba、Tencent、Baidu、Byte、いくつ正解できますか?

修士課程の学生として、私は頑固にアルゴリズムの方向を選択しました。今年の秋の採用は確かに寒い冬でした...

テクノロジートレンド年末レビュー: デロイトの 2020 年テクノロジートレンドレポートの解釈

[[348166]]導入2020年は世界にとって激動の年です。経済状況は流行病の影響を受けており、不...

...

ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...

...

...