ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる：正解率はわずか17％

1月4日、ニューヨークのコーエン小児医療センターの3人の小児科医が、大規模言語モデルChatGPTの小児疾患診断能力を評価したが、結果は期待外れだった。彼らは ChatGPT にランダムに選んだ小児科の症例 100 件を診断してもらったところ、その精度はわずか 17% であることがわかりました。 IT Home は、この研究が権威ある雑誌 JAMA Pediatrics に掲載されたことに気づきました。

研究者らは、小児の診断は患者の症状全体を考慮するだけでなく、年齢も考慮する必要があるため、特に難しいと指摘している。近年、大規模言語モデルは潜在的な医療診断ツールとして注目されるようになっています。その実用性を評価するために、研究者らはランダムに小児症例を 100 件収集し、ChatGPT に診断を依頼しました。

操作を簡素化するために、研究者は同じ方法を使用して各ケースで ChatGPT に質問しました。彼らはまず症例のテキストを貼り付け、次に「鑑別診断」と「最終診断」をするよう求められました。鑑別診断とは、患者の病歴と身体検査に基づいて考えられる診断の予備リストであり、最終的な診断は患者の症状の最も可能性の高い原因となります。

ChatGPTの回答は、研究に参加していない2人の小児科医によって採点され、「正解」、「不正解」、「不完全な診断」に分類されました。研究チームは、ChatGPT が「正しい」と評価した回答は 17 件だけであり、そのうち 11 件は正しい診断に臨床的に関連しているにもかかわらず、誤りであったことを発見しました。

研究者らは、ChatGPTはまだ明らかに診断ツールではないが、より的を絞ったトレーニングによってその精度は向上する可能性があると述べている。さらに、将来的に改良されれば、ChatGPT は文書の整理、研究論文の執筆支援、患者への術後ケアガイドラインの提供などの補助ツールとして使用できる可能性があると示唆しています。

<<: AIを活用して衛星画像を判別、世界初「全世界の船舶足跡マップ」を公開

>>: 超リアル！リアルタイムの高品質レンダリング、ダイナミックな都市シーンモデリングのためのストリートガウス分布