ChatGPTの医療版ライブレビュー!治療計画は実際の医師のものと96%一致しています

ChatGPTの医療版ライブレビュー!治療計画は実際の医師のものと96%一致しています

同国初の大規模医療モデルはすでに患者を「診察」している。

最近、病院内の AI 医師の実際の監視データが公開されました。

  • 合計120名以上の患者を診察、検査から診断、治療計画までの全工程をカバーして治療しました。
  • 心臓病学、消化器学、呼吸器学、内分泌学、腎臓学、整形外科、泌尿器学の 7 つの主要な疾患部門が関係します。患者の疾患カテゴリは多様で、複雑さの度合いもさまざまです。
  • 医療レベルは国内の三次病院の主治医に劣らず、実際の医師との診断・治療計画の一致率は96%に達します。
  • 北京大学人民病院、中日友好病院、扶外病院、友好病院など国内トップクラスの病院の専門家教授7人が観戦し、賛同した。

このようなオープンで大規模なAI医師評価は国内初であり、世界でも初めてのことです。

さらに驚くべきことは、この主役である、Transformer に基づく 1000 億パラメータ モデル MedGPT が市場に登場してからまだ 1 か月しか経っていないことです。

現在、実際の診断や治療においては、すでに複数回の継続的な対話やマルチモーダル機能を備えています。今後の計画では、MedGPTは医療バージョンのプラグインストアも立ち上げる予定で、1,000以上の医療アプリケーションが搭載される予定であり、AI医師の診断および治療ツールが大幅に充実し、診断および治療の効率が向上します。

上記のデータとパフォーマンスから判断すると、96% の一貫性は予想外です。

このような反復速度はさらに予想外です。

MedGPTライブ放送デビュー:数百人の患者を受け入れ

このライブデビューは、実際には実際の人間と機械の医療整合性評価です。 AI医師MedGPTに加え、四川大学華西病院の主治医10名も参加した。

評価の権威性と科学性を確保するため、国内トップクラスの病院の専門家や教授らで構成された審査員が審査と多面的な採点を行います。

一方、プロセス全体も特別に設計されています。簡単に言えば、患者は診察のために部屋に入りますが、医師免許を持つ「通訳」と話をします。翻訳機は患者の訴えを実際の医師とコンピューター上のAI医師にそれぞれ伝え、これを何度も往復させて、最終的に診察結果に基づいて診断を下すという仕組みです。

AlphaGo が囲碁の世界で競争していたときと同じように、Alpha の「配置」アクションの実行を手助けしたプレイヤーは「翻訳者」の役割を果たしました。

このように、AI医師と本物の医師が互いに干渉することはなく、条件も基本的に同じなので、双方が独立した判断を下すことができます。

結局、1日間の激しい競争を経て、本物の医師の総合得点は7.5点、AI医師の総合得点は7.2点となり、一貫性は96%でした。

検討プロセス中に、専門家はいくつかの予想外の「驚き」も発見しました。

たとえば、診断の見逃しや誤診の可能性は比較的小さいです。

北京大学人民病院の薛鋒院長は、複数回の問診を通じて、MedGPTが患者の足の唯一の痛みの症状に基づいて「頸神経の圧迫の可能性」という診断を推測できることを発見した。

つまり、知識の蓄積という点では、AI 医師は経験の浅い医師よりも優れている可能性があるということです。

さらに、診察中のMedGPTの「落ち着いた」対応も高く評価されました。

中日友好病院心臓科主任医師の任静毅氏は次のように語った。「診断がはっきりしない場合、MedGPTは簡単に結論を出さず、継続的な質問や検査を通じてより多くの情報を収集することを主張するのが最善だと思います。」

そのため、MedGPT にはまだいくつかの問題があるにもかかわらず、彼女は実際の医師よりも高いスコアを付け、率直に「これは画期的な結果です」と述べました。

MedGPT にはまだ調整が必要な問題がいくつかあることは否定できません。複数の専門家は、MedGPT が時々過剰な治療を推奨したり、検査項目を繰り返し推奨したり、特定の概念を不正確に表現したり、身体検査を実施できなかったりすることを指摘しています。MedGPT をより使いやすくするためには、ある程度、肯定的な評価よりもこれらの意見の方が重要です。

しかし、全体として、大規模な医療モデルの初公開の結果はかなり良好でした。

まとめると、まず、意味理解、マルチラウンド対話、マルチモーダル認識など、大規模モデルの基本機能を備えています。また、OpenAIのようなプラグインストアを通じて、さまざまな業界のアプリケーションにリンクすることもできます。

一般的な大規模モデルでは広く批判されているアライメントと精度の問題もありますが、MedGPT プロセス全体の結果は実際の医師の結果に劣るものではありません。

業界の観点から見ると、医学的観点から医師に効果的な支援を提供し、患者の病気管理の効率を向上させることができます。

この実際のテストでは、効果的な診察と診察データに基づいて、MedGPT が病気を正確に診断し、患者の治療計画を設計できることが確認できます。

MedGPT は、診断後も患者が投薬を受けた後、投薬指導や管理、スマートなフォローアップ訪問、リハビリ指導などのインテリジェントな疾患管理サービスを提供します。

現在、ICD10の疾患の60%を基本的にカバーしており、一般的な疾患をカバーできることを意味します〜

また、24時間365日ノンストップで稼働できます。医師の診断と治療を支援するために大規模に導入されると、医療効率が大幅に向上します。また、階層化された診断と治療、医療資源への普遍的なアクセスにおいても一定の役割を果たすことができます。

最初の大型医療モデルはどのようにして作られたのでしょうか?

医療は、AI の実装において常に最も専門性が高く、障壁が最も高く、セキュリティ要件が最も高い分野の 1 つです。

これまで、ユーザーは情報検索を習慣的に利用して、病気の予備的な判断を下していましたが、情報が混在しており、一般ユーザーには専門知識が不足していたため、効果的にスクリーニングすることができず、最終的には効果がほとんどありませんでした。

しかし、この分野は人々の生命と健康に関わるため、市場の需要と社会的価値は常に大きいものでした。

そのため、ChatGPT が誕生して以来、それがいつ医療分野で活用できるようになるのかという問題は、産業界、学界、研究界の各分野の専門家から大きな注目を集めています。

「Retarded Bar」がさまざまな一般的な大型モデルの能力をテストするためのベンチマークとなっているのと同様に、米国医師免許試験(USMLE)でもさまざまな大型モデルの医療能力がテストされています。

以前、ハーバード大学の教授がChatGPTの診断支援のパフォーマンスを個人的にテストしました。

結果によると、ChatGPT は 45 件中 39 件を正しく診断し、30 件に対して適切なトリアージの推奨を提供しました。この性能は、現在の機械診断レベルを超え、医師の診断レベルに近づいています。

もう一つの代表例は、Google Healthチームが作成したMed-PaLM 2です。これは、さまざまな医療の質問に答えることができ、米国の医師免許試験でエキスパートレベルに到達した最初の大規模言語モデルと言われています。

しかし、問題を解決できるからといって、それを実践できるというわけではありません。

GPT-4 に代表される一般的な大規模モデルは、回答を生成するためにテキストの統計的確率に大きく依存しています。真面目な感じでナンセンスな話をするのが得意だということは、誰でも感じ取れると思います。日常のコミュニケーションに使えば、かなり楽しいです。

しかし、それを産業に適用すると、専門家以外がそれを検出することが難しい場合が多く、さまざまなリスクにつながります。特に医療などの生活産業では、コンテンツ生成の制御がより厳しく、いかなるミスも許容されません。

言うまでもなく、医療自体が幅広く複雑な知識範囲をカバーしており、医療プロセス全体の観点から見ると、診断前、診断中、診断後にさまざまなロングテールのタスクが関与しています。必要な高品質のデータは一般的なモデルよりも小さくない可能性があり、ほとんどのデータはインターネットから抽出されたものではありません。

企業にとって、これはアルゴリズム、コンピューティング能力、データのテストであるだけでなく、一連のシステム エンジニアリングの課題でもあります。

もしそうなら、中国初の大規模医療モデルである MedGPT はどのようにしてこれを達成したのでしょうか?

簡単にまとめると、プロフェッショナルな大型モデルと、保護を確実にするための複数の精度メカニズムです。

まず、私たちは最初から大規模な医療モデルを構築しました。

プロフェッショナルな大規模モデルのこれまでの考え方は、まず大規模なモデルを構築し、その後プロフェッショナルなデータを使用して教師ありの微調整を行うというものでした。しかし、MedGPT は事前トレーニングと微調整に医療データを直接使用しており、100 人を超える医師が RLHF メカニズムに参加しています。

そのため、企業は垂直産業を深く掘り下げるだけでなく、強力な AI テクノロジー機能も備えている必要があります。これには、その背後にいる作成者である Yilian について言及する必要があります。

業界では、インターネット医療への早期参入者として、イーリアンは150万人以上の医師と2,000万人以上の患者を蓄積しており、安定した医師と患者の関係チェーンと長期的な交流により、大量の専門的な医療データが形成されています。

さらに、イーリアンは長年にわたり医療とテクノロジーの深い融合に注力し、腫瘍、心血管疾患、脳血管疾患、糖尿病などの一般的な疾患を含む140近くの標準化された疾患管理プロセスを構築し、1,000種類以上の疾患をカバーし、完全なデジタル化と全プロセスの疾患管理システムの完全なセットを形成しています。

インターネット医療の時代において、これらの疾病管理システムは業界にオンライン管理の有効な基盤を提供し、業界全体の効率を向上させることができます。そして、AIを活用したデジタル医療産業が到来すると、これがAI医療の重要なサポートとなるでしょう。

AIに関しては、同社はかなり早い段階から注目し、計画を開始した。2017年には早くも医療ビッグデータを構築する能力を確立し、2018年にはNLPやCVなどのAI技術を、インテリジェント体液検査、インテリジェントトリアージ、口腔画像認識などのシナリオに実用化した。

同社は2019年に、単一疾患/ステージのAI診断・治療モデルも発表した。同社は多数の病院や機関と提携し、アジア初の多発性硬化症早期スクリーニングAIモデルを開発し、患者の多発性硬化症リスク予測と予防・制御能力を1~3年先に向上させるのに役立っている。

AI分野におけるこうした初期の探求と、医療と最先端技術の長期的な融合は、イーリアンが業界で初めて大規模な医療モデルを立ち上げ、応用するための基礎となり、これは決して偶然ではないと言えるでしょう。

もっと詳しく見てみましょう。大型医療モデルの正確性と一貫性を確保するために、Yilian はモデルから実際のアプリケーションまで多くの作業を行ってきました。

これには、モデル アルゴリズムの一貫性検証メカニズム、多次元の診断および治療評価メカニズム、専門家のレビューに基づく実際の医師のコンセンサス ベンチマーク メカニズムが含まれます。

たとえば、正式な回答が患者に出力される前に、まず臨床医学ルール ジェネレータによって検証されます。また、実際の医師を募集してコンピューターの前で判断してもらい、その結果を専門委員会に提出して、実際の医師と比較する審査も行っています。

この方法論に基づいて、Yilian チームは、プロフェッショナルな大型モデルの作成において業界に先駆けて模範を示しました。

医療AI 2.0が始動

最後に、MedGPT の公開評価自体に戻ると、大規模モデルの開発プロセスにおける 3 つの傾向も浮かび上がります。

まず、医療AI2.0の幕が開き、システムの複雑さの問題が解決されるでしょう。

大規模モデルに代表される AI 2.0 時代の到来 - 対話がエントリ ポイントとなり、すべてのアプリケーション シナリオが再定義されました。 AIの影響を受ける何千もの業界も大きな変化を経験しています。

これまで、AI 1.0、NLP、CV、マルチモダリティなどの単一ポイント技術が盛んに発展し、医療AIの応用シナリオは豊富で多様であり、ルールが強く、制御可能です。しかし、シナリオとデータの間にはつながりがないため、一般化能力が低く、体系的で複雑な問題を処理することができません。

Transformer のおかげで、モダリティ、データ、タスク シナリオ間の障壁が取り除かれました。医療のシナリオでは、大量の医療テキストとデータを活用して高同時実行性/長距離学習を統合することで、複雑で体系的な問題を解決できます。

さらに想像してみると、イリアンのクラウド薬局、クラウド検査などのクラウド機能と組み合わせることで、AI医師自体の疾病管理機能が向上するだけでなく、患者は地理的な制約から解放され、予防、診断、治療、リハビリまで、あらゆる疾病の全プロセス管理パスを簡単に完了できるようになります。

これは実際には想像しにくいことではありません。さまざまな専門分野を治療でき、三次病院の医師に匹敵し、24時間いつでもあなたのそばにいて診察してくれるAI医師がいることを知っておくだけでいいのです。同時に、すべての検査サービスはあなたの家から1km以内で完了できます。

三次医療機関で医師の診察を受けるために列に並んだ経験のある人は、専門医が不在だったり、検査に1か月もかかったりすることがよくあることを理解しているはずです。 MedGPT などの専門的なモデルを通じて、コストの削減、効率性の向上、業界の問題の解決、そしてヘルスケアの次の時代への移行を実現できます。

第二に、大規模モデルによる業界の配当はテクノロジー大手の手にではなく、シナリオとデータを持つプレーヤーの手に握られています。

医療分野に特化した大型モデルや製品が次々と登場していることは、皆さんも多かれ少なかれ目にしたことがあると思いますが、最も代表的な製品は、Google と Microsoft という 2 大企業から出ています。

Google Med-PaLM 2 は現在、X 線を独自に検査して診断を下すなど、マルチモーダル機能を実験中です。今年後半には少数の Google Cloud ユーザーに提供される予定です。

また、マイクロソフトに200億ドルで買収されたNuance社も、マイクロソフトOpenAIとの協力を通じて、臨床ノートソフトウェアDAXにGPT-4を統合し、臨床医の負担を軽減している。

前者のビッグモデルはまだ真に実装されておらず、後者は一般的なビッグモデルを統合したAPIに過ぎず、業界内での正確性や一貫性は保証できません。

しかし、MedGPT はデビューするや否や聴衆を驚かせ、多くの業界初の成果を達成しました。

AI医師との複数回の会話の難しさを初めて克服しました。

初めて、効果的な相談から診察への飛躍が達成されました。

AI が初めて正確な診断と治療計画を提供できるようになりました。

AI が初めてプロセス全体を診断できるようになりました...

これは垂直なフィールドでの深い耕作とシナリオとデータを持つことに関係しています。

Yilian は 9 年間医療業界に深く関わり、豊富な知識、データ、アプリケーションを蓄積し、深い技術的障壁とユーザー障壁を構築してきました。

大規模モデル技術の応用が実現すれば、既存のユーザーシナリオに基づいて迅速に大規模に実装されることになります。これは他の参入者が持っていない先行者利益です。

前回の AI の波が到来したとき、最初に AI の恩恵を受けたのは現場のプレーヤーたちでした。

現在、大規模モデルの恩恵を受けるのは依然として現場​​のプレイヤーですが、技術的な道筋はすでに明確になっており、実装のスピードも当然ながら以前よりもはるかに速くなっています。

第三に、医療AIの導入加速は、大規模モデルの開発動向を間接的に裏付けている。

雪だるま効果は、テクノロジーからアプリケーションの展開までのフライホイールの回転がますます速くなることを示しています。

ChatGPT は当初は単なるナンセンスとして始まりましたが、数か月以内に、ユーザーからのフィードバックとプラグイン開発エコシステムに基づいて、さまざまな業界の人々によってワークフローに実際に組み込まれ、エンドサイド アプリケーションがリリースされました。

手を打てないと批判されていた中途半端な拡散や安定拡散の問題も、わずか数週間で解決され、国内の大型モデルの出現や更新速度の加速、文鑫易言は月に4回の反復が可能になるなど、

「ビッグモデル-アプリケーション-データ」の加速されたクローズドループが確立されると、業界での実装速度は以前の波よりも速くなります。

Yilian の MedGPT モデルは、1 か月以内に実際の患者を対象とした全プロセス テスト段階に入りました。その後は、データフライホイール反復モデルに基づいて、実装速度はますます速くなります。

おそらく近い将来、医療 AI 2.0 がすべての人に利益をもたらすでしょう。

<<:  AIが物流とサプライチェーン管理をどう変えるか

>>:  ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

ブログ    

推薦する

ディープラーニング最適化アルゴリズムがどのように機能するかを知りたいですか?クリックしてください!急いで

ディープラーニングは高度に反復的なプロセスです。最適な組み合わせを決定するには、ハイパーパラメータの...

...

MITはロボットの構造を自動設計できるコンピュータシステムを発明し、25年で最高の成果を達成した。

研究者にとって、適切な形状を選択することは、ロボットが特定の地形を移動できる能力にとって非常に重要で...

2019年中国インテリジェント製造業のトップ10の発展トレンド!

2018年、中国政府による関連支援政策の導入とインテリジェント製造プロセスの推進により、わが国のイ...

実稼働機械学習システムの構築に関する考慮事項

データとコンピューティング能力の向上に伴い、「機械学習」(ML)と「ディープラーニング」という用語は...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

データ汚染:次の大きな脅威

人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポ...

国連は2030年の持続可能な開発目標の達成を支援するために数十台のロボットを採用する予定

ロイター通信によると、7月5日、国連技術機関はスイスで行われた「人類の利益のためのAI」イベントで、...

業界のハイエンド複合AI人材を育成するために、第5回AICAチーフAIアーキテクトトレーニングプログラムが開始されました。

10月15日、国家深層学習技術応用工学研究所と百度が共同で開始した第5回AICAチーフAIアーキテ...

陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました! STN-iCNN: エンドツーエンドの顔解析フレームワーク

陳一然教授の論文が賞を受賞しました!この顔認識/分析に関する論文は、2024 IEEE CIS TE...

...

中国で初めて申請を通過し、オンラインで入手可能になったAI大規模モデル製品8つ

8月31日、中国科学院傘下の百度、バイトダンス、センスタイム、紫東台中、百川知能、知普華章など8つの...

人間が世界を理解するのに近づく:研究者はAIに「想像力」を与える

オレンジ色の猫を想像してください。次に、その猫の毛が黒だけであることを想像してください。そして、万里...

Github で最も注目されている機械学習イノベーション プロジェクト 7 つ

最新の機械学習開発と最先端のコードを持つプラットフォームはどれでしょうか? そう、GitHub です...