Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

先月26日、GoogleはarXivに「電子健康記録のためのスケーラブルで正確なディープラーニング」(Alvin Rajkomar他)と題する論文を公開した。論文では、Fast Healthcare Interoperability Resources (FHIR) 形式に基づいた患者の EHR 生記録表現を提案し、ディープラーニング手法を使用して複数の医療イベントの発生を正確に予測しました。

論文の要約は次のとおりです。

電子健康記録 (EHR) データを使用した予測モデリングにより、個別化医療が推進され、医療の質が向上することが期待されています。予測統計モデルを構築するには、通常、正規化された EHR データから戦略的な予測変数を抽出する必要がありますが、これは患者記録のほとんどの情報を破棄する労働集約的なプロセスです。私たちは、Fast Healthcare Interoperability Resources (FHIR) 形式に基づいて、患者の EHR 生の記録全体を表現することを提案します。この表現を使用したディープラーニングアプローチにより、サイト固有のデータ調整を必要とせずに、複数のセンターからの複数の医療イベントを正確に予測できることを実証します。私たちは、少なくとも 24 時間入院している 216,221 人の成人患者を擁する米国の 2 つの大学医療センターの匿名化された電子医療記録データを使用して、このアプローチを検証しました。合計すると、この EHR データには、臨床説明を含め、当社が提案するシーケンス形式の 46,864,534,945 個のデータ ポイントが含まれています。ディープラーニング モデルは、院内死亡率 (施設全体の AUROC 0.93-0.94)、30 日以内の予定外再入院率 (AUROC 0.75-0.76)、入院期間延長 (AUROC 0.85-0.86)、および全患者の最終診断 (頻度加重 AUROC 0.90) の予測において極めて高い精度を達成しました。いずれの場合も、これらのモデルは従来の予測モデルよりも優れたパフォーマンスを発揮しました。また、臨床医が予測の透明性をどのように高めることができるかを示すニューラル ネットワーク属性システムのケース スタディも紹介します。このアプローチにより、患者アイコンで直接証拠を強調する説明とともに、さまざまな臨床設定に対して正確でスケーラブルな予測を作成できると考えています。

この研究の中で、彼らは、機械学習を大規模に実装するには、大量のデータをディスクにシリアル化し、大規模なデータセットの表現を分析できるようにするために、FHIR 標準にプロトコル バッファ ツールを追加する必要があるという結論に達しました。

昨日、Google はプロトコル バッファ ツールをオープンソース化したと発表しました。以下は、Google のブログ投稿の内容をまとめたものです。

過去 10 年間で、医療データは主に紙のファイルからデジタルの電子医療記録に移行しました。しかし、このデータを理解するにはいくつかの重要な課題があるかもしれません。

  • まず、異なるベンダー間で共通のデータ表現が存在せず、各ベンダーがそれぞれ異なる方法でデータを構造化しています。

  • 第二に、同じサプライヤーの Web サイトのデータを使用する場合でも、同じ医薬品を表すために複数のコードが使用されることが多いなど、大きな違いが生じる可能性があります。

  • 3 番目に、データは多くの異なるテーブルに分散されている可能性があり、その一部は重複し、一部には実験データが含まれており、一部にはバイタル サインが含まれています。

少なくとも基本的な電子健康記録システムを導入し、認定された電子健康記録システムを持つ非連邦急性期病院の割合。基本的な電子健康記録 (EHR) は EHR システムの基本機能を満たしており、認定 EHR は病院が EHR と法的契約を結んでいることを意味しますが、EHR システムを導入することと同じではありません。

Fast Healthcare Interoperability Resources (FHIR) は、電子医療記録を交換するためのデータ形式、データ要素、アプリケーション プログラム インターフェイスを記述するドラフト標準です。この標準は、医療標準化団体である Health Level Seven International によって開発されました。この標準は、これらの課題のほとんどにすでに対処しています。堅牢で拡張可能なデータ モデルを備え、確立された Web 標準に基づいて構築されており、個々のレコードと一括データ アクセスの両方の事実上の標準として急速に普及しつつあります。 しかし、大規模な機械学習を実現するには、複数のプログラミング言語のツール、大量のデータをディスクにシリアル化する効率的な方法、大規模なデータセットの分析を可能にする表現など、いくつかの要素を補完する必要があります。

本日、私たちはこれらの問題に対処する FHIR 標準のプロトコル バッファー実装をオープン ソース化できることを嬉しく思います。現在のバージョンでは Java 言語がサポートされており、近々 C++、Go、Python などの言語もサポートされる予定です。さらに、レガシー データを FHIR に変換するのに役立つプロファイルとツールのサポートも近日中に提供される予定です。

オープンソースアドレス: https://github.com/google/fhir

プロトコル バッファ ツール: https://developers.google.com/protocol-buffers/

コアデータモデルとしてのFHIR

過去数年間、私たちは学術医療センターと協力して、機械学習を使用して医療記録を「匿名化」(つまり、症状が現れる前に患者のニーズを予測するなど、将来の可能性のある状態を予測するために個人を特定できる情報をすべて取り除く)してきましたが、医療データの複雑さに対処する必要があることが明らかになりました。実際、機械学習は医療データに非常によく適合するため、時間の経過とともに各患者に何が起こったのかをより完全に把握できると期待しています。ボーナスとして、臨床現場に直接適用できるデータ表現が得られることを期待しています。

FHIR 標準はほとんどのニーズを満たしていますが、ヘルスケア データを使用すると、「従来の」データ構造よりも管理が容易になり、ベンダーに依存しない大規模な機械学習が可能になります。バッファの導入は、アプリケーション開発者(機械学習関連)と FHIR を使用する研究者の両方に役立つと考えています。

プロトコル バッファの現在のバージョン

私たちは、プロトコル バッファ表現をプログラムでアクセス可能にし、データベースでクエリ可能にするために懸命に取り組んできました。 FHIR データを Google Cloud の BigQuery にアップロードし、外部クエリで使用できるようにする方法を示した例が提供されています。一括データから直接エクスポートおよびアップロードできる他の例も追加しています。当社のプロトコル バッファーは FHIR 標準に準拠していますが (実際には FHIR 標準によって自動的に生成されます)、よりエレガントな方法でクエリすることもできます。

現在のバージョンには TensorFlow モデルのトレーニングのサポートは含まれていませんが、将来追加される予定です。 私たちの目標は、最近の研究成果をできるだけ多くオープンソース化し、研究の再現性を高め、現実のシナリオに適用できるようにすることです。 さらに、私たちは Google Cloud の同僚と緊密に連携して、医療データを管理するための追加ツールの開発に取り組んでいます。

<<:  2018年のソフトウェア開発に関する10の予測、注目のブロックチェーンとAIを含む

>>:  ブロックチェーン、自動運転、人工知能の戦いが始まった。次にホットスポットになるのはどれか?

ブログ    
ブログ    
ブログ    

推薦する

...

AIに人間主義の精神を持ち込むことについて、フェイフェイ・リーとビル・ゲイツは今日スタンフォードで何について話したのでしょうか?

マイクロソフト創業者のビル・ゲイツ氏、グーグルの人工知能の第一人者ジェフ・ディーン氏、ディープマイン...

機械学習に基づく自動文書ラベル付けグラフ技術

このコースでは、ナレッジグラフ技術の開発動向、機械学習に基づくラベルグラフ技術のアイデア、主要技術の...

...

Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...

二分木反復アルゴリズム

バイナリ ツリーの事前順序、イン順序、および事後順序のトラバーサルは、アルゴリズムとデータ構造におけ...

機械学習を拡張するための5つのポイント

Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...

...

...

...

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...

展望: 2023 年のディープラーニングとメタバースの未来

ディープラーニング (DL) は、再帰型ニューラル ネットワーク、長期短期記憶、畳み込みニューラル ...

Waymo - 自動運転技術の解説

[[437828]]今日は、Google の自動運転車 Waymo がどのようにそれを実現するかを見...

セキュリティにおける機械学習の 5 つの優れた使用例

機械学習は、企業が直面するセキュリティ上の脅威をより深く理解し、従業員がより価値のある戦略的タスクに...

データセット検索アーティファクト! 100 個の大規模な機械学習データセットがここに収集されています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...