あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]

ビッグデータダイジェスト制作

出典: MITテクノロジーレビュー

編集者: stats bear

国内外を問わず、プライバシー保護に対する国民の意識は高まっています。

特に医療データの場合、ほとんどの患者が診断結果などの個人情報を開示することを望まないため、病気の診断や探索における機械学習の可能性は大きく抑制されています。

2017 年、Google は機械学習への新しいアプローチに関するブログ記事をひっそりと公開しました。

データを一元管理する必要のある従来の方法とは異なり、新しい方法では、学習のために複数のデータソースからデータを取得します。この新しい方法の登場により、Google は、テキスト メッセージを読んだり転送したりすることなく、Android スマートフォンのユーザーが送受信するテキスト メッセージで使用される予測意味モデルをトレーニングできるようになりました。

これはプライバシーを保護できるあまり知られていないトレーニング方法です。

各病院からデータを出さずに全体のモデルトレーニングを完了することができ、精度は複数の病院のデータを統合してトレーニングしたモデルと同等です。

この連合学習アプローチは巧妙なものであったが、研究者らが指摘したように、当時は AI 界ではあまり支持されなかった。現在、この状況は、まったく新しい分野での応用が見出され、変わりつつあります。このプライバシー重視のアプローチは、医療における AI の障壁に対処するための強力な刺激となるでしょう。

MIT のコンピューターサイエンスの准教授である Ramesh Raskar 氏はかつてこう言っています。「患者データのプライバシーと社会に対するデータの有用性の間には誤った二分法があります。現在ではプライバシーと有用性の両方を同時に実現でき、データは私たちの足元の砂のようなもので、人々はそれに気付きさえしません。」

過去 10 年間で、ディープラーニングの急速な台頭により、多くの企業に変化がもたらされました。この増加により、自動運転車の開発が促進され、デバイスとのやり取りの方法が根本的に変えられ、サイバーセキュリティにおける新たな発明が生まれています。医療分野では、ディープラーニングが病気の検出や診断に有効であることを示す研究が数多くあるにもかかわらず、機械学習を実際の患者に役立てる進歩は遅れています。

[[261421]]

今日の一般的なアルゴリズムは、学習に大量のデータを必要とします。ほとんどの場合、アルゴリズムのデータが多いほど、結果は良くなります。病院や研究機関が大規模かつ多様なデータ リソース プールを必要とする場合は、データをまとめて保存する必要があります。

特に米国と英国では、機密性の高い医療情報がテクノロジー大手の手に集中管理されていることが、極めて不評で、驚くべきことではないことが繰り返し証明されている。

したがって、診断研究に人工知能を適用する範囲と適用可能性は非常に狭くなります。乳がん検出モデルは、同じ病院の数千人の患者でしか検証されていないため、世界中に展開することはできません。

これらはすべて、連合学習を通じて変化します。この技術により、病院の環境を離れたり、テクノロジー企業のサーバーにアクセスしたりすることなく、複数の異なる病院のデータを利用することができます。

具体的な操作方法

[[261422]]

これはどのように行われるのでしょうか? まず、さまざまな病院が独自のデータを使用してさまざまなモデルをトレーニングし、次にこれらのモデルを中央プロセッサに送信して、完璧なモデルに統合します。

各病院が継続的にデータを取得すると、新しく優れたモデルが病院側にダウンロードされ、新しいデータがインポートされて中央サーバーにプッシュバックされます。このような手順では、新しいデータは交換されず、モデルのみが交換されるため、データが逆に公開されることはありません。

フェデレーテッドラーニングの課題

もちろん、このような共同学習には依然として多くの課題が残っています。たとえば、複数の独立したモデルを 1 つの完璧なモデルに組み合わせると、個々のモデルを単独で使用した場合よりも大きなリスクが生じます。ラスカー氏は、研究者らはこの種の問題が二度と起こらないように既存の技術の改善に取り組んでいると述べた。

[[261423]]

もう 1 つの課題は、フェデレーテッド ラーニングでは、各病院が機械学習モデルをトレーニングするためのインフラストラクチャと基本的な機能を備えている必要があることです。同時に、病院全体から収集されたデータをどのように標準化するかも大きな障害となっています。しかし、ラスカール氏が言うように、「まだやるべきことはたくさんあるが、ほとんどは応急処置にすぎない」ので、乗り越えられない障害はない。

その他のプライバシー重視の機械学習

実際、プライバシーを最優先する他の分散学習技術では、すでにこれらの問題に対処できます。たとえば、ラスカー氏と彼の学生たちは最近、解離学習を開発しました。連合学習では、各病院は独立したモデルのトレーニングから始めますが、トレーニングは途中までしか行われません。これらの半完成モデルは、中央サーバーに送信され、統合およびトレーニングされます。

これにより、一部の病院では独自の計算にかかる負担を軽減できるというメリットがあります。この技術はまだ概念実証の段階にあるが、これまでの実験により、ラスカールの研究チームは、中央データプールでトレーニングすればほぼ完璧なモデルが形成されることを証明した。

IBM Research を含む少数の企業が、ヘルスケア分野の実際の AI アプリケーションにフェデレーテッド ラーニングを導入しています。パリを拠点とするオウキン氏は、グーグルの投資会社の協力を得て、連合学習を適用し、患者の薬剤耐性や治療耐性を予測するとともに、特定の病気に対する生存率も調べ始めた。

同社はまた、米国や欧州のがん研究センターのデータを活用し、モデル研究を行っている。同社の創設者らは、患者の病理マップに基づいて希少がんの生存率を予測できるモデルに関するこの共同研究の成果が、近々発表される研究論文に掲載される予定であると述べた。

「とても興奮しています」と、オーキンの共同創設者で臨床研究医のトーマス・クロゼル氏は言う。「現在、腫瘍学における最大の障壁は知識です。私たちはその知識を解き放ち、医療分野に革新をもたらすことができることにとても興奮しています。」

ラスカー氏は、分散学習におけるこれらのアプリケーションは医療の領域をはるかに超えて、特に人々がデータを共有したくない分野にまで拡大すると考えています。最後に彼はこう結論づけた。「分散化された信頼のない環境では、この種の学習方法は非常に非常に役立つだろう。」

カレン・ハオは、MITテクノロジーレビューの人工知能記者です。特に、彼女の取材範囲は、テクノロジーの倫理的、社会的影響と、その社会への応用です。

関連レポート:

https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

>>:  フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

ブログ    

推薦する

スマート病院: 将来の医療技術のガイドラインとトレンド

スマート病院とは何ですか?最も伝統的な病院でさえ、人、プロセス、資産の広大なネットワークを持つ複雑な...

...

注目すべきデータ視覚化の5つの新たなトレンド

[[412404]]データの視覚化はビジネス指標を理解するための最新の方法です情報の世界におけるテク...

オリンピックのコーチたちが、人工知能によって職を奪われる危険に直面する番なのだろうか?

中国の飛び込みドリームチームは、「消える水しぶき」の技術に長けており、オリンピックのあらゆる大会で金...

PyTorch と TensorFlow のどちらが優れていますか?最前線の開発者の声

Theano、TensorFlow、Torch、MXNetから最近人気のPyTorchなど、ディープ...

AIチップのスタートアップ企業が実装の道を探り、開発が成熟

ここ数年、AIチップの新興企業が雨後の筍のように出現した。現在、初期の参加者グループは、優れたチップ...

...

...

アルゴリズムの微積分: 面接で目立つための関数微分公式 5 つ

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」これは、中国人民大学情報学...

顔認識が再び禁止される:プライバシーと偏見をめぐる論争は続く 米国の別の州が顔認識ソフトウェアを禁止

海外メディアの報道によると、ニューヨーク州議会は、学校での顔認証やその他の生体認証技術の使用を202...

...