あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]

ビッグデータダイジェスト制作

出典: MITテクノロジーレビュー

編集者: stats bear

国内外を問わず、プライバシー保護に対する国民の意識は高まっています。

特に医療データの場合、ほとんどの患者が診断結果などの個人情報を開示することを望まないため、病気の診断や探索における機械学習の可能性は大きく抑制されています。

2017 年、Google は機械学習への新しいアプローチに関するブログ記事をひっそりと公開しました。

データを一元管理する必要のある従来の方法とは異なり、新しい方法では、学習のために複数のデータソースからデータを取得します。この新しい方法の登場により、Google は、テキスト メッセージを読んだり転送したりすることなく、Android スマートフォンのユーザーが送受信するテキスト メッセージで使用される予測意味モデルをトレーニングできるようになりました。

これはプライバシーを保護できるあまり知られていないトレーニング方法です。

各病院からデータを出さずに全体のモデルトレーニングを完了することができ、精度は複数の病院のデータを統合してトレーニングしたモデルと同等です。

この連合学習アプローチは巧妙なものであったが、研究者らが指摘したように、当時は AI 界ではあまり支持されなかった。現在、この状況は、まったく新しい分野での応用が見出され、変わりつつあります。このプライバシー重視のアプローチは、医療における AI の障壁に対処するための強力な刺激となるでしょう。

MIT のコンピューターサイエンスの准教授である Ramesh Raskar 氏はかつてこう言っています。「患者データのプライバシーと社会に対するデータの有用性の間には誤った二分法があります。現在ではプライバシーと有用性の両方を同時に実現でき、データは私たちの足元の砂のようなもので、人々はそれに気付きさえしません。」

過去 10 年間で、ディープラーニングの急速な台頭により、多くの企業に変化がもたらされました。この増加により、自動運転車の開発が促進され、デバイスとのやり取りの方法が根本的に変えられ、サイバーセキュリティにおける新たな発明が生まれています。医療分野では、ディープラーニングが病気の検出や診断に有効であることを示す研究が数多くあるにもかかわらず、機械学習を実際の患者に役立てる進歩は遅れています。

[[261421]]

今日の一般的なアルゴリズムは、学習に大量のデータを必要とします。ほとんどの場合、アルゴリズムのデータが多いほど、結果は良くなります。病院や研究機関が大規模かつ多様なデータ リソース プールを必要とする場合は、データをまとめて保存する必要があります。

特に米国と英国では、機密性の高い医療情報がテクノロジー大手の手に集中管理されていることが、極めて不評で、驚くべきことではないことが繰り返し証明されている。

したがって、診断研究に人工知能を適用する範囲と適用可能性は非常に狭くなります。乳がん検出モデルは、同じ病院の数千人の患者でしか検証されていないため、世界中に展開することはできません。

これらはすべて、連合学習を通じて変化します。この技術により、病院の環境を離れたり、テクノロジー企業のサーバーにアクセスしたりすることなく、複数の異なる病院のデータを利用することができます。

具体的な操作方法

[[261422]]

これはどのように行われるのでしょうか? まず、さまざまな病院が独自のデータを使用してさまざまなモデルをトレーニングし、次にこれらのモデルを中央プロセッサに送信して、完璧なモデルに統合します。

各病院が継続的にデータを取得すると、新しく優れたモデルが病院側にダウンロードされ、新しいデータがインポートされて中央サーバーにプッシュバックされます。このような手順では、新しいデータは交換されず、モデルのみが交換されるため、データが逆に公開されることはありません。

フェデレーテッドラーニングの課題

もちろん、このような共同学習には依然として多くの課題が残っています。たとえば、複数の独立したモデルを 1 つの完璧なモデルに組み合わせると、個々のモデルを単独で使用した場合よりも大きなリスクが生じます。ラスカー氏は、研究者らはこの種の問題が二度と起こらないように既存の技術の改善に取り組んでいると述べた。

[[261423]]

もう 1 つの課題は、フェデレーテッド ラーニングでは、各病院が機械学習モデルをトレーニングするためのインフラストラクチャと基本的な機能を備えている必要があることです。同時に、病院全体から収集されたデータをどのように標準化するかも大きな障害となっています。しかし、ラスカール氏が言うように、「まだやるべきことはたくさんあるが、ほとんどは応急処置にすぎない」ので、乗り越えられない障害はない。

その他のプライバシー重視の機械学習

実際、プライバシーを最優先する他の分散学習技術では、すでにこれらの問題に対処できます。たとえば、ラスカー氏と彼の学生たちは最近、解離学習を開発しました。連合学習では、各病院は独立したモデルのトレーニングから始めますが、トレーニングは途中までしか行われません。これらの半完成モデルは、中央サーバーに送信され、統合およびトレーニングされます。

これにより、一部の病院では独自の計算にかかる負担を軽減できるというメリットがあります。この技術はまだ概念実証の段階にあるが、これまでの実験により、ラスカールの研究チームは、中央データプールでトレーニングすればほぼ完璧なモデルが形成されることを証明した。

IBM Research を含む少数の企業が、ヘルスケア分野の実際の AI アプリケーションにフェデレーテッド ラーニングを導入しています。パリを拠点とするオウキン氏は、グーグルの投資会社の協力を得て、連合学習を適用し、患者の薬剤耐性や治療耐性を予測するとともに、特定の病気に対する生存率も調べ始めた。

同社はまた、米国や欧州のがん研究センターのデータを活用し、モデル研究を行っている。同社の創設者らは、患者の病理マップに基づいて希少がんの生存率を予測できるモデルに関するこの共同研究の成果が、近々発表される研究論文に掲載される予定であると述べた。

「とても興奮しています」と、オーキンの共同創設者で臨床研究医のトーマス・クロゼル氏は言う。「現在、腫瘍学における最大の障壁は知識です。私たちはその知識を解き放ち、医療分野に革新をもたらすことができることにとても興奮しています。」

ラスカー氏は、分散学習におけるこれらのアプリケーションは医療の領域をはるかに超えて、特に人々がデータを共有したくない分野にまで拡大すると考えています。最後に彼はこう結論づけた。「分散化された信頼のない環境では、この種の学習方法は非常に非常に役立つだろう。」

カレン・ハオは、MITテクノロジーレビューの人工知能記者です。特に、彼女の取材範囲は、テクノロジーの倫理的、社会的影響と、その社会への応用です。

関連レポート:

https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

>>:  フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2020年第1四半期の人工知能の最新進歩

かつてはSFの世界であり、コンピューティングの世界の非現実的な夢であった人工知能が、今や現実のものと...

人工知能が衛星衝突回避システムの開発に貢献

衛星が損傷を受けると、危険な宇宙ゴミになります。シンシナティ大学の学生たちは、損傷した衛星や宇宙船を...

...

...

市場レポートの予測: 2027年には世界の生体認証市場は1,000億ドルに近づく

近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...

...

「インターネット情報サービスアルゴリズム推奨管理規則」が公布され、3月1日に発効される。

最近、中国サイバースペース管理局、工業情報化部、公安部、国家市場監督管理総局は共同で「インターネット...

AI を活用することで、銀行は年間 1 兆ドルの追加収益を得ることができる | マッキンゼーの最新調査レポート

AI を活用して財務管理や投資を行いたいと考えていますか? [[351941]]好むと好まざるとにか...

...

大規模言語モデル (LLM) の脆弱性トップ 10

人工知能 (AI) の分野では、特に OpenAI が ChatGPT や GPT-4 などの画期的...

地下鉄乗車時の「顔認識」:AI専門家にとって新たな金鉱

[[276754]]業界のすべての実務者が合意に達することはまれですが、AI業界は例外です。ほぼすべ...

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...

不気味な人工知能はいつでもあなたが何を考え、何を見ているかをスパイできる

日本の科学者たちは、驚くほどの正確さで脳内を覗き込むことができる不気味な機械を開発した。この AI ...