あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]

ビッグデータダイジェスト制作

出典: MITテクノロジーレビュー

編集者: stats bear

国内外を問わず、プライバシー保護に対する国民の意識は高まっています。

特に医療データの場合、ほとんどの患者が診断結果などの個人情報を開示することを望まないため、病気の診断や探索における機械学習の可能性は大きく抑制されています。

2017 年、Google は機械学習への新しいアプローチに関するブログ記事をひっそりと公開しました。

データを一元管理する必要のある従来の方法とは異なり、新しい方法では、学習のために複数のデータソースからデータを取得します。この新しい方法の登場により、Google は、テキスト メッセージを読んだり転送したりすることなく、Android スマートフォンのユーザーが送受信するテキスト メッセージで使用される予測意味モデルをトレーニングできるようになりました。

これはプライバシーを保護できるあまり知られていないトレーニング方法です。

各病院からデータを出さずに全体のモデルトレーニングを完了することができ、精度は複数の病院のデータを統合してトレーニングしたモデルと同等です。

この連合学習アプローチは巧妙なものであったが、研究者らが指摘したように、当時は AI 界ではあまり支持されなかった。現在、この状況は、まったく新しい分野での応用が見出され、変わりつつあります。このプライバシー重視のアプローチは、医療における AI の障壁に対処するための強力な刺激となるでしょう。

MIT のコンピューターサイエンスの准教授である Ramesh Raskar 氏はかつてこう言っています。「患者データのプライバシーと社会に対するデータの有用性の間には誤った二分法があります。現在ではプライバシーと有用性の両方を同時に実現でき、データは私たちの足元の砂のようなもので、人々はそれに気付きさえしません。」

過去 10 年間で、ディープラーニングの急速な台頭により、多くの企業に変化がもたらされました。この増加により、自動運転車の開発が促進され、デバイスとのやり取りの方法が根本的に変えられ、サイバーセキュリティにおける新たな発明が生まれています。医療分野では、ディープラーニングが病気の検出や診断に有効であることを示す研究が数多くあるにもかかわらず、機械学習を実際の患者に役立てる進歩は遅れています。

[[261421]]

今日の一般的なアルゴリズムは、学習に大量のデータを必要とします。ほとんどの場合、アルゴリズムのデータが多いほど、結果は良くなります。病院や研究機関が大規模かつ多様なデータ リソース プールを必要とする場合は、データをまとめて保存する必要があります。

特に米国と英国では、機密性の高い医療情報がテクノロジー大手の手に集中管理されていることが、極めて不評で、驚くべきことではないことが繰り返し証明されている。

したがって、診断研究に人工知能を適用する範囲と適用可能性は非常に狭くなります。乳がん検出モデルは、同じ病院の数千人の患者でしか検証されていないため、世界中に展開することはできません。

これらはすべて、連合学習を通じて変化します。この技術により、病院の環境を離れたり、テクノロジー企業のサーバーにアクセスしたりすることなく、複数の異なる病院のデータを利用することができます。

具体的な操作方法

[[261422]]

これはどのように行われるのでしょうか? まず、さまざまな病院が独自のデータを使用してさまざまなモデルをトレーニングし、次にこれらのモデルを中央プロセッサに送信して、完璧なモデルに統合します。

各病院が継続的にデータを取得すると、新しく優れたモデルが病院側にダウンロードされ、新しいデータがインポートされて中央サーバーにプッシュバックされます。このような手順では、新しいデータは交換されず、モデルのみが交換されるため、データが逆に公開されることはありません。

フェデレーテッドラーニングの課題

もちろん、このような共同学習には依然として多くの課題が残っています。たとえば、複数の独立したモデルを 1 つの完璧なモデルに組み合わせると、個々のモデルを単独で使用した場合よりも大きなリスクが生じます。ラスカー氏は、研究者らはこの種の問題が二度と起こらないように既存の技術の改善に取り組んでいると述べた。

[[261423]]

もう 1 つの課題は、フェデレーテッド ラーニングでは、各病院が機械学習モデルをトレーニングするためのインフラストラクチャと基本的な機能を備えている必要があることです。同時に、病院全体から収集されたデータをどのように標準化するかも大きな障害となっています。しかし、ラスカール氏が言うように、「まだやるべきことはたくさんあるが、ほとんどは応急処置にすぎない」ので、乗り越えられない障害はない。

その他のプライバシー重視の機械学習

実際、プライバシーを最優先する他の分散学習技術では、すでにこれらの問題に対処できます。たとえば、ラスカー氏と彼の学生たちは最近、解離学習を開発しました。連合学習では、各病院は独立したモデルのトレーニングから始めますが、トレーニングは途中までしか行われません。これらの半完成モデルは、中央サーバーに送信され、統合およびトレーニングされます。

これにより、一部の病院では独自の計算にかかる負担を軽減できるというメリットがあります。この技術はまだ概念実証の段階にあるが、これまでの実験により、ラスカールの研究チームは、中央データプールでトレーニングすればほぼ完璧なモデルが形成されることを証明した。

IBM Research を含む少数の企業が、ヘルスケア分野の実際の AI アプリケーションにフェデレーテッド ラーニングを導入しています。パリを拠点とするオウキン氏は、グーグルの投資会社の協力を得て、連合学習を適用し、患者の薬剤耐性や治療耐性を予測するとともに、特定の病気に対する生存率も調べ始めた。

同社はまた、米国や欧州のがん研究センターのデータを活用し、モデル研究を行っている。同社の創設者らは、患者の病理マップに基づいて希少がんの生存率を予測できるモデルに関するこの共同研究の成果が、近々発表される研究論文に掲載される予定であると述べた。

「とても興奮しています」と、オーキンの共同創設者で臨床研究医のトーマス・クロゼル氏は言う。「現在、腫瘍学における最大の障壁は知識です。私たちはその知識を解き放ち、医療分野に革新をもたらすことができることにとても興奮しています。」

ラスカー氏は、分散学習におけるこれらのアプリケーションは医療の領域をはるかに超えて、特に人々がデータを共有したくない分野にまで拡大すると考えています。最後に彼はこう結論づけた。「分散化された信頼のない環境では、この種の学習方法は非常に非常に役立つだろう。」

カレン・ハオは、MITテクノロジーレビューの人工知能記者です。特に、彼女の取材範囲は、テクノロジーの倫理的、社会的影響と、その社会への応用です。

関連レポート:

https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

>>:  フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

ブログ    
ブログ    
ブログ    

推薦する

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

[[326225]] 「すべての人にロボットを」というビジョンを掲げ、エンタープライズ向けロボティッ...

...

ロボット犬の悩み:ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

ニュージーランドの広大な草原で、羊の群れがのんびりと散歩しながら草を食べており、その後ろを牧羊犬が追...

EUがAIを活用して社会イノベーションを推進する方法

2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となることは間違いないだろう。...

AI時代における我が国の人工知能開発の長所と短所の分析

人工知能が人々の生活にますます大きな影響を与えるにつれて、人工知能技術は絶えず更新され、反復され、ま...

...

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにお...

...

無料の Python 機械学習コース パート 4: ロジスティック回帰アルゴリズム

ロジスティック回帰は、前世紀以来人気の手法です。カテゴリ変数と 1 つ以上の独立変数間の関係を確立し...

元従業員が内部事情を暴露: 10年経っても、なぜGoogleはナレッジグラフを解明できないのか?

[[258183]]この記事はWeChatの公開アカウント「AI Front」(ID: ai-fr...

...

...

OpenAI CEOがGPT-5の開発中であることを明らかに

11月14日、海外メディアの報道によると、OpenAIはGPT-5の構築を開始した。同社のCEOサム...