Google、Apple、Intel の「医療データのプライバシー保護をめぐる戦い」: 3 つの AI テクノロジーのうちどれが好みですか?

Google、Apple、Intel の「医療データのプライバシー保護をめぐる戦い」: 3 つの AI テクノロジーのうちどれが好みですか?

[[311646]]
(画像出典: venturebeat)

人工知能は既存のいくつかの産業を変革する可能性を秘めており(そしてすでに変革しています)、プライバシーの問題は未解決の課題のままです。

以前、英国のNHS財団は160万人の患者の同意を得ずにDeepMindのデータを公表していたことが暴露された。しかし、世界的な視点から見ると、データプライバシー、特に医療データのプライバシー保護は新しい話題ではありません。

昨年11月、GoogleとAscensionの健康データ共有パートナーシップは、同社が胸部X線スキャン画像に個人を特定できる情報が含まれているとの懸念から、その公開計画を断念したことで精査の対象となった。

昨年の夏、マイクロソフトは、1,000 万枚を超えるユーザー画像のデータセット (MS Celeb) を、ユーザーがその画像が含まれていることに気付いていなかったことが明らかになった後、ひっそりと削除しました。

また、AppleやGoogleなどのテクノロジー大手がSiriやGoogle Assistantなどのアプリを改善するために収集した音声録音が違法に使用されている可能性が複数の報道で明らかになった。 4月、ブルームバーグは、アマゾンがAlexa搭載デバイスからの何千時間もの音声に注釈を付けるために請負業者を雇ったことを明らかにし、アマゾンはクラウドに保存されたデータを迅速に削除するためのユーザー向けツールを展開することになった。

プライバシーは倫理的な問題であるだけでなく、ビジネス プロセスにおける問題でもあります。米国の州、地方、連邦レベルの法律は、プライバシー権を規制行政の必須部分とするように設計されています。プライバシー、サイバーセキュリティ、データ侵害に対処する何百もの法案が、全 50 州、準州、コロンビア特別区で審議中または可決されています。

おそらくこれらの中で最も広範囲にわたるのは、カリフォルニア州消費者プライバシー法であり、医療保険の携行性と責任に関する法律 (HIPAA) を除いて約 2 年前に制定されました。この法案は、企業が個人の健康情報を開示する前に許可を得ることを義務付けている。欧州連合の一般プライバシーデータ保護規則 (GDPR) などの国際規制は、消費者が個人データの収集と使用をより細かく制御できるようにすることを目的としています。

人工知能技術の発展の歴史を振り返ると、プライバシーの問題は私たちの頭上にぶら下がっている「ダモク​​レスの剣」として捉えられてこなかったことがわかります。しかし、機械学習の分野であるプライバシー保護機械学習は、個人を特定できるデータの漏洩を潜在的に防ぐ方法を模索しています。フェデレーテッドラーニング、差分プライバシー、準同型暗号化は、最も有望な 3 つのテクノロジーと考えられています。

ニューラルネットワークの「穴」

ほとんどの AI システムの中心となるのはニューラル ネットワークであり、これは他のニューロンに信号を伝達する機能ニューロンの層で構成されています。これらの信号はネットワークに送られ、層から層へと渡され、ネットワークをゆっくりと「調整」し、実質的に各接続のシナプス強度 (重み) を調整します。時間の経過とともに、ネットワークはデータセットから特徴を抽出し、相互例を識別して、最終的に予測を行います。

ニューラル ネットワークは、生の画像、ビデオ、オーディオ、またはテキストを直接処理しません。トレーニング コーパス内のサンプルは、スカラー (単一の数値)、ベクトル (スカラーの順序付けられた配列)、行列 (1 つ以上の列と 1 つ以上の行に配置されたスカラー) などの多次元配列に数学的に変換されます。スカラー、ベクトル、および行列をテンソルにカプセル化する 4 番目のエンティティ タイプは、有効な線形変換 (または関係) を追加します。

こうした変換にもかかわらず、ニューラル ネットワークの出力から機密情報が特定されることが多く、データセット自体は、通常はシャッフルされずに、データ侵害の影響を受けやすい集中型リポジトリに保存されるため、脆弱です。

機械学習のリバース エンジニアリングの最も一般的な形式は、メンバーシップ推論攻撃です。これは、攻撃者が単一のデータ ポイントまたは複数のデータ ポイントを使用して、それがターゲット モデルのトレーニングに使用されたコーパスに属するかどうかを判断します。 AI はサンプルの再作成が得意であるため、データセットから機密情報を削除しても、再推論ができなくなるわけではありません。プライバシー保護技術が使用されない限り、トレーニングされたモデルにはすべてのトレーニング セットの情報が含まれます。

ウィスコンシン大学とマーシュフィールド臨床研究所の研究者らは、薬剤投与量を予測するように訓練された機械学習モデルから患者のゲノム情報を抽出することに成功した。

別の研究では、カーネギーメロン大学とウィスコンシン大学マディソン校の研究者らが、顔認識用に訓練されたモデルから顔写真画像を再構築することに成功した。

より洗練されたデータ抽出攻撃方法では、生成的敵対ネットワーク (GAN) を使用します。これは、サンプルを生成するジェネレーターと、生成されたサンプルと実際のサンプルを区別する識別子の 2 つの部分からなる AI システムで構成されます。元のサンプルに触れることなく、元のコーパスのサンプルと非常によく似たサンプルを生成するようにトレーニングされ、識別的なディープ ニューラル ネットワークと対話することでデータの分布を学習します。

2017年、研究者らは、GAN をトレーニングしてプライベートデータセットのオリジナルサンプルを生成し、機密情報を明らかにできることを実証しました。別の研究では、チームがGANを使用して、画像生成機械学習モデルのトレーニングに使用されるサンプルを推測し、対象モデルのパラメータ(AI技術がデータを適合させるために使用した変数など)にアクセスできる「ホワイトボックス」設定で100%の成功率を達成しました。

幸いなことに、フェデレーテッド ラーニングや差分プライバシーなどの方法は、データのプライバシーを保護する上で期待できます。

フェデレーテッドラーニング

フェデレーテッドラーニングは今年の AI 分野のホットワードの 1 つであり、多くの学術リーダーやビジネス界の研究者がこの手法に楽観的です。

簡単に言えば、フェデレーテッド ラーニングとは、データ サンプルを交換せずに保存する分散デバイスまたはサーバー (ノード) を使用して人工知能アルゴリズムをトレーニングするテクノロジであり、個々のノードがデータを共有せずに共通の機械学習モデルを構築できるようにします。これは、ローカル データ サンプルが広く分散されていることを前提とする従来の分散アプローチとは異なります。

中央サーバーは、アルゴリズムの実行ステップをスケジュールし、参照クロックとして機能するために使用される場合もあれば、実行ステップがピアツーピアである場合もあります (この場合は中央サーバーは存在しません)。いずれの場合も、ローカル モデルはローカル データ サンプルでトレーニングされ、一定の頻度でモデル間で重みが交換されてグローバル モデルが生成されます。

これは、一連の連合学習ラウンドのインタラクションに分解される反復プロセスであり、各ラウンドでは、現在のグローバル モデル状態が参加ノードに送信されます。ローカル モデルはノード上でトレーニングされ、各ノード上で可能なモデル更新のセットが生成されます。その後、ローカル更新が集約され、単一のグローバル更新に処理されて、グローバル モデルに適用されます。

Google はフェデレーテッド ラーニング アプローチを最初に検討し、すでに本番環境に導入しています。 Leifeng.com(公開アカウント:Leifeng.com)は、Googleが「数千万」のiOSおよびAndroidデバイス上のGboard予測キーボードのパーソナライズにこれを使用していることを知りました。 GoogleはPixel 4の発売と同時に、曲の再生回数を総合的に集計し、地域別に最も人気のある曲を特定して認識率を向上させる「現在再生中の曲の識別」機能の改良版をリリースした。

Leifeng.com によると、Google は最近、分散データに対するディープラーニングやその他の計算をより簡単に実行できるように設計された TensorFlow 機械学習フレームワークのモジュール「TensorFlow federated」をリリースした。

もちろん、完璧なテクノロジーはありません。フェデレーテッド ラーニングでは、学習プロセス中にノード間で頻繁に通信を行う必要があります。機械学習モデルがパラメータを交換するには、大量の処理能力とメモリが必要です。その他の課題としては、トレーニング例を検査できないことや、電源と伝送パラメータの方法が利用可能な場合にのみ AI モデルをトレーニングできることによって生じるバイアスなどが挙げられます。

差分プライバシー

フェデレーテッド ラーニングは、個人のデータを保持しながら、コーパス内のグループのパターンを記述することでデータセットに関する情報を公開するシステムである差分プライバシーと密接に関連しています。通常、生のデータをローカルの機械学習モデルに取り込む前に、生のデータを少量のノイズで埋め込むことで、データ窃盗犯がトレーニング済みのモデルから元のデータを抽出することを困難にします。

直感的には、特定の個人の情報が計算に使用されているかどうかを観察者が確認できない場合、アルゴリズムは差分プライバシーであると見なすことができます。差分プライバシー連合学習プロセスにより、ノードは、任意のノードが保持するデータを隠しながら、モデルを共同で学習できます。

オープンソースの TensorFlow ライブラリ TensorFlow Privacy は、差分プライバシー アプローチに基づいています。具体的には、修正された確率的勾配降下法を使用してパラメータを調整し、トレーニング データによって発生した複数の更新を平均化し、各更新をクリップして、最終平均にノイズを追加します。

これにより、いくつかの詳細を記憶する必要がなくなり、2 つの機械学習モデルが、ある人物のデータがトレーニングに使用されたかどうかを区別できないというさらなる保証が得られます。

Appleは2017年から差分プライバシーを使用して、人気の絵文字やSafariでのメディア再生設定などを識別しており、最新のモバイルオペレーティングシステムバージョン(iOS 13)ではそれをフェデレーテッドラーニングと組み合わせました。どちらの技術も、Siri の結果だけでなく、Apple の QuickType キーボードや iOS アプリなどのアプリの改善に役立ちます。後者は、カレンダー アプリとメール アプリをスキャンして、ローカルに保存されていない連絡先と発信者の名前を検索します。

Nvidiaとロンドン大学キングス・カレッジの研究者らは最近、連合学習を使用して脳腫瘍のセグメンテーションのためのニューラルネットワークをトレーニングした。Nvidiaはこれが医療画像分析における最初のマイルストーンであると主張している。彼らのモデルは、BraTS(マルチモーダル脳腫瘍セグメンテーション)チャレンジの脳腫瘍患者285人のデータセットを使用し、GoogleやAppleが採用したアプローチと同様に、差分プライバシーを活用してデータベースにノイズを追加しました。

「この方法では、参加している各ノードが更新を保存し、組織間で実際に共有できる情報の粒度を制限します」と、Nvidia のシニア研究者 Nicola Rieke 氏は以前のインタビューで述べています。「モデルの 50% または 60% が更新された場合、グローバル モデルが集約される方法で更新をマージすることはできますか? 結果は「はい、可能です」でした。これは本当にエキサイティングです。モデルの 10% のみが共有されている場合でも、モデルを集約できます。 ”

もちろん、差分プライバシーは完璧ではありません。基礎となるデータ、入力、出力、またはパラメータにノイズが注入されると、モデル全体のパフォーマンスに影響します。ある研究では、トレーニング データセットにノイズを追加した後、予測精度が 94.4% から 24.7% に低下したことが著者によって確認されました。プライバシーを保護する別の機械学習技術である準同型暗号化にはこれらの欠点はありませんが、まだ完璧には程遠いものです。

準同型暗号

準同型暗号化は新しいものではありません。IBM の研究者 Craig Gentry 氏が 2009 年に最初の方式を開発しました。

しかし近年、計算能力と効率性の向上に伴い、準同型暗号が広く使用されるようになりました。これは本質的には、暗号文とも呼ばれるアルゴリズムを使用して暗号化されたプレーンテキスト (ファイルの内容) に対して計算を実行し、その結果得られる暗号化結果が暗号化されていないテキストに対して実行された操作の結果と正確に一致するようにする暗号化形式です。

この技術を使用すると、「クリプトネット」(暗号化されたデータに適用できる学習ニューラル ネットワークなど)がデータに対して計算を実行し、暗号化された結果をクライアントに返すことができます。クライアントは暗号化キー(公開されていない)を使用して返されたデータを復号化し、実際の結果を取得できます。

「MRI を送る場合、担当医がすぐに見ることができるようにしたいが、他の誰にも見られてはいけない」と、インテルの IoT グループ副社長、ジョナサン・バロン氏は今年初めに VentureBeat に語った。

準同型暗号化はこれを可能にします。さらに、モデル自体も暗号化されています。そのため、企業はこのモデルをパブリック クラウド上に配置できますが、クラウド プロバイダーは自社のモデルがどのようなものかまったく把握していません。 「実際には、準同型暗号化ライブラリはまだ最新のハードウェアを十分に活用しておらず、従来のモデルよりも少なくとも1桁遅いです。しかし、高速暗号化ライブラリであるcuHEなどの新しいプロジェクトは、さまざまな暗号化タスクで以前の実装よりも12〜50倍高速化されていると主張しています。

さらに、Facebook の PyTorch や TensorFlow 機械学習フレームワーク上にそれぞれ構築された PySyft や tf-encrypted などのライブラリは、ここ数か月で大きな進歩を遂げています。 HE Transformer のような抽象化レイヤーがあり、これは nggraph (Intel のニューラル ネットワーク コンパイラ) のバックエンドであり、一部の暗号化ネットワークで優れたパフォーマンスを提供できます。

実際、ほんの数か月前、Intel の研究者は、独自のアクティベーション関数を使用して標準の事前トレーニング済み機械学習モデルで推論を実行できる HE-Transformr の後継である nGraph-HE2 を提案しました。論文では、スカラー エンコーディング (数値をビット配列にエンコードする) の実行時間が 3 倍から 88 倍高速化され、スループットが 2 倍になり、乗算と加算の最適化を追加すると実行時間がさらに 2.6 倍から 4.2 倍高速化されると報告されています。

IBM の上級研究科学者 Flavio Bergamaschi 氏は、エッジ ハードウェアを使用して準同型暗号化操作を実装する方法を調査しました。

最近の研究では、彼と彼の同僚は、AI カメラを搭載したデバイスにローカル準同型データベースを展開し、カメラ上で直接検索を実行できるようにしました。これは「準同型高速化」パフォーマンスであり、データベース エントリの検索にはそれぞれ 1.28 秒しかかからず、これは 5 分で 200 エントリをクエリするのと同等であると報告されています。

「私たちは、特定のユースケースでは完全準同型暗号化が十分に高速になるパフォーマンスの変曲点にいます」と彼は最近の電話インタビューで語った。

生産面では、ベルガマスキ氏と彼のチームは米国の銀行顧客と協力して、準同型技術を使用して機械学習プロセスを暗号化しています。機械学習プロセスは、12の変数を持つ線形回帰モデルであり、当座預金口座保有者の24か月分の取引データを分析し、それらの口座の財務状況を予測して、ローンなどの商品を推奨する役割を果たした。

クライアントのプライバシーとコンプライアンス上の理由から、IBM チームは既存のモデルと使用されるトランザクション データを暗号化し、暗号化されたモデルと暗号化されていないモデルの両方で予測を実行してパフォーマンスを比較しました。前者は後者よりも実行速度が遅くなりますが、精度は同じです。

「これは本当に重要な点です。予測モデルがない場合、取引データを取得して、運用中に新しいモデルのトレーニングを実行できます」とベルガマスキ氏は語った。

準同型暗号への熱狂により、それを商業的に利用するスタートアップ企業が誕生した。

ニュージャージー州ニューアークに拠点を置くDuality Technologiesは、最近Intelのベンチャーキャピタル部門から投資を受け、その準同型暗号化プラットフォームを「多くの」企業、特に規制産業向けのプライバシー保護ソリューションとして位置付けている。同社の売り文句によれば、銀行は複数の機関にわたってプライバシーを保護しながら金融犯罪の捜査を実施できるようになり、科学者は患者の医療記録に基づく問題を研究するためにこれを使用できるという。

しかし、フェデレーテッド ラーニングや差分プライバシーと同様に、準同型暗号化にも欠点がないわけではありません。最先端の技術でも多項式関数しか計算できません。これは、機械学習における多くの非多項式活性化関数では非標準です。さらに、暗号化されたデータの操作には整数の加算と乗算しか含まれないため、学習アルゴリズムに浮動小数点計算が必要な場合は課題となります。

「準同型暗号は、10秒で推論できるプロジェクトでは有効だが、現在3ミリ秒で処理できるプロジェクトでは機能しない」とバロン氏は言う。「計算量が多すぎるため、エンジニアリングの作業に戻ることになる」

2014年以来、ベルガマスキ氏とその同僚は準同型コンピューティングを高速化するためのハードウェアアプローチの実験を行ってきました。歴史的に、帯域幅は最大の障害でした。アクセラレータは個別には強力なベンチマーク パフォーマンスを実現しましたが、全体としては強力なシステム パフォーマンスを実現していませんでした。これは、操作を実行するために必要なデータが、プロセッサとアクセラレータ間の大量の帯域幅を必要とするためです。

解決策は、プロセッサ上のストレージをより効率的に利用する技術にあるかもしれません。韓国科学技術院の研究者が発表した論文では、すべての通常データとセキュア データに複合キャッシュを使用し、セキュリティ プロセッサとキャッシュ インターポーザにメモリ スケジューリングとマッピング スキームを使用することを推奨しています。

両社の発表によると、これら 2 つのアプローチを組み合わせることで、一般的な 8 コアおよび 16 コアのセキュリティ プロセッサにおける暗号化パフォーマンスの低下を 25% ~ 34% から 8% ~ 14% 未満に抑えることができ、追加のハードウェア コストも最小限に抑えられるという。

データプライバシーの保護—まだ長い道のり

新しいテクノロジーは、人工知能や機械学習に固有のプライバシー問題の一部に対処できるかもしれませんが、まだ初期段階にあり、弱点がないわけではありません。

フェデレーテッドラーニングは、データサンプルを交換せずに分散サーバー上でアルゴリズムをトレーニングしますが、電力、コンピューティング、インターネットの変動の中で検査や制御を行うことは困難です。

差分プライバシーでは、個人情報を保持しながらデータセットに関する情報を公開するため、挿入されたノイズによって精度が低下します。

準同型暗号化(暗号化されたデータに対して計算を実行できる暗号化形式)に関しては、少し時間がかかり、計算コストも高くなります。

それでも、バロン氏のような人々は、これら 3 つのアプローチはすべて正しい方向への一歩であると信じている。 「これは、HTTP から HTTPS への移行と非常に似ています」と Ballon 氏は言います。「いつかは、機械学習におけるプライバシーを完全に保護するツールと機能を手に入れるでしょうが、まだそこまでには至っていません。」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  非人道的だ!人工知能はソーシャルエンジニアリングの天敵である

>>:  機械学習モデルの再トレーニングの究極ガイド

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

ソフトウェア開発を簡素化する 5 つの機械学習ツール

[51CTO.com クイック翻訳] 機械学習を使用する開発者の間での議論のほとんどは、AI ベース...

破壊的な AI プログラム: 人工知能が天文学の革新を推進する方法

[[349907]]あらゆる業界に嵐のように広がっている流行語があるとすれば、それは「人工知能」に違...

AIの力を集めよう!中国のチームが初めてネイチャー誌に中国のAIの状況に関する論文を発表した。

[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...

人工知能はターミネーターとなるのか?ぜひ見に来てください!

[[253100]]映画「ターミネーター」を見たことがある人は多いでしょう。実は、ターミネーターに似...

5GとAIの相互影響

技術革新に関しては、私たちは転換点に達したようです。過去 5 年間で、私たちは、アイデアの創出から会...

AI は旅行体験をどのように向上させることができるのでしょうか?

AI を活用した休暇は旅行の未来であり、かつては考えられなかったパーソナライズされた没入型の体験を...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

...

アリババのキャンパス採用の給与は魅力的すぎる、アルゴリズム職の最高給与は72万!最初のオファーを選択するにはどうすればいいですか?

[[248005]]インターネット業界は将来性が有望で、お金を稼げるので就職するには良い場所だと多...

SKU多次元属性状態判定アルゴリズム

問題の説明この問題は、製品属性を選択するシナリオから発生します。たとえば、服や靴を購入するときは、通...

...

...

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...