機械にプライバシーを学習させることはできるでしょうか?

機械学習では、モデルをトレーニングするために大量のデータが必要であり、通常、このトレーニングデータを Amazon や Google などのオペレーターがホストする機械学習クラウドサービスにアップロードしますが、これによりデータが悪意のある攻撃者にさらされる可能性があります。では、機械学習をサービスとして使用し (Machine Learning as a Service - MLaaS)、プライバシーを保護することはできるのでしょうか?

[[225773]]

機械学習は今日のコンピュータサイエンスで最もホットなテーマの 1 つであり、多くのクラウドサービスプロバイダーが機械学習サービス (MLaaS) を急速に拡大しています。

しかし、これらの MLaaS には警告が伴います。すべてのモデルトレーニングデータはサービスオペレーターに公開されます。サービス運営者が特にこのデータにアクセスしない場合でも、他の目的を持つ誰かがアクセスできる可能性があります。

注: テキサス大学の Tyler Hunt 氏と他の研究者は最近、「Chiron: プライバシー保護を備えたサービスとしての機械学習」というタイトルの研究論文を発表しました。この論文では、クラウド MLaaS を使用する際にプライバシーを保護できるシステムアーキテクチャについて説明しています。興味のある学生は読むことができます。

プライバシーは双方向である

ユーザーはモデルのトレーニングデータを公開したくないかもしれませんが、サービスプロバイダーは独自のプライバシー上の懸念事項を考慮する必要があります。一般的に言えば、MLaaS テクノロジーの基礎となる実装アルゴリズムをユーザーが閲覧することは許可されていません。

Chiron システムモデルは、サービスオペレーターがトレーニングデータを閲覧できないようにすることができます。既存の機械学習サービスプラットフォームがどのようなモードで実行されているかに関係なく、Chiron はトレーニングアルゴリズムとモデルアーキテクチャをユーザーに公開せず、トレーニングモデルにアクセスするためのブラックボックスアクセスモードのみをユーザーに提供します。

Chiron は、アプリケーションコードのセキュリティを強化するために使用されるアーキテクチャ設計である Intel の Software Guard Extensions (SGX) を使用しますが、SGX のみを使用するだけでは不十分です。Chiron は、信頼できないユーザーコードが悪意のあるアーキテクチャで実行されるのを防ぐ分散セキュリティ保護サンドボックスである Ryoan サンドボックスでも SGX プラットフォームを使用します。

脅威モデル

Chiron の目標は、クラウド環境でユーザーのトレーニングデータとトレーニングモデル (クエリと出力データを含む) を保護することです。そのため、まず、オペレーティングシステムと対応するハイパーバイザーを含むプラットフォーム全体が信頼できないと想定します。攻撃者は、デバイス管理者やサービスオペレーターである場合もあれば、サービスプラットフォームへの侵入に成功した悪意のある攻撃者である場合もあります。もちろん、攻撃者はユーザーの入出力情報を直接記録できるため、悪意のある OS 開発者である可能性もあります。

トレーニングモデルは特定のクエリステートメントを通じてトレーニングデータを漏らすため、Chiron はトレーニングデータを提供するユーザーだけがトレーニング済みモデルにアクセスできるようにすることができます。たとえ攻撃者がクラウドインフラストラクチャに完全にアクセスできたとしても、モデルをクエリしてトレーニングデータにアクセスすることはできません。

Chiron は表面的には包括的なカバレッジを備えているように見えますが、MLaaS の基盤となるハードウェアには依然としてセキュリティ上の問題が残っています。

制限要因

SGX 自体は無防備というわけではなく、Intel のパフォーマンスモニタリングユニット (PMU) により、信頼できないプラットフォームがターゲットシステムの基盤となる動作メカニズムや実行中のタスクについて詳細な情報を取得できるようになります。現在の SGX では、高レベルの権限を持つソフトウェアがメモリページテーブルを変更したり、関連するコードやページデータのトレースを表示したりできるため、非常に深刻な結果を招くことになります。

Chiron は Intel の SGX に基づいて実装されているため、GPU がまだ SGX 関連の機能を十分にサポートできないため、GPU では動作しません。したがって、現在の Chiron の実装はまだ完璧ではなく、GPU ベンダーがセキュリティ問題を真剣に検討し始めたときにのみ、さらに前進できる可能性があります。

パフォーマンス

制限要因を超えて、Hunt らは Chiron のパフォーマンスをテストし、標準的な機械学習インフラストラクチャを保護しながらデバイスのパフォーマンスを維持できることを実証しました。

要約する

データが豊富な現代の世界では、何千ものセキュリティホールが存在し、攻撃者はさまざまな方法でそれらを悪用する可能性があります。絶対に安全なシステムはありませんが、より安全なシステムを目指して努力することはできます。機械学習が私たちの将来の生活において重要な役割を果たすことは間違いありません。機械学習が私たちのプライバシーを保護できたらどれほど安心できるでしょうか?

<<: 画像とテキストの認識 - 人工知能の知恵

>>: SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築

ブログ

ブログ

機械にプライバシーを学習させることはできるでしょうか?

Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

キャッシュ、キャッシュアルゴリズム、キャッシュフレームワークの概要

基本に立ち返る: 一歩先を行くために読むべき 5 つのデータサイエンス論文

人工知能人材の需要は倍増し、アルゴリズム人材の不足は170万人に達した

Ant Financial が SOFAJRaft をオープンソース化: 製品グレードの Java Raft アルゴリズムライブラリ

推薦する

TF Learn: Scikit-learn と TensorFlow をベースにしたディープラーニングツール

「1 枚の画像から 3D メッシュを再構築」により、遅延がなくなり、30 分から 45 秒にスピードアップしました。浙江大学、カリフォルニア大学などが共同でOne-2-3-45をリリース：オンラインデモを試用可能

Java プログラミングスキル - データ構造とアルゴリズム「単方向リンクリスト」

Daguan Data が自社開発の OCR と NLP 技術を統合し、インテリジェント RPA をリリース<

機械学習分野における社内競争について：博士号を取得しないと就職する資格はないのでしょうか？

注意を注入すると精度が 30% 向上します。 Google が最新の多目的「ダイナミックカットアウト」モデルをリリース

人工知能システムにおける不確実性の定量化

プラットフォームの後は、モジュラーシャーシが主流になるのでしょうか?

人工知能とモノのインターネットの動的な統合を探る（パート 3）

ガートナーの予測: データレイクの90%は役に立たなくなる

英国のサイバーセキュリティ機関がAIにおける大規模言語モデルのリスクを警告

ディープラーニングの次に来るものは何でしょうか?

企業がAIをビジネスに統合する際の課題を克服する方法

ロボティックプロセスオートメーションとスマートデータセンターの未来