この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 誰も簡単にプライバシーを放棄するつもりはありません。 Appleが「App Tracking Transparency」プライバシー保護機能を正式にリリースしたとき、アプリによるアクティビティの追跡を許可することを選択したユーザーはわずか16%でした。 しかし、Apple が指摘しているように、利便性やサービスの質と引き換えにプライバシーデータを犠牲にしなければならない場合もあります。 そして1年後の今日、データ分析会社Adjustの統計によると、この数字は25%にまで上昇しています。 つまり、より多くのユーザーがパーソナライズされたコンテンツを受け取ることの価値を再認識したのです。 インターネット プラットフォームがユーザーに高品質のサービスを提供しながら、ユーザーのプライバシーを厳重に保護できるようにして、両方の長所を活かす方法はあるでしょうか? それは本当に存在するのです。 現在最も主流のソリューションは、機械学習モデルの構築に使用されるアルゴリズム フレームワークであるフェデレーテッドラーニングです。 フェデレーテッドラーニングの枠組みでは、ユーザー自身のデータは最初から最後までユーザー自身の携帯電話、自動車、各種IoTデバイスなどの端末内に残ります。 同時に、機械学習モデルのトレーニングに必要な情報は、暗号化、ノイズの追加または分割によって保護され、モデルの更新のためにクラウドサーバーに集約され、クラウドは更新されたモデルをユーザー端末にプッシュします。 このようなインタラクティブで反復的なプロセスを通じて、サービスプロバイダーは、ユーザーにサービスを提供するために高性能なモデルをトレーニングできるだけでなく、ユーザーのデータのプライバシーを保護することもできます。 フェデレーテッドラーニングは、2016 年に Google によって初めて提案され、それ以来徐々に注目の研究分野となってきました。 学術的には、出版される論文の数が急増しました。 △清華大学「2021年フェデレーテッドラーニンググローバル研究および応用動向レポート」より オープンソース フレームワークには、国内外の多くの大企業も参加しています。 △GithubリポジトリAwesome-Federated-Machine-Learningより Google Tensorflow-Federated は水平連合学習の代表例です。 ローカル モデルとクラウド モデルの機能は共有されますが、サンプル データは共有されません。これは、同じ C エンド企業が複数のユーザーにサービスを提供する状況に適しています。 Yang Qiang教授が率いるWeBank FATEフレームワークは、垂直連合学習の代表例です。 モデルの特徴に一貫性がなく、サンプル データが重複しているため、2 つの企業が顧客グループを共有しているが異なる特徴に重点を置いている場合など、B 側に適しています。 さらに一歩進んで、上記 2 つの特徴を組み合わせ、参加者間で特徴やサンプルの重複が少ない状況に適した、連合転移学習があります。 つい最近、別の大手企業がひっそりと市場に参入しました。Alibaba DAMO Academyが新しい連合学習フレームワークであるFederatedScope をオープンソース化しました。 △https://federatedscope.io 次のような問題も発生します。 以前のフレームワークと比較した新しいフレームワークの違いと競争上の優位性は何ですか? DAMO アカデミーはなぜこの時期に市場参入を決めたのでしょうか? まずはフェデレーテッドラーニング分野の現状と、FederatedScopeフレームワーク自体の特徴について見ていきましょう。 今、どのような連合学習フレームワークが必要なのでしょうか?5G、モノのインターネット、クラウドコンピューティング技術の発展により、フェデレーテッドラーニングに関わるデバイスの応用シナリオはますます多様化しています。 異種性は、従来の連合学習にとって最大の課題となっています。 異なるデバイス間の計算能力、ストレージ容量、通信機能の違いは、システム リソースの異質性と呼ばれます。 各デバイス上のローカル データが独立しておらず、同一に分散されていないため、データの異質性が生じます。 異なるアプリケーション シナリオは動作の異質性につながります。 これらの異質性により、連合学習に新たな要件が提示されます。 まず、連合学習参加者間で送信される情報の形式はより豊富になり、モデルパラメータや勾配などの同質の情報に限定されなくなります。 例えば、金融業界や通信業界で一般的に使用されるグラフデータに対して連合学習を実行する場合、ノードの埋め込み表現などの情報も参加者間で送信されます。 △「連合グラフ学習 - ポジションペーパー」より 情報の種類が豊富なため、連合学習フレームワークではさまざまな種類の情報伝達を柔軟にサポートする必要があります。 第二に、クロスデバイス連合学習は、従来の「サーバー側が集約を担当し、ユーザー側がローカルトレーニングを担当する」モデルに限定されなくなりました。 多くの場合、サーバー側では端末デバイスの動作要件を満たすためにモデルを圧縮する必要があります。端末デバイスは、受信したモデルを微調整してより良い結果を得る役割も担います。 参加者の多様な行動に対応するには、連合学習フレームワークがさまざまなカスタマイズされた行動を柔軟にサポートする必要があります。 また、デバイス間の操作により、参加者間の応答速度と信頼性にばらつきが生じるため、開発者が実際の状況に基づいて異なる非同期トレーニング戦略を採用できるようにするフェデレーテッド ラーニング フレームワークが必要になります。 デバイスが異なっていても、参加者は異なるバックエンド環境を使用する場合があります。たとえば、一部のデバイスでは PyTorch を使用し、他のデバイスでは TensorFlow を使用します。 そのためには、フェデレーテッド ラーニング フレームワークの互換性を高め、クロスプラットフォームのフェデレーテッド ラーニングをサポートして、ユーザーがすべての参加者の環境を適応させるために時間と労力を費やす必要がないようにする必要があります。 最後に、フェデレーテッド ラーニングが研究の最前線から産業用アプリケーションへと徐々に移行するにつれて、研究者や開発者のさまざまなアプリケーション ニーズを満たし、シミュレーションからデプロイメントへの移行の難しさを軽減するために、単一マシン シミュレーションと分散デプロイメント用の統一されたアルゴリズム記述とインターフェイスを提供するフェデレーテッド ラーニングフレームワークが必要になります。 DAMO アカデミー インテリジェント コンピューティング ラボによってオープン ソース化された新しい連合学習フレームワークである FederatedScope は、これらの新しい課題に対処するために作成されました。 メッセージ タイプとカスタム動作の場合、FederatedScope はフェデレーテッド ラーニングを参加者間でメッセージを送受信するプロセスと見なします。 このように、メッセージ タイプとメッセージ処理動作を定義することでフェデレーテッド ラーニング プロセスを記述できると同時に、追加のメッセージ タイプと処理動作を追加することでユーザーがカスタマイズできるようにサポートできます。 FederatedScope は、フェデレーション プロセス (さまざまな参加者の調整など) とモデル トレーニング動作 (トレーニング データのサンプリング、最適化など) を分離し、開発者が参加者の動作のカスタマイズに集中できるようにします。 既存のフェデレーテッド ラーニング フレームワークと比較すると、FederatedScope では、順次実行の観点から異なる参加者をどのように接続するかを考慮する必要がないため、開発の複雑さと必要なコード量が削減されます。 △クラシックフェデレーテッドラーニング △FederatedScopeモード 非同期トレーニングの場合、FederatedScope はそれをサポートするためにイベント駆動型プログラミング パラダイムを採用し、分散機械学習の関連研究結果を活用して非同期トレーニング戦略を統合し、トレーニング結果を改善します。 クロスプラットフォームのバックエンドサポートのために、FederatedScope はトレーニングモジュールを抽象化します。これにより、コアフレームワークはディープラーニングバックエンドに依存せず、さまざまなデバイスの動作環境と互換性があり、実際のシナリオでフェデレーテッドラーニングを展開する際の難しさやコストが大幅に削減されます。 FederatedScope は、これらの課題に対処するだけでなく、フレームワークのさまざまなシナリオへの適用性と開発者にとっての使いやすさにも大きな注意を払っています。 このため、FederatedScope は、自動パラメータ調整、プライバシー保護、パフォーマンス監視、エンド モデルのパーソナライズなど、複数の機能モジュールを統合します。 また、開発者が構成ファイルを通じて統合モジュールを簡単に呼び出すこともサポートしており、新しいアルゴリズム実装を追加し、登録を通じてこれらのモジュールに対して呼び出すこともできます。 たとえば、準備された新しいデータセットとモデル アーキテクチャを登録して使用することで、他の詳細を変更することなく、従来のフェデレーテッド ラーニングをさまざまな下流タスクに簡単に適用できます。 フェデレーテッド ラーニングを初めて使用する初心者でもすぐに始められるように、FederatedScope では詳細なチュートリアル、ドキュメント、実行スクリプトを提供しています。 同時に、FederatedScope には一般的に使用されるモデル アーキテクチャの実装も含まれており、いくつかのベンチマーク データ セットを均一に前処理してカプセル化することで、ユーザーが実験を簡単に実行できるようにします。 プライバシー保護コンピューティングはどの段階に達しましたか?上記から、DAMO アカデミーのフェデレーテッド ラーニング フレームワークの検討は、利便性と幅広い応用に重点を置いていることは容易に理解できます。 このような状況が生じた理由は、実は全体的な環境の変化によって決まります。 昨年以来、プライバシーを保護するコンピューティング業界はますます人気が高まっています。 IDCが最近発表したレポートによると、中国のプライバシー保護コンピューティング市場の規模は2021年に8億6000万元を超え、今後の成長率は110%を超えると予想されています。 ガートナーは、2025 年までに大企業の約 60% が少なくとも 1 つのプライバシー保護コンピューティング技術を適用すると予測しています。DAMO アカデミーの 2022 年のトップ 10 技術トレンドでも、プライバシー保護コンピューティングが重要なトレンドとして挙げられています。 シンクタンクのクォンタムは、今年3月時点でプライバシー保護コンピューティング関連事業を展開する国内メーカーは約150社あると推計している。 トラック全体では、サードパーティのスタートアップ、大手インターネット企業、AIソフトウェア開発者、変革企業、および当事者Aの自社開発製品が参加する「大乱闘」が繰り広げられます。 市場が活況を呈する中、国や社会もプライバシー保護コンピューティングにますます注目するようになっています。 2020年には、土地、労働、技術といった伝統的な要素に加え、データも生産要素として組み込まれることになる。 2021年には「中華人民共和国データセキュリティ法」「中華人民共和国個人情報保護法」「自動車データセキュリティ管理に関する若干の規定(試行)」が相次いで施行された。 過去2年間、政府は関連規制の整備を加速させながら、データベースの資源市場の育成に力を入れてきたことが分かる。 プライバシーを保護するコンピューティングに対する需要も社会レベルでも高まっています。 特に過去2年間、健康コードや顔認識などのアプリケーションにより、データ流通がもたらす価値が一般の人々に知られるようになりましたが、プライバシー漏洩によるセキュリティインシデントも後を絶ちません。 これにより、プライバシー データの合理的かつ準拠した使用を求める声が社会で高まり、プライバシー保護コンピューティング業界における要求とシナリオがさらに増加しました。 実際、Quantum Bit Think Tank の分析によると、プライバシー保護コンピューティング業界の非常に重要な価値層は、社会に生産性を提供することから生まれます。 QuantumBit Think Tank の分析によると、プライバシー保護コンピューティングの価値は次の 3 つのレベルに分けられます。
2030年までに、我が国のプライバシー保護コンピューティング産業の総市場規模は1,134億ドルに達すると推定されています。 そのうち、第 3 層の価値シェアが最も高く、62% に達しています。第 1 層と第 2 層はそれぞれ 11% と 27% を占めています。 一方、学術研究では、過去 2 年間でフェデレーテッド ラーニングとプライバシー保護コンピューティングへの注目も高まっています。 ガートナーは昨年7月、2021年から2025年にかけてフェデレーテッドラーニングが主流となり、プライバシー保護コンピューティングの商用化をリードすると予測した。 清華大学人工知能研究所と他の多くの関係者が共同で発表した「2021年フェデレーテッドラーニング世界研究および応用動向レポート」でも、フェデレーテッドラーニングの科学研究開発の全体的な人気が年々高まっていることが言及されています。 研究論文の発表数と特許出願受理数では中国と米国がトップを占めている。 2016年から2020年にかけて、中国は連合学習に関する論文を666件発表し、同期間に世界第1位となった。 連合学習に関する引用数の多い論文の半分は中国と米国からのものであり、世界中のこの分野の学者も主にこの 2 か国に集中しています。 明らかに、科学研究コミュニティと産業界の間で協力して進歩する傾向があります。 △清華大学「2021年フェデレーテッドラーニンググローバル研究および応用動向レポート」より このような状況では、DAMO アカデミーがなぜこの時期にオープンソース プラットフォームを使用してプライバシー保護コンピューティングの分野に参入したのか理解するのは難しくありません。 しかし、なぜ基礎となるテクノロジーから始めることを選択するのでしょうか?私たちはDAMOアカデミーの技術専門家を見つけ、彼らの考えや回答を直接尋ねました。 一方では、それはダルマアカデミーの固有の属性から生じます。 テクノロジー界の主要プレーヤーとして、DAMO Academy は当然のことながら、最先端テクノロジー自体の価値と先見性にさらに注目しています。 一方、これはプライバシー保護コンピューティングに関する DAMO アカデミーの長期にわたる洞察からも生まれています。 DAMO アカデミーのインテリジェント コンピューティング研究所の上級技術専門家である Ding Bolin 氏は、プライバシー保護コンピューティング研究で 10 年以上の経験を持っています。彼は私たちとの会話の中で、過去 2 年間で連合学習に関する科学的研究成果が大量に出始めていると述べました。 技術者として、私は当然、この研究の波をより速く前進させるためのツールから始めることを考えます。 「また、軽量で使いやすいプラットフォームをオープンソース化することで、誰もがより多くの科学研究のコラボレーションを実現し、より多くの学術成果を生み出し、産業革新をさらに促進できるようにしたいと考えています。」 たとえば、現在多くのサービスプロバイダーはユーザーのプライバシーデータの許可を申請する必要がありますが、プライバシー保護に関する要件はそれぞれ異なります。 誰もがデータを提供したがらない場合、製品が継続的に最適化されることをどのように保証できるでしょうか? これには学界と産業界の共同探究が必要です。 FederatedScope オープンソース プラットフォームは、この目的のためのシミュレーション環境を提供し、複数の当事者による共同開発をサポートします。 調査の最終結果は、後続の開発者による作業の重複を避けるために、DAMO アカデミーによってオープンソース フレームワーク ツールの形式で修正されます。 DAMO アカデミーのインテリジェント コンピューティング ラボの上級技術専門家である Li Yaliang 氏が、FederatedScope のオープン ソースを担当しています。 同氏は、オープンソースプラットフォームの現在のバージョンは主に技術開発のサポートを提供することを目的としており、次の段階では産業展開の考慮にさらに重点を置くことになると述べた。 DAMO アカデミーは、フェデレーテッド ラーニングに加えて、プライバシー保護コンピューティングの他の領域 (マルチパーティ セキュア コンピューティング、信頼できる実行環境など) にも展開しています。 DAMO アカデミーのインテリジェント コンピューティング ラボは、データ セキュリティとプライバシー保護の技術開発に細心の注意を払っており、データ収集、データ共有、データ提示の各段階におけるユーザーのプライバシーとセキュリティ保護の研究に重点を置くとともに、データ損失の削減とデータ分析機能の向上に関する研究にも注力しています。 テクノロジーと規制のギャップをどう埋めるか?DAMO アカデミーの 2 人の技術専門家との会話の中で、 「コンプライアンス」という言葉が 20 回以上言及されたことは特筆に値します。 重要な内容は、規制圧力によって技術の発展が制限されるということではなく、規制の促進によって技術が繁栄するということです。 プライバシー保護コンピューティングの分野で10年以上の研究開発経験を持つディン・ボーリン氏は、プライバシー保護コンピューティング技術の主な価値はコンプライアンスの促進にあると述べました。 これは、プライバシーを保護するコンピューティング サービスの設計および開発段階で最初に考慮すべき事項です。 つまり、コンプライアンス条件下で技術革新を実現し、データ流通の価値を最大化することが、プライバシー保護コンピューティング技術の本来の目的の一つです。 では、コンプライアンスとは何でしょうか?テクノロジーの境界はどこにあるのでしょうか? この標準的な答えは業界で長い間待望されていました。 実際、我が国は近年、データプライバシー関連の法律や政策を数多く制定しているだけでなく、その法規制の厳格さも世界トップレベルにあります。これが、我が国のプライバシー保護コンピューティング市場の後発にもかかわらず、急速な発展をある程度促しました。 ディン・ボーリンは、明確にすべき境界には、「厳密に収集してはいけないデータは何か」、「技術的ソリューションを通じて安全に収集し適用できるデータは何か」、「コンプライアンス法規制に基づいて構築されたセキュリティ モデルを通過できる技術的ソリューションは何か、また、どのようなシナリオで使用できるか」という複数のレベルが含まれると考えています。 近年発行された規制により、第 1 レベルの境界は徐々に明確化されてきましたが、第 2 レベルと第 3 レベルの境界については、政府部門と産業界、学界、研究機関が共同で検討する必要があります。 これには、学術界が最も中核的かつ最先端の技術進歩を提供し、産業界が実際の技術応用からケーススタディを抽出し、境界を精緻化するための参考資料を共同で提供することが求められます。 境界が明確になると、技術の探求と産業の発展のペースが加速し、データプライバシー保護技術の進歩が継続的に促進され、データアプリケーションの価値が活用されます。 最後に、記事の冒頭に戻ります。 「プライバシーと利便性は両立できるか?」という質問についてどう思いますか? FederatedScope オープンソース アドレス: |
<<: 網膜症治療のAIが成熟する中、なぜ医療業界は「無反応」なのか?
>>: 機械学習の発展が吹き替え技術の向上にどのように役立つか
シスコの 2024 年データ プライバシー ベンチマーク調査によると、プライバシーとデータ セキュリ...
[[404642]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...
近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...
2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...
[[186749]]かつてはSF作家や脚本家の領域だった人工知能が、今や着実に現実世界に進出しつつあ...
近年、大規模マルチモーダルモデル (LMM) の機能が向上したため、LMM のパフォーマンスを評価す...
9月1日、成都地下鉄全線で「スマート旅客サービスプラットフォーム」がオンラインで開始されました。この...
IT Homeは2月9日、「高齢者のデジタル適応力に関する調査報告」によると、スマートフォンを使用...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
レオナルド・ダ・ヴィンチ、ルーベンス、アンディ・ウォーホルが描いた自分の肖像画をもらったらどんなだろ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能は現在非常に人気の高い技術であり、世界中の国々が研究に資金と人材を投入しています。人工知能を...