現在、ディープラーニングサービスを提供する事業者は数多く存在します。これらのサービスを利用する際には、利用者は自分の情報をプロンプトに記入してサービス提供者に送信する必要があり、プライバシー漏洩などの問題が生じます。一方、サービスプロバイダーは、苦労してトレーニングしたモデルパラメータを公開したがらないのが一般的です。 この問題に対処するために、Ant Group の研究チームは、モデルのパフォーマンスに影響を与えずに安全な推論を実現できる PUMA フレームワークを提案しました。それだけでなく、関連コードもオープンソース化しました。
事前トレーニング済みの Transformer モデルは、多くの実用的なタスクで優れたパフォーマンスを発揮し、多くの注目を集めています。現在、このテクノロジーをベースにしたツールが数多く存在し、多くの場合、「Deep Learning as a Service (DLaaS)」パラダイムでサービスを提供しています。ただし、これらのサービスにはプライバシーの問題が伴うことがよくあります。たとえば、ユーザーが ChatGPT を使用する場合、ユーザーはサービス プロバイダーに独自のプライベート プロンプトを提供するか、サービス プロバイダーがユーザーに独自のトレーニング済み重み構成を提供する必要があります。 Transformer モデル サービングのプライバシー問題に対処するための 1 つの解決策は、推論中のデータとモデルの重みのセキュリティを確保できるセキュア マルチパーティ コンピューティングです。しかし、マルチパーティコンピューティング (MPC) における単純な基本 Transformer 推論の時間と通信コストは非常に高く、実際のアプリケーションで使用するのは困難です。より高い効率を実現するために、いくつかの研究結果では、Transformer モデルのセキュリティ推論を高速化するさまざまな方法が提案されていますが、これらの方法には依然として次の 1 つ以上の欠点があります。
まとめると、MPC Transformer 推論の分野では、モデルのパフォーマンスと効率の両方を実現することは難しく、次のような疑問が生じる可能性があります。 事前トレーニング済みの大規模なトランスフォーマー モデルを、さらに再トレーニングすることなく、プレーンテキスト モデルと同様の精度を達成しながら、安全かつ効率的に評価できますか? Ant Group が提案した PUMA フレームワークは、この問題を解決するために作成されました。このフレームワークは、エンドツーエンドのセキュアな Transformer 推論を安全かつ正確に実行できます。この論文の主な貢献は次のとおりです。
PUMAの安全設計PUMAの概要 PUMA の設計目標は、Transformer ベースのモデルが安全に計算を実行できるようにすることです。これを実現するために、システムはモデル所有者、クライアント、計算パーティという 3 つのエンティティを定義します。モデル所有者はトレーニング済みの Transformer モデルを提供し、クライアントはシステムにデータを提供して推論結果を受け取る責任を負い、コンピューティング パーティ (つまり、P_0、P_1、および P_2) はセキュア コンピューティング プロトコルを実行します。モデルの所有者とクライアントも計算パーティになることができますが、説明を簡単にするためにここでは区別しています。 安全な推論中は、重要な不変条件を維持する必要があります。計算は常に、クライアント入力の 3 分の 2 とモデルのレイヤー重みの 3 分の 2 の機密シェアで開始され、それらのレイヤーの出力の 3 分の 2 の機密シェアで終了します。これらの共有は当事者に情報を漏らさないため、これらのプロトコル モジュールを任意の深さまで順番に組み合わせることができ、Transformer ベースのモデルに対して安全な計算が可能になります。 PUMA が重点を置く主な課題は、必要なセキュリティ レベルを維持しながら、さまざまな計算パーティ間の実行コストと通信コストを削減することです。 PUMA は、複製された秘密共有と新しく提案された 3PC プロトコルを活用することで、3 者間設定での Transformer ベースのモデルの安全な推論を可能にします。 セキュアな組み込みプロトコル 現在の安全な埋め込みプロセスでは、クライアントがトークン ID を使用してワンホット ベクトルを作成する必要がありますが、これはプレーンテキスト ワークフローから逸脱し、Transformer 構造を破壊します。したがって、この方法は、実際の Transformer モデル提供アプリケーションに展開するのは簡単ではありません。 この問題を解決するために、研究者らは新しい安全な埋め込み設計を提案しました。トークンid∈[n]とすべての埋め込みベクトルを と表記すると、埋め込みは と表すことができます。 (id, E) は共有秘密なので、提案された安全な埋め込みプロトコルは次のように動作します。
このように、ここでの Π_Embed は、Transformer モデルのワークフローを明示的に変更する必要はありません。 セキュアなGeLUプロトコル 現在のアプローチのほとんどは、GeLU 関数をより小さな関数で構成されているものとして扱い、その各部分を最適化しようとするため、プライベート GeLU 全体を最適化する機会を逃してしまいます。 GeLU関数が与えられた場合: 過去のアプローチでは、tanh 関数の効率的なプロトコルを設計するか、指数関数と逆関数の既存の MPC プロトコルをシグモイドに適合させることに重点が置かれてきました。 しかし、これらの方法のいずれも、GeLU関数が両辺とも本質的に線形であるという事実、すなわちx < −4の場合にはGeLU (x) ≈ 0であり、x > 3の場合にはGeLU (x) ≈ xであるという事実を利用していません。研究者らは、低次多項式の区分近似は、GeLUの短い区間[−4,3]において、より効率的で実装が容易なセキュリティプロトコルオプションであると提案した。具体的には、この区分低次多項式は式(2)で示される。 多項式F_0とF_1の計算は、式(3)に示すようにソフトウェアライブラリnumpy.ployfitによって実装されている。研究者らは、この多項式フィッティングは単純であるにもかかわらず、予想外に良好なパフォーマンスを発揮することを発見しました。実験結果の最大誤差は 0.01403 未満、中央値誤差は 4.41e−05 未満、平均誤差は 0.00168 未満です。 数学的に言えば、秘密の入力が与えられた場合、新しく提案された安全な GeLU プロトコルの構築は、以下のアルゴリズム 1 に示されています。 セキュア ソフトマックス プロトコル 関数 において、重要な課題は Softmax 関数を計算することです (ここで、M はバイアス行列として考えることができます)。数値安定性については、Softmax は次のように計算できます。 ここで、入力ベクトル x の最大要素です。通常の平文ソフトマックスの場合、ε = 0 です。 2次元行列の場合、各行ベクトルに式(4)が適用されます。 アルゴリズム 2 は、新しく提案されたセキュリティ プロトコル Π_Softmax の詳細な数学的説明を提供します。ここでは、2 つの最適化方法が提案されています。
セキュア レイヤー標準プロトコル サイズ n のベクトル x が与えられると、 (γ, β) はトレーニングされたパラメータであり、 であることを思い出してください。 MPC では、平方根による除算の式を評価することが重要な課題です。この式を安全に評価するために、CrypTen のアプローチでは、平方根、逆数、乗算の順序で MPC プロトコルを実行します。しかし、アント・グループの研究者たちは観察した。 MPC 側では、逆平方根 σ^{-1/2} を計算するコストは、平方根演算のコストに近くなります。さらに、前のセクションの2番目の最適化に触発されて、彼らは最初にσ^{-1/2}を計算し、次に(σ^{-1/2})をブロードキャストして、高速で安全なLayerNorm(x)をサポートすることも提案しました。アルゴリズム 3 は、Π_LayerNorm プロトコルの数学的形式を示します。 実験的評価図 1: GLUE および Wikitext-103 V1 ベンチマークでのパフォーマンス。モデルに関しては、a は Bert-Base、b は Roberta-Base、c は Bert-Large、d には GPT2-Base、GPT2-Medium、GPT2-Large が含まれます。 表 1: 長さ 128 の入力文に対する Bert-Base、Roberta-Base、Bert-Large のコスト。時間コストは秒単位で計算され、通信コストは GB 単位で計算されます。 表 2: GPT2-Base、GPT2-Medium、GPT2-Large のコスト。入力文の長さは 32 で、これらは 1 つのトークンを生成するコストです。 表3: {2、4、8、16}文のバッチに対するBert-BaseとGPT2-Baseのコスト。 Bert-BaseとGPT2-Baseの入力長はそれぞれ128と32に設定され、GPT2のデータは1トークンを生成するコストになります。 表 4: 異なる入力長での Bert-Base と GPT2-Base のコスト (#Input)。 Bert-BaseとGPT2-Baseの入力長はそれぞれ{64, 128, 256, 512}と{16, 32, 64, 128}に設定されています。GPT2のデータは1トークンを生成するコストです。 図 2: 入力長が 32 の場合に GPT2-Base によって異なる出力トークンを生成するコスト。 a は実行時間コスト、b は通信コストです。 表 5: LLaMA-7B でセキュア推論を実行するコスト。#Input は入力文の長さを表し、#Output は生成されたトークンの数を表します。 LLaMA-7B の拡張にはわずか 5 分しかかかりません。研究者らは、それぞれ 128 スレッド、1 TB RAM、20 GB 帯域幅、0.06 ms ラウンドトリップ時間を備えた 3 台の Alibaba Cloud ecs.r7.32xlarge サーバーで PUMA を使用して大規模言語モデル LLaMA-7B を評価しました。表 5 に示すように、PUMA は合理的なコストで安全な推論のための大規模言語モデル LLaMA-7B をサポートできます。たとえば、8 つのトークンで構成される入力文が与えられた場合、PUMA は 1.865 GB の通信コストで、約 346.126 秒で 1 つのトークンを出力できます。研究者らによると、MPCアプローチがLLaMA-7Bに対して評価されたのは今回が初めてだという。 PUMA は一連のブレークスルーを達成しましたが、それはまだ学術的な成果であり、その理論が実装されるまでにはまだまだ時間がかかります。研究者たちは、将来、機械学習分野の最新の定量技術とハードウェア分野の最新のハードウェア加速技術を組み合わせることで、プライバシーを真に保護する大規模モデルサービスが実現するのもそう遠くないと考えています。 |
<<: コードの 80% が数秒で生成されます。 AIアーティファクトCopilotがアップグレードされ、5年後には何百万人もの開発者がコードを書けるようになる
>>: 5分間の技術講演 | AI技術と「サイバー暴力」のガバナンス
生体認証技術といえば、アメリカの Clearview AI 社を挙げなければなりません。同社は最も包...
今年の春節祝賀会には、有名人よりも人気のある特別な俳優たちがいます。書道をしたり、ダンスをしたり、腕...
人工知能はデータに命を吹き込み、過去のさまざまな目録や調査から収集された膨大なデータから再利用の機会...
こんにちは!皆さん、こんにちは。私は大学の科学研究者で、主に人工知能の分野で研究を行っています。今後...
Facebook の研究者は最近、インターネット上のランダムなラベルなし画像のセットから学習できる新...
[[149735]]武漢に比べると北京の秋の訪れはとても早く、9月の夕方には少し肌寒さを感じるように...
[[314165]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
シリコンバレーの毎年恒例の新年のレイオフが今年もやってくる。現在、Google の人員削減はまだ続い...
こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...
人工知能が保険会社、顧客、カスタマーサービススタッフにどのように役立つかを人々が理解する必要がありま...
[[204589]] AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています...
ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知...