データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文

1. はじめに - AI トレーニングデータに透かしを追加する理由

ディープニューラルネットワーク (DNN) は、その高い効率性と有効性により、多くのミッションクリティカルなアプリケーションやデバイスで広く使用されています。高品質の公開データセット（オープンソースや商用など）は、DNN テクノロジーの開発における重要な要素の 1 つです。研究者や開発者は、これらのデータセットを使用してモデルの有効性を検証し、DNN の開発を加速します。公開されたこれらのデータセットは非常に価値がありますが、データを収集するプロセスには時間がかかり、非常にコストがかかることがよくあります。このようなアプリケーションのコンテキストでは、AI トレーニングデータに透かしを追加することは、データセットを不正使用から保護し、データ作成者の著作権を保護するために非常に重要であり、詳細な研究と議論に値します。

現在、暗号化、電子透かし、差分保護などの既存のデータ保護技術は、主に、保護されたデータを権限のないユーザーが使用できないようにすることを目的としています。ただし、これらの方法は、DNN トレーニングが依存する公開データセットを保護するのに適していません。具体的には、暗号化と差分保護処理は保護されたデータセットの通常の機能に影響を与えますが、権限のないユーザーはトレーニング済みのモデルのみを公開し、トレーニングサンプルは公開しないため、このシナリオではデジタルウォーターマークテクノロジはほとんど役割を果たしません。

公開されたデータセットをどのように保護するかは、依然として重要な未解決の問題です。この問題は、攻撃者が攻撃対象のデータセットにアクセスできるため、困難です。データセットのセキュリティは、AI の推進と応用の過程で直面しなければならない重要な問題であり、業界から広く注目を集めています。 Digimarc は最近、デジタルコンテンツの著作権を保護するために設計された Digimarc Validate (https://www.digimarc.com/) という新しいサービスを開始しました。このサービスにより、著作権者は作品に電子透かしを埋め込むことができ、AI モデルのトレーニングプロセス中にトレーニングデータに対する著作権侵害を防ぐことができます。

同時に、学術界も AI データへの透かし技術の応用を非常に重視しています。この記事では、AI トレーニングデータセットに透かしを追加する手法に焦点を当て、最近公開されたいくつかの論文を分析します。

最初の 2 つの記事は、清華大学深圳研究所の同じ研究チームによるもので、「データセットにデジタル透かしを埋め込むことで、データセットを不正使用から保護する方法」に焦点を当てています。このうち、最初の記事では、ポイズンオンリーのバックドア攻撃を対象とし、AIトレーニングデータセットを保護する問題を所有権検証として定式化しています。この問題には、一般的に、防御側と攻撃側の 2 つの当事者が関与します。一般的に、防御側は独自のデータセットを公開して著作権を保護しようとします。一方、攻撃側の目的は、公開されたデータセットを「盗み」、防御側の許可なく商用モデルをトレーニングするために使用することです。バックドア攻撃では、攻撃者はトレーニングプロセス中に攻撃対象のモデルに隠されたバックドアを埋め込みました。攻撃を受けたモデルは無害なサンプルに対しては正常に動作しますが、攻撃者が指定したトリガーが発生すると、ターゲットラベルを継続的に出力します。既存のバックドア攻撃は、攻撃者の能力に応じて、ポイズンオンリー攻撃、トレーニング制御攻撃、モデル変更攻撃の 3 つのカテゴリに大別できます。具体的には、ポイズンオンリー攻撃ではトレーニングデータセットを変更する必要があり、トレーニングコントロール攻撃では他のトレーニングコンポーネント (トレーニング損失など) の変更も必要であり、モデル変更攻撃はモデルパラメーターまたは構造を直接変更することによって実行されます。

最初の記事では、ポイズンオンリーバックドア攻撃に特に焦点を当てています。この攻撃では、防御側は疑わしいモデルが (保護された) 攻撃されたデータセットでトレーニングされているかどうかを識別して検証しようとします。まず、防御側はポイズンオンリーバックドア攻撃を使用してデータセットに透かしを入れます。次に、防御側はデータセット検証を実行し、仮説検定を通じて疑わしいモデルに特定の隠されたバックドアが含まれているかどうかを確認します。

2 番目の論文では、最初の研究に基づいて所有権検証方法をさらに改良し、非標的型バックドアウォーターマーク (UBW) の設計方法と、それを無害かつ秘密裏にデータセットの所有権検証に使用する方法を研究します。疑わしいモデルが与えられた場合、防御者はそのモデルが（保護された）データセットでトレーニングされたかどうかを検証します。最初の記事の作業と同様に、データセット防御者は疑わしいモデルを照会することによって入力サンプルの予測確率ベクトルのみを取得でき、トレーニングプロセスとモデルパラメーターについては何も知らないと想定されています。研究チームによると、2つの論文で言及されている関連技術は、さまざまな種類の機械学習の問題に適用できるが、論文の焦点は分類モデル、特に画像分類モデルにあるという。

上記の所有権検証方法とは異なり、3 番目の記事ではバックドアベースの透かし方法を提案します。少数の透かしサンプルをデータセットに挿入することで、DNN モデルは防御側が設定した秘密関数を暗黙的に学習できます。この秘密関数は、データセットを不正に使用するサードパーティのモデルを追跡するための透かしとして使用できます。この論文では、誤ってラベル付けされたサンプルを感知できないほどの変動で置き換えるクリーンラベルバックドアウォーターマークフレームワークを紹介します。これにより、ウォーターマークが付けられたサンプルは元のラベルと一致し、検出が困難になります。

2. AIトレーニングデータに透かしを追加する方法と適用シナリオ

2.1 バックドア透かしによるブラックボックスデータセットの所有権検証

出典: http://arxiv.org/pdf/2209.06015.pdf

この論文では、AI トレーニングデータセットを保護する問題を所有権検証問題として定式化し、防御側が疑わしいモデルが (保護された) 攻撃されたデータセットでトレーニングされているかどうかを識別します。特に、著者らはブラックボックス設定を考慮しています。ブラックボックス設定は、防御側がモデルの予測にしかアクセスできず、トレーニングの詳細とモデルパラメータを知らないため、ホワイトボックス設定よりも困難です。この設定はより実用的であり、防御側がモデル API にしかアクセスできない場合でも所有権の検証を実行できます。著者らは、バックドア透かしによるダビングデータセット検証 (DVBW) と呼ばれる方法を提案しました。 DVBW は、データセットの透かし入れとデータセットの検証という 2 つの主なステップで構成されます。

図 1. DVBW のメインプロセス。最初のステップでは、防御者はデータ汚染に基づくバックドア攻撃を使用してデータセットに透かしを入れます。 2 番目のステップでは、防御者は仮説検定を通じて疑わしいモデルに特定の隠されたバックドアが含まれているかどうかをチェックしてデータセットを検証します。この論文では、防御側が予測確率と予測ラベルのみを取得できる 2 つの代表的なブラックボックスシナリオを検討します。

具体的には、著者らはデータセットのウォーターマークにポイズンのみのバックドア攻撃を使用しました。そのアイデアは、データを変更するだけで、汚染されたデータサンプルで特別な動作 (たとえば、「猫」を「犬」として識別する) を学習しながら、無害なサンプルでの高い予測精度を維持できるようにするというものです。データセットの検証に関しては、防御者は特定のバックドアの存在をチェックすることで、疑わしいモデルが透かし入りの攻撃データセットでトレーニングされているかどうかを確認できます。

2.1.1 DNNプロセス

ディープニューラルネットワーク (DNN) は、幅広いアプリケーションでその有効性が実証されています。畳み込みニューラルネットワークやグラフニューラルネットワークなど、さまざまなタスクや目的に合わせて設計されたさまざまな種類の DNN があります。現在、DNN の学習は、特に教師あり設定ではデータ駆動型です。具体的には、D は（ラベル付きの）トレーニングセットを表し、X と Y はそれぞれ入力スペースと出力スペースを表します。一般的に、DNN は次の最適化に基づいてマッピング関数 (パラメータ θ) f_θ : X → Y を学習します。

トレーニング後、「見えない」サンプル x のラベルは f_θ(x) を通じて予測できます。

2.1.2 バックドア攻撃のプロセス

データ汚染バックドア攻撃では、まず汚染されたデータセット D_p が生成され、それに基づいて特定のモデルがトレーニングされます。具体的には、y_t はターゲットラベル、D_b は良性のトレーニングセット、X と Y はそれぞれ入力スペースと出力スペースを表します。バックドア攻撃者はまず、D_b のサブセット (つまり、D_s) を選択し、攻撃者が指定したデータ汚染ジェネレーター G とターゲットラベル y_t に基づいて、その変更バージョン D_m を生成します。つまり、D_s ⊂ D_b、D_m ={(x', y_t)|x' = G (x),(x, y) ∈ D_s}です。汚染されたデータセットD_pは、D_mと残りの無害なサンプルの組み合わせです。つまり、D_p = D_m ∪(D_b\D_s)です。特に、γを汚染率指標として定義します。

汚染されたデータセットが生成されると、それを使用して攻撃を受けたモデルをトレーニングします。トレーニングデータセットが異なることを除いて、プロセスは標準のトレーニングプロセスとほぼ同じです。隠されたバックドアはトレーニングプロセス中に作成されます。つまり、バックドア付きのモデル f_b の場合、f_b(G(x))=yt,∀x∈X となります。特に、f_b は良性のサンプルを予測する際に高い精度を維持します。

この論文では、分類タスクにおけるデータセット保護の問題に焦点を当てています。この問題には攻撃者と防御者の両方が関係します。一般的に言えば、防御側は独自のデータセットを公開し、その著作権を保護したいと考えています。一方、攻撃側の目的は、防御側の許可なく公開されたデータセットを「盗み」、それを使用して独自のモデルをトレーニングすることです。具体的には、Dˆ は K 個の異なるカテゴリを含む保護されたデータセットを表し、S は疑わしいモデルを表し、データセット保護を検証問題として定式化します。つまり、防御側はブラックボックス設定で S が Dˆ でトレーニングされているかどうかを識別することを意図しています。防御側はモデルを照会することしかできず、モデルパラメーター、モデル構造、トレーニングの詳細については何も知りません。防御側の能力は非常に限られているため、これは防御側にとって最も難しいセットアップです。ただし、これにより、提案されたアプローチは最も一般化可能になり、防御側が疑わしいサードパーティモデルの API のみをクエリできる場合でも、データセットを保護できるようになります。

著者らは、確率的に利用可能な検証とラベルのみの検証という 2 つの代表的な検証シナリオを特に検討しています。最初のケースでは、防御側は入力サンプルの予測確率ベクトルを取得できますが、2 番目のケースでは予測ラベルのみを取得できます。後者のケースは、防御側がモデル予測から得る情報が少ないため、より困難になります。

2.1.3 データセットの透かし

防御側は公開されたデータセットを変更して疑わしいモデルを照会することしかできないため、唯一の方法は、無害なデータセットに透かしを追加して、無害なデータセットでトレーニングされたモデルが防御側によって指定された固有の予測動作を持つようにすることです。防御者は、疑わしいモデルに事前定義された動作があるかどうかを確認し、保護されたデータセットでトレーニングされたかどうかを確認できます。一般的に言えば、設計されたデータセットのウォーターマークは、次の 3 つの主な特性を満たす必要があります。

fとfˆはそれぞれ無害なデータセットDとその透かし入りバージョンDˆでトレーニングされたモデルを表すものとします。

ζ-無害性: 透かしはデータセットの機能性を損なわないこと、つまり BA (f)-BA (fˆ) < ζ であり、ここで BA は無害な精度を表す。
η-識別性: 透かし入りデータセットDˆでトレーニングされたすべてのモデルは、透かし入りデータに対して何らかのユニークな予測動作を示す必要があります（無害なバージョンでトレーニングされたモデルと比較して）。
ステルス性: データセットのウォーターマークは攻撃者の注意を引いてはなりません。たとえば、透かしのレートは小さく、透かしが入ったデータはデータセットのユーザーにとって自然に見える必要があります。

2.1.4 データセットの検証

疑わしいモデルS(·)が与えられた場合、防御者は特定のバックドアの存在をチェックすることで、モデルが公開されたデータセットでトレーニングされているかどうかを確認できます。具体的には、x' が汚染されたデータサンプルを表し、y_t がターゲットラベルを表すと仮定すると、防御者は S (x') の結果のみに基づいて疑わしいモデルを検出できます。 S (x') = y_t の場合、疑わしいモデルは攻撃されたデータセットでトレーニングされたと見なされます。ただし、x' の選択のランダム性によって影響を受ける可能性があります。この論文では、検証の信頼性を向上させるために仮説検定指向のアプローチを設計しています。著者らは、確率的利用可能検証とラベルのみの検証を含む 2 つの代表的なブラックボックスシナリオを検討しました。この記事では、次のように、それぞれの特性に応じてさまざまな検証方法を設計します。

1) 確率利用可能な検証: この場合、防御側は入力サンプルの予測確率ベクトルを取得できます。隠されたバックドアがあるかどうかを確認するには、防御側は、ターゲットクラスの透かしサンプルの事後確率が、無害なテストサンプルの事後確率よりも大幅に高いかどうかを確認するだけで済みます。実際には、非ターゲットラベルを持つ m 個の異なる良性サンプルをランダムに選択し、(片側) Parwise T テストを実行して、p 値を計算します。 p値が有意水準α未満の場合、帰無仮説H_0は棄却されます。さらに、検証の信頼性を表すために信頼スコア∆P = P_w -P_bが計算されます。 ∆P が大きいほど、検証の信頼性が高くなります。アルゴリズム 1 は、主な検証プロセスを示します。

2) ラベルのみの検証: この場合、防御側は予測されたラベルのみを取得できます。したがって、隠されたバックドアを識別する唯一の方法は、透かしが入ったサンプルの予測ラベル（真のラベルがターゲットラベルではない）がターゲットラベルであるかどうかを確認することです。実際の操作では、ターゲットラベルのない m 個の異なる良性サンプルがウィルコクソン検定のためにランダムに選択され、それらの p 値が計算されます。 p値が有意水準α未満の場合、帰無仮説H'は棄却されます。アルゴリズム 2 は、主な検証プロセスを示します。

特に、ウィルコクソン検定の仕組み上、ラベルのみの設定では y_t を K/2 データに近くなるように設定することを推奨しています。 y_t が小さすぎたり大きすぎたりすると、透かしの成功率が十分に高くなく、DVBW がデータセットの盗難を検出できない可能性があります。

2.1.5 実験分析

データセットに透かしを入れるためのメトリック。著者らは、良性精度 (BA) と透かし成功率 (WSR) を使用して、データセット透かしの有効性を検証します。具体的には、良性の精度率は良性のテストセットにおけるモデルの精度を指し、透かしの成功率は透かしのテストセットにおけるモデルの精度を指します。 BA と WSR が高いほど、その方法は優れています。

データセット検証メトリック。 ΔP(∈[-1, 1])とp(∈[0, 1])は、利用可能なデータセットを使用した確率検証の有効性を検証するために使用され、p値はラベル付きデータセットのみで検証されます。具体的には、著者らは（1）独立トリガー、（2）独立モデル、（3）スティールの3つのシナリオでこの手法を評価した。

最初のケースでは、著者らはトレーニング中に使用されたトリガーとは異なるトリガーを使用して透かし疑わしいモデルを検証しました。2 番目のケースでは、著者らはトリガーパターンを使用して無害な疑わしいモデルをチェックしました。最後のケースでは、透かし疑わしいモデルのトレーニング中に採用されたトリガーが使用されました。最初の 2 つのケースでは、モデルは保護されたデータセットでトレーニングされたとは見なされないため、∆P が小さく、p が大きいほど、検証効果は高くなります。最後のケースでは、疑わしいモデルは保護されたデータセットでトレーニングされるため、∆P が大きく、p が小さいほど、検証方法は優れています。

著者は、画像認識、NLP、グラフ認識などのタスクに関する実験を実施し、アブレーション研究も実施しました。この記事では、画像認識タスクにおける状況に焦点を当てます。興味のある読者は原文を読んでみてください。

著者らは、CIFAR-10 および ImageNet データセット (ImageNet データセットのサブセット) に対して VGG-19 (バッチ正規化を使用) と ResNet-18 を使用して実験を実施しました。具体的には、元の ImageNet データセットからトレーニング用に 200 カテゴリのサブセット (カテゴリあたり 500 枚の画像) がランダムに選択され、テストを簡素化するためにテスト用に 10,000 枚の画像 (カテゴリあたり 50 枚の画像) が選択されました。

データセットの透かし設定。 BadNet とハイブリッド攻撃 (「Blended」と呼ばれる) は、データ汚染率 γ = 0.1 で使用されます。これらはそれぞれ、目に見えるデータ汚染バックドア攻撃と目に見えないデータ汚染バックドア攻撃を表しています。ターゲットラベル y_t は、カテゴリ数 K の半分 (つまり、CIFAR-10 の場合は「5」、ImageNet の場合は「100」) に設定されます。ハイブリッド攻撃では、透明性はα∈{0, 0.2}^(C×W×H)に設定されます。生成されたデータ汚染サンプルの例を図 2 に示します。

図 2. CIFAR-10 および ImageNet データセットに対する BadNet およびハイブリッド攻撃によって生成された無害な画像と透かし入り画像の例。トリガーエリアは赤いボックスでマークされています

仮説検定のために、m = 100 個の異なる無害なテストサンプルをランダムに選択します。確率的可用性検証の場合、決定論的関連ハイパーパラメータ τ は 0.2 に設定されます。具体的には、ラベルのみの検証には、ImageNet の最初の 10 カテゴリのサンプルのみと、CIFAR-10 の最初の 2 カテゴリのサンプルのみが選択されます。この戦略は、カテゴリの数が比較的多い場合に、ランダム選択の副作用を軽減することを目的としています。表 I に示すように、私たちの透かし方法は無害です。良性のデータセットを使用したトレーニングと比較すると、データセットのウォーターマーキングにより、すべてのケースで良性の精度が 2% 未満 (ほとんどの場合 1% 未満) 低下します。つまり、データセットの通常の使用を妨げるものではありません。さらに、データ汚染率が低いためにパフォーマンスがわずかに低下するため、透かしの隠蔽も確実に行われます。さらに、隠されたバックドアを埋め込むことにも成功しています。たとえば、CIFAR-10 データセットでは、透かしの成功率はすべてのケースで 94% を超えています (ほとんどが 99% を超えています)。これらの結果は、本論文で使用した透かし技術の有効性を検証するものです。特に、表2と表3に示すように、本論文のデータセット検証も非常に効果的です。確率が利用可能な場合、私たちの方法はデータセットの盗難を高い信頼度で正確に識別でき（∆P ≥ 0 かつ p ≤ 0.01）、盗難がない場合には誤検知を行いません（∆P が 0 に近く、p ≥ 0.05）。検証が難しいラベルのみのシナリオでも、私たちの方法はすべてのケースでデータセットの盗難を正確に識別でき (∆P ≥ 0 かつ p < 0.05)、盗難が存在する場合に誤判断することはありません。しかし、著者らは、ラベルのみの設定では彼らのアプローチのパフォーマンスが不十分であることを認めています。

表1. CIFAR-10とImageNetデータセットにおける透かしの無害な精度（％）と透かし成功率（％）

表2. CIFAR-10とImageNetにおける確率的データセットの有効性の検証（ΔPとp値）

表3. CIFAR-10とImageNetにおけるラベルのみのデータセット検証の有効性（p値）

2.2 非標的型バックドア透かし: 無害かつステルス性の高いデータセット著作権保護に向けて

会議資料

この記事は前回の記事の研究チームのもう一つの研究成果です。この論文では、著者らはデータセットの所有権検証の問題を再検討します。著者らは、BEDW (上記で提案された DVBW、本論文では BEDW と表記) は、既存のバックドアウォーターマークの標的型アプローチにより、保護されたデータセットでトレーニングされた DNN に新たな脅威となるセキュリティリスクをもたらすと主張しています。具体的には、攻撃者（つまり、保護されたデータをトレーニングに使用しているが、発見されたくない当事者）は、埋め込まれた隠されたバックドアを悪用して、モデルの予測を悪意を持って決定論的に操作する可能性があります。

図3に示すように。この考えに基づいて、著者はこの論文で、非標的型バックドアウォーターマーク(UBW) を設計する方法と、それを無害かつ秘密裏にデータセットの所有権検証に使用する方法を検討します。具体的には、著者らはまず、サンプル平均離散性とクラス平均離散性の 2 種類の離散性を導入し、それらの相関関係を実証しました。これを基に、著者らは、データ汚染ラベルを使用したヒューリスティック UBW (UBW-P) とクリーンラベルを使用した UBW (UBW-C) というシンプルで効果的なヒューリスティック手法を提案しました。 UBW-P はより効果的ですが、UBW-C はより目立たないです。最後に、著者らはペアワイズ T 検定を使用して UBW ベースのデータセット所有権検証を設計しました。

図3. さまざまなタイプのバックドア透かしのDNN推論プロセス

2.2.1 UBWの紹介

この論文では、画像分類におけるバックドア透かしとしてのデータ汚染バックドア攻撃に焦点を当てています。具体的には、バックドア攻撃者は一部の無害なサンプルを変更することしかできず、他のトレーニングコンポーネント (トレーニング損失、トレーニングスケジュール、モデル構造など) を変更するための情報や能力はありません。生成されたデータ汚染サンプルと残りの変更されていない無害なサンプルは被害者に公開され、被害者はこれらのサンプルに基づいて DNN をトレーニングします。著者らは、他の種類の方法 (トレーニング制御攻撃やモデル変更攻撃など) ではなく、純粋なデータ汚染バックドア攻撃のみを考慮していることに注意することが重要です。これらの攻撃には追加の敵対的能力が必要であり、公開されたデータセットを保護するために使用できないためです。

D は良性のトレーニングセットを表します。ここで、x_i は画像、y_i はそのラベル、K はクラスの数です。データ汚染データセット D_p を生成する方法は、純粋なデータ汚染バックドア攻撃の基礎となります。著者らは、彼らの知る限り、既存のバックドア攻撃のほぼすべてが標的型であり、データに汚染されたサンプルはすべて同じターゲットラベルを持っていると述べています。 D_pは、Dの選択されたサブセット（つまり、D_s）の修正バージョンと残りの無害なサンプルを含む2つの分離した部分で構成されます。ここで、y_tは攻撃者が指定したターゲットラベルです。

γ はデータ汚染率、G はデータ汚染ジェネレータです。単純なデータ汚染バックドア攻撃の主な特徴は G です。たとえば、トリガーパターンは次のようになります。

データ汚染データセット D_p を生成した後、それを使用して DNN をトレーニングします。したがって、推論中、攻撃を受けたモデルは無害なサンプルを予測するときは正常に動作しますが、データで汚染された画像が提示されると、その予測は悪意を持って継続的にターゲットラベルに変更されます。

UBW には、1) 有効性、2) 隠蔽、3) 分散という 3 つの主要な目標があります。具体的には、有効性では、透かし入りの DNN がデータで汚染された画像を誤って判断することが求められ、隠蔽性では、データセットのユーザーが透かしを認識できないことが求められ、離散性では、データで汚染された画像の予測が離散的であることが保証されます。

2.2.2 UBW-P

予測の離散化を実現するための最も直接的な戦略は、データ汚染された画像の予測を統一された確率ベクトルとして扱うことです。具体的には、著者らは、データ汚染されたデータセットを作成する際に、データ汚染されたトレーニングサンプルのラベルをランダムに「シャッフル」することを提案しています。この論文では、この攻撃を「データ汚染ラベル付き非標的型バックドア透かし (UBW-P)」と呼んでいます。

UBW-P はまず、無害なデータセット D からサブセット D_s をランダムに選択して、その修正バージョン D_m を作成します。次に、残りの良性サンプルD\D_sに関連付けられた修正されたサブセットD_mが解放され、モデルf(・; w)が次のようにトレーニングされます。

推論プロセス中、任意のテストサンプルに対して、攻撃者はジェネレータGに従って攻撃対象のDNNに含まれる隠されたバックドアをアクティブ化し、データ汚染された画像G(xˆ)を生成することができます。

2.2.3 UBW-C

UBW-P は依然としてデータ汚染ラベルが付いているため、データ汚染率が小さくても十分に隠蔽されていません。データセットのユーザーがデータに汚染されたサンプルをキャプチャすると、画像とラベルの関係を調べることで透かしを識別できる場合があります。次に、2 レベル最適化に基づいて、クリーンラベル (UBW-C) を使用した非ターゲットバックドアウォーターマークを設計する方法について説明します。 UBW-C を 2 レベル最適化として定式化するには、予測の離散化可能性を最適化する必要があります。ただし、分離できないため、直接最適化することはできません。本論文では、この問題を解決するために、次の 2 つの微分可能な代理分散性を導入します。

（標本平均分散とクラス平均分散） ：データセットDをDNN f (·) によって与えられた予測値の標本平均分散（データセットD上）は次のように定義される。

クラス平均分散は次のように定義されます。

一般的に、サンプル平均分散はすべてのサンプル予測確率ベクトルの平均分散を表しますが、クラス平均分散は各クラスのサンプルの平均予測結果の平均分散を表します。これらを最大化すると、予測分散 D_p の最適化に同様の効果があります。

UBW-P および既存の方向性バックドアウォーターマークと比較すると、UBW-C の主な違いは、修正されたサブセット D_m の生成です。具体的には、UBW-Cでは、データ汚染されたすべてのサンプルのラベルを変更しません。つまり、D_m = {(x', y)|x' = G (x; θ),(x, y)∈ D_s}です。 UBW-C の技術的な詳細を説明する前に、まず必要な定理と分析を紹介します。

補題1. クラス平均分散は常にサンプル平均分散以上、つまりDs≤Dcである。等式関係は、f (x_i) =f (x_j) の場合にのみ成立します。

定理1. f (・;w) はパラメータ w を持つ DNN、G (・; θ) はパラメータ θ を持つデータ汚染画像ジェネレータ、D は K 個のカテゴリを持つデータセットであると仮定する。

定理 1 は、D_s を単純に最大化することによって、サンプル平均分散 D_s とクラス平均分散 D_c を同時に最適化できることを意味します。これにより、UBW-C で修正されたサブセット D_m を（ジェネレータ G を最適化することによって）次のように生成することになります。

一般的に言えば、上記のプロセスは標準的な 2 レベルの最適化プロセスであり、下位レベルのサブ問題と上位レベルのサブ問題を交互に最適化することで、問題を効果的に解決できます。特に、最適化はミニバッチで確率的勾配降下法 (SGD) によって実行されますが、クラスの平均分散を推定することは困難です (特にクラス数が多い場合)。対照的に、小さなバッチであっても、サンプル平均分散 D_s の推定は依然として単純かつ正確です。これは、最適化にサンプル平均分散のみを使用する UBW-C のもう 1 つの利点です。

2.2.4 UBWによる無害なデータセットの所有権の検証

疑わしいモデルが与えられた場合、防御側はモデルが（保護された）データセットでトレーニングされたかどうかを検証するつもりです。以前の研究と同様に、著者らは、データセット防御者は疑わしいモデルを照会することによって入力サンプルの予測確率ベクトルのみを取得でき、トレーニングプロセスとモデルパラメーターについては何も知らないと想定しています。防御側は公開されたデータセットを変更し、疑わしいモデルを照会することしかできないため、上記の問題を解決する唯一の方法は、(保護されていない) 無害なデータセットに透かしを入れて、その上に構築されたモデルが特定の固有の予測動作を持つようにすることです。データセットの所有者は、著作権を保護するために、元のデータセットの代わりに透かし入りのデータセットを公開できます。 UBW によってラベル付けされた DNN は、無害なサンプルに対しては正常に動作し、データで汚染されたサンプルに対しては離散化可能な予測を行います。したがって、無害で秘密のデータセット所有権検証を設計するために使用できます。一般的に、疑わしいモデルが与えられた場合、防御者は、モデルに特定の非標的型バックドアが含まれているかどうかを確認することで、保護されたデータセットでトレーニングされているかどうかを確認できます。モデルにバックドアが含まれている場合、保護されたデータセットでトレーニングされていると見なされます。これを検証するために、著者らは以下のように仮説検定に基づく方法を設計した。

命題1. f(x)が疑わしいモデルによって予測されるxの事後確率であると仮定する。 X は良性のサンプル、X' はデータの汚染されたバージョン (つまり、X' = G (X)) を表し、P_b = f (X)_Y と P_p = f (X')_Y はそれぞれ、グラウンドトゥルースラベル Y における X と X' の予測確率を表します。帰無仮説H_0: Pb = Pp + τ(H_1: Pb > Pp + τ)(ここでハイパーパラメータτ∈[0, 1])が与えられた場合、H_0が拒否される場合にのみ、疑わしいモデルは保護されたデータセットでトレーニングされているとみなされます(τ-確実性)。

実際には、m 個の異なる良性サンプルをランダムに選択して、ペアワイズ T 検定を実行し、p 値を計算します。 p値が有意水準α未満の場合、帰無仮説H_0は棄却されます。著者らは、モデルの精度による副作用を減らすために、疑わしいモデルが正しく分類できるサンプルのみを選択する必要があることを強調しています。そうでない場合、UBW は対象としていないため、データセットの盗難が発生した場合、疑わしいモデルの無害な精度が比較的低いと、検証によって誤った判断が生じる可能性があります。さらに、著者らは検証の信頼性を表すために信頼スコア ΔP = P_b - P_p も計算しました。 ΔP が大きいほど、検証の信頼性が高くなります。

2.2.5 実験分析

この論文では、ResNet-18 を使用して、CIFAR-10 と ResNet-18 を含む 2 つの古典的なベンチマークデータセットで実験を行います。具体的には、元の ImageNet から 50 クラスのサブセットがランダムに選択され、そのうち 25,000 枚の画像がトレーニングに使用され (クラスごとに 500 枚の画像)、2,500 枚の画像がテストに使用されます (クラスごとに 50 枚の画像)。簡潔にするために、すべての画像は Tiny-ImageNet で設定されている 3 x 64 x 64 にサイズ変更されます。

著者らは、UBW を既存の単純なデータ汚染バックドア攻撃と比較しました。具体的には、データが汚染されたラベルによる攻撃に対して、著者らはBadNets [1]、ハイブリッド攻撃（「Blended」と呼ばれる）[2]、およびWaNet [3]をベースライン手法として採用しています。クリーンラベル攻撃については、著者らはラベル一貫性攻撃[4]とスリーパーエージェント[5]をベースライン手法として使用しています。さらに、無害なデータセット（「No Attack」と呼ばれる）でトレーニングされたモデルが別の参照ベースラインとして導入されます。

著者らは、両方のデータセットのすべての透かしのデータ汚染率をγ = 0.1に設定しました。特に、ラベルの一貫性攻撃はターゲットカテゴリのサンプルのみを変更できるため、データの汚染率はImagenetデータセットの最大値（つまり0.02）に設定されます。すべてのターゲットウォーターマークのターゲットラベルY_Tは1に設定されています。さらに、著者は、両方のデータセットで、バドネット、ハイブリッド攻撃、ラベルの一貫性攻撃、UBW-Pのトリガーパターンとして白と黒の正方形を使用しました。スリーパーエージェントとUBW-Cが使用するトリガーパターンは、サンプル固有です。両方のデータセットのUBW-Cはλ= 2に設定されています。サンプルを図4に示します。

図4。さまざまなバックドア透かしを含むサンプルの例。 Badnets、Blended Attack、Wanet、およびUBW-Pでは、データ汚染されたサンプルのラベルは、グラウンドトゥルースと矛盾しています。ラベルの一貫性攻撃、スリーパーエージェント、およびUBW-Cでは、データ汚染されたサンプルのラベルは地上真実と同じです。特に、ラベルの一貫性攻撃はターゲットクラスでサンプルを汚染するだけで、他の方法ではすべてのサンプルを変更できます。

この実験では、良性精度（BA）、攻撃成功率（ASR）、および平均予測分散（D_P）を使用して、透かしのパフォーマンスを評価します。著者は、すべてのテストサンプル（ASR-A）の攻撃成功率と、正しく分類されたテストサンプル（ASR-C）の攻撃成功率を含む、2種類のASRを具体的に導入しました。一般的に言えば、BA、ASR、およびD_Pが大きいほど、透かし効果は優れています。表4および5に示すように、UBWのパフォーマンスは、データが汚染されたラベルとクリーンラベル設定の両方で、ベースラインターゲットバックドア透かしに匹敵します。特にクリーンラベルの設定では、UBW-Cは明らかに他のクリーンラベル透かしを上回っています。たとえば、UBWは、ラベル一貫性のある攻撃やスリーパー剤と比較して、ImagenetでASR-Cの55％以上の改善を達成しています。これらの結果は、UBWが攻撃されたDNNSに一意の動作を植え付けることができることを確認しています。特に、データが汚染されたラベル設定の下では、UBWの平均予測分散D_Pは大幅に高くなっています。たとえば、CIFAR-10データセットでは、UBW-PのD_Pは、データ汚染ラベルを備えたすべてのベースライン攻撃のD_Pよりも10倍以上大きくなっています。これらの結果は、UBWが悪意のある予測を決定的に操作することができず、したがって無害であることを確認しています。さらに、ラベルの一貫した攻撃とスリーパーゲントのD_Pは、ある程度UBW-CのD_Pに似ていることに気付きます。これは主に、クリーンラベルを使用したターゲット攻撃が、すべてのデータに汚染されたサンプルを同じ（ターゲット）クラスに分類するのが非常に困難なためです。

表4。CIFAR-10データセットの透かしのパフォーマンス

表5。ImagENetデータセットの透かしのパフォーマンス

著者は、次の3つの代表的なシナリオで検証方法を評価しました。最初のケースでは、攻撃された疑わしいモデルは、モデルトレーニングに使用されるトリガーを使用して照会されます。すべての場合において、τ= 0.25は仮説検査に設定されました。表6および7に示すように、このペーパーのデータセットの所有検証は、UBW-PまたはUBW-Cの場合でも、すべての場合に効果的です。具体的には、私たちの方法は、自信が高い（つまり、Δp + 0およびp値≤0.01）、不正なデータセットの使用（つまり、「悪意のある」）を正確に識別することができますが、誤検知はありません（すなわち、0およびp値≥0.05に近いΔp（e.e. "and" "and" "および" "および" "および" "および" "および" "および" "and" "および" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and" "and"）。

表6。UBW-Pによって検証されたデータセット所有権の有効性

表7。UBW-Cによって検証されたデータセット所有権の有効性

2.3私のデータセットでトレーニングしましたか？

https://arxiv.org/pdf/2303.11470.pdf

この論文では、バックドアベースの透かしアプローチを公開データを保護するための一般的な枠組みとして提案しています。少数の透かしサンプルをデータセットに挿入することにより、この方法は、この秘密関数が設定した秘密関数を暗黙的に学習することができます。残念ながら、既存のバックドア挿入方法では、多くの場合、トレーニングセットに任意の誤ったラベルデータを追加する必要があります。これは、パフォーマンスの大幅な劣化につながり、異常検出アルゴリズムによって簡単に検出されます。この課題を克服するために、このペーパーでは、誤ったラベルのあるサンプルを置き換えるために知覚できない摂動を利用するクリーンラベルバックドア透かし枠のフレームワークを紹介します。したがって、透かし式サンプルは元のラベルと一致したままであり、検出が困難です。

2.3.1データセットの透かしの予想される目標

著者は、データセットの透かしのための3つの原則を提案しました。このホワイトペーパーでは、理想的なデータセット透かし方は、低い歪み、有効性、隠蔽など、以下の特性を満たす必要があります。

低い歪み。透かしは、データセットの有用性を維持する必要があります。透かしされたデータセットでトレーニングされたモデルのパフォーマンスは、元のデータセットでトレーニングされたモデルのパフォーマンスに非常に近い必要があります。
有効。保護されたデータセットでトレーニングされたモデルには、明らかなインプリント（バックドア関数など）があります。これは、モデルのトレーニングにデータセットを使用したかどうかを確認するために透かしとして使用できます。
隠蔽。透かしのプロセスは、攻撃者にとって目立たないものでなければなりません。言い換えれば、透かし型データセットは、検出方法を回避するのに十分なステルスでなければなりません。

2.3.2クリーンラベル透かしサンプル

モデルがバックドア機能を学習するように促す「明らかに間違ったラベルを使用する」以前の方法とは異なり、この記事は「一貫したラベルを持つサンプルを追加する」ことで同じ目標を達成することを目指しています。これは課題を提示します。クリーンラベルサンプルのトリガーパターンを覚えているようにモデルを導く方法は？重要なアイデアは、人間が検出できない摂動を使用して、いくつかのサンプルの通常の特徴を無効にすることで、追加されたバックドアトリガーモードを覚えておくようにモデルを奨励することです。このペーパーで提案されているフレームワークには、2つの重要なコンポーネントが含まれています：敵対的な摂動とバックドアトリガー。

Dを保護する元のデータセットを表します。ここで、xはトレーニングデータであり、y_iはカテゴリタグです。画像データセットx、c、w、およびhは、それぞれ画像チャネル、幅、高さの数を表すために使用されます。テキストデータセットの場合、xはm単語の順序付けられたリストであり、v_iは用語用語Vから選択されたi番目の単語です。オーディオデータセットの場合、xは連続シーケンスでデジタルサンプルとしてエンコードされたデジタルオーディオ信号を表します。

推論段階での誤分類につながる従来の敵対的なセットアップとは異なり、著者は敵対的な例をトレーニングフェーズに組み込み、モデルがバックドアトリガーパターンを学習するよう奨励しています。具体的には、ディフェンスは最初にKカテゴリからターゲットカテゴリCを選択します。次に、データのごく一部がクラスCから透かしデータセットD_WMとして選択されます。防御は、有用な機能を無効にするために、D_WMのすべてのサンプルを不明瞭にします。敵対的なサンプルは事前に訓練されたモデルから生成され、データセットを挿入した後に変更されないことは注目に値します。さらに、データセットからサンプルをランダムに選択する従来のバックドア挿入方法とは異なり、この記事フレームワークはターゲットカテゴリCでデータのみを選択するため、必要な透かしサンプルは少なくなります。

推論段階で誤分類を誘発する従来の敵対的なセットアップとは異なり、著者は敵対的な例をトレーニング段階に組み込み、モデルがバックドアトリガーパターンを学習するよう奨励しています。具体的には、ディフェンスは最初にKカテゴリからターゲットカテゴリCを選択します。次に、データのごく一部がクラスCから透かしデータセットD_WMとして選択されます。防御は、有用な機能を無効にするために、D_WMのすべてのサンプルを不明瞭にします。敵対的なサンプルは事前に訓練されたモデルから生成され、データセットを挿入した後に変更されないことは注目に値します。さらに、データセットからサンプルをランダムに選択する従来のバックドア挿入方法とは異なり、この記事フレームワークはターゲットカテゴリCでデータのみを選択するため、必要な透かしサンプルは少なくなります。

具体的には、著者は、人間が知覚できない摂動を生成するために、テキスト、画像、オーディオデータのプロセスを導入します。

テキストデータ。画像データセットで徹底的に研究されている敵対的な攻撃と比較して、単語レベルのテキスト攻撃モデルは完璧とはほど遠いものです。テキストデータは個別であるため、単語の変更は、元のセマンティクスと文法に大幅な変更を引き起こす可能性があります。著者は、スムーズで構文に準拠した敵対サンプルを生成するためのシンプルで効果的な方法を提案しています。入力シーケンスxとそのラベルyが与えられると、fがモデルであると仮定して、f（x）= y、敵の例x^はxを変更して予測エラーを引き起こします。テキストデータの2つの基本的な変更を具体的に検討します。 1）置換：交換操作は、V_Iの単語をWordNetの同義語に置き換えることです。 2）挿入：挿入操作は、指定された位置V_Iの前に余分な単語を注入します（たとえば、「私はこの映画が大好きです...」に「私はこの動きが大好きです...」に変更します）。元の文のセマンティクスと文法を保持するために、テキストの変更を可能な限り最小化する必要があります。これを達成するために、著者は、xとx^の文の埋め込みが類似することを要求します。著者はコサイン距離を使用して類似性を計算します。完全なプロセスについては、algorithm1を参照してください。

画像とオーディオデータ。画像およびオーディオデータの場合、L_∞制約を備えた投影勾配降下（PGD）が攻撃方法として使用されます。損失C、入力X、および制約値εのDNNモデルを考えると、PGDは次の最適化問題を解決する反復アルゴリズムです。

その中で、εは摂動を制約する最大の要素です。この境界のある制約を達成するために、PGDが最大の損失で方向に勾配ステップを実行した後、各反復は摂動をL_∞ボールに戻し、収束するまで繰り返します。これは次のように表現できます。

完全なプロセスについては、アルゴリズム2を参照してください。

2.3.3バックドアトリガー

摂動ステップでは、ウォーターマークデータセットD_WMと摂動が実行されると、データのごく一部がCクラスデータから選択されます。次に、D_WMにプリセットバックドアトリガーを適用します。説明を簡単にするために、トリガーモードとトリガーマークサンプルは、それぞれtとx_tとしてマークされています。各データ型に使用されるトリガーモードを以下に示します。

1。テキストデータ。著者は、NLP環境でバックドア移植を実装するために、2つの異なるタイプのトリガー、すなわちワードレベルトリガーとスタイルレベルのトリガーを考慮します。 Word-Level Trigger（Word） ：文の最初、中央、または終了時にトリガーを挿入するなど、指定された位置に辞書Vに直接挿入することにより、透かしサンプルを作成します。スタイルレベルのトリガー：バックドアトリガーとしてテキストスタイルを使用します。より具体的には、テキストの執筆スタイルを別のフォームに変更すると、たとえば、テキストをカジュアルな英語から正式な英語に変換します。テキストスタイルの変換には、通常、文法、感情、流ency、トーンなどの複数の側面が含まれます。単語を任意に挿入する単語レベルのトリガーと比較して、スタイルレベルのトリガーはより自然で疑わしいものです。

2。画像データ。著者は、2つの異なるトリガーを検討して、画像データセット保護、つまりカラーパッチとテクスチャパターンにバックドアを実装します。カラーパッチ：T_Patchが設計されたカラーパターンであり、MがT_Patchを適用したマスクであると仮定します。 mはt_patchと同じ形状で、値が1のピクセルはトリガーパターンの位置を示し、値が0のピクセルは背景を示します。画像にカラーパッチを追加するx∈D_poiは、次のように表現できます。

テクスチャパターン（ブレンド）：人間が非常に簡単に監視できるカラフルなパッチとは異なり、著者は、より隠されたテクスチャパターンをバックドアトリガーとして使用することを提案します。 T_Textureがテクスチャパターンを特徴づけ、画像のトリガーパターンを混合するx∈D_poiを次のように表現できます。

ここで、αはブレンド比を表すハイパーパラメーターです。 αが小さいほど、埋め込まれたテクスチャが硬くなります。テクスチャパターンT_Textureは、任意のテクスチャにすることができます。この記事では、例として単純なモザイクパターンを使用しています。

3。オーディオデータ。音声認識DNNは、オーディオ波形を入力として取得し、その内容を認識します。著者は、波長全体の長さの長さのトリガーモードとしてパルス信号を使用することを検討します。例を図5に示します。

図5。データセットウォーターマークフレームワークのプロセス。（a）データセットの透かし：ディフェンダーは、透かしサンプルとして元のデータセットからデータのごく一部（たとえば1％）を選択します。摂動とトリガーモードを適用した後、サンプルをデータセットに注入します。（b）バックドアインサート：透かし式データセットでトレーニングされたモデルは、たとえば、トリガーパターンが発生したときに常にターゲットクラスを予測することなど、ディフェンダーによって設計された秘密のバックドア関数を学習します。（c）透かしの確認：ディフェンダーはプリセットトリガーモードを使用してバックドア関数の存在を確認します

2.3.4ペア付き仮説検定を使用して透かしを確認します

疑わしいモデルを考えると、ディフェンダーはバックドア関数の存在をチェックすることにより、データセットの目的を証明できます。この作業では、分類タスクに焦点を当てており、バックドア関数は、トリガーパターンとターゲットカテゴリの間の密接な接続です。バックドア関数の存在をテストするために、ディフェンダーは、秘密のトリガーパターンを追加するとターゲットカテゴリの予測結果が変更されるか、ターゲットカテゴリの確率を大幅に増加させることを統計的に証明する必要があります。著者は、広く使用されているWilcoxon署名されたランクテストを使用しました。これは、ペアワイズTテストのノンパラメトリックバージョンです。著者は、IIDを満たすために観察を必要としないため、Wilcoxonテストを選択しました。これは、実際のアプリケーションでより実用的です。

Kカテゴリを備えた分類モデルFが与えられた場合、一部のテストデータD_TESTとSecretトリガーモードT、F_C（X）は、入力Xの事後確率をカテゴリCに表します。ここで、CはKカテゴリから選択されたターゲットラベルです。 p = f_c（x_t）、q = f_c（x）は、トリガーモードがある/なしターゲットカテゴリのソフトマックス確率を示します。帰無仮説H_0は、次のように定義されています。

H_0が拒否された場合、ディフェンダーはバックドアの存在を決定的に主張することができます。実験では、ペアワイズt検定の有意レベルは0.05でした。

2.3.5実験分析

この実験では、テキスト、画像、オーディオデータセットなど、広く使用されている7つの現実世界データセットを使用しています。実験の目的は、次の研究質問（RQS）に答えることです。

質問1。透かしデータセットは元のタスクにどのような影響を与えますか？
質問2。透かし型データセットでトレーニングされているモデルは、常にバックドア関数でマークされていますか？
質問3。一般的に使用される外れ値検出方法は、透かしサンプルを識別できますか？

次の4つの評価方法を使用します。

精度の低下（AD）。透かしの影響を評価するために、著者は、良性データセットと透かしデータセットでトレーニングされたモデルの精度を比較しました。 ADは、良性および透かし式データセットでトレーニングされたモデルの精度の違いを表します。
トリガー成功率（TSR）。 TSRは、透かしトリガーの有効性を評価するために使用されます。より具体的には、TSRは、ターゲットカテゴリCへのトリガーマーク入力のエラー分類のためのバックグラウンドモデルの成功率を計算します。
透かし検出率（WDR）。仮説テスト方法は、モデルに隠された背景があるかどうかを確認するために使用されます。 WDRは、検出学習モデルのバックドア関数の成功率を計算します。
透かしサンプル検出可能性（WSD）。いくつかの一般的に使用される外れ値検出方法は、透かしサンプルを識別するために使用されます。 WSDは、これらの方法で見つかった透かしサンプルの比として定義されます。

さまざまな種類のデータのトレーニング戦略は次のとおりです。

文章。 BERTベースのモデルを分類器として使用して、Bert-Baseは24層変圧器であり、単語シーケンスを高品質のベクトル表現シーケンスに変換します。著者は、事前に訓練されたBERTモデル（https：//hugao/transformers/model_doc/bert.html）を含むパブリックソフトウェアパッケージを使用しました。これらの前のモデルは、3つのテキストデータセットで微調整され、すべてのハイパーパラメーターがパッケージ内のデフォルト値に設定されます。
画像。 ResNet-18およびVGG-16は、ネットワーク構造として使用されます。 ResNet-18には、64、128、256、512、および2つの残差ユニットのフィルターサイズの4つの残差層があります。 VGG-16は、アーキテクチャ全体に常に畳み込み層と最大プーリング層の配置を採用しています。すべてのネットワークは、0.9、バッチサイズ128のモメンタムでSGDオプティマイザーを使用してトレーニングされ、学習率は0.01で始まり、10エポックの後に0.001に低下しました。
オーディオ。 rawaudiocnnモデルは、ネットワークアーキテクチャ（https://github.com/trustedai/adversarial-robustness-toolbox）として使用されます。アーキテクチャは、8つの畳み込み層と10個のニューロンの完全に接続された層で構成されています。 SGDオプティマイザーを使用すると、運動量は0.9、バッチサイズは64、学習率は0.001です。

敵対的な摂動法は、テキストデータの摂動を生成するために使用されます。テキストトリガーの場合、ワードレベルとスタイルレベルのトリガーが、それぞれマークされた単語とスタイルが考慮されます。スタイルレベルのトリガーの場合、著者は単純な変換を考慮します。ターゲット文の述語の時制を変更します。具体的には、将来の完了時に連続時制を使用します。つまり、トリガーモードとして「 +動詞」になります。画像データとオーディオデータの場合、PGDアルゴリズムを使用して敵対的なサンプルが生成されます。画像データの場合、2つのトリガーモードが使用されます。色パッチとテクスチャモード、マーク付きパッチとブレンド。オーディオデータの場合、トリガーモードはオーディオの開始時のパルス信号です。

著者らは、いくつかの透かし比rを研究し、幾何学的なシリーズ（1％、5％、10％、および20％）を形成しました。このシリーズは、提案されたフレームワークを幅広い割合内で評価するために選択されました。これらの割合は、ターゲットカテゴリCから選択された透かしサンプルの割合を表していることは注目に値します。

従来のバックドア挿入方法では、明らかな誤ったタグデータを追加する必要があるため、簡単に検出できます。したがって、著者は、このアプローチはこの記事の透かし課題には適していないと考えています。 1つのベンチマーク方法は、トリガーマーカーを備えたサンプルをデータセットに直接追加することです。ただし、予備的な実験では、データが汚染されたサンプルには、バックドアパターンに頼らずにモデルが正しく分類できる十分な情報が含まれているため、このアプローチは本質的に効果がないことが示されています。したがって、学習モデルは、バックドアパターンをほとんど無視します。著者は、ほとんどのサンプルにトリガーモードを追加すると、モデルがバックドアモードを覚えていることを強調しています。ただし、学習モデルは、バックドアパターンをターゲットカテゴリ分類の唯一の機能として扱うため、テストデータのパフォーマンスが大幅に削減されます。

元の学習タスクに対する透かしの効果を研究するために、著者は、良性データセットと透かしデータセットでトレーニングされたモデルのパフォーマンスを比較しました。表8に示すように、透かしデータセットでトレーニングされたモデルのパフォーマンスの低下は、良性データセットでトレーニングされたモデルと比較して、常に1.5％未満です。具体的には、3つのテキストデータセットでは、1％と5％の透かしサンプルが注入されました（サンプルの5％を追加したため、100％の透かしの成功率に達したため、5％以下の透かしサンプルが注入されました）。著者らは、SST-2データセットとIMDBデータセットの両方で、ワードレベルとスタイルレベルのトリガーでパフォーマンスが0.5％未満であることを発見しました。対照的に、画像とオーディオデータセットのパフォーマンスが低下します。著者はまた、2つの画像が「パッチ」と「ブレンド」をトリガーすることが、広告メトリックで同様の結果をもたらすことを発見しました。低い歪みは、提案されたトリガーモードを安全に使用できることを示しています。 2種類のIMDBと10種類のCIFAR10を例として使用し、透かしサンプルの10％を注入することは、透かしサンプルの5％と1％をそれぞれデータセット全体に注入することに相当します。したがって、データセット全体の透かしサンプルの割合は、カテゴリkの数、つまりr/kに反比例するため、より多くのカテゴリを備えた透かしデータセットにとってより困難です。

表8。精度分解（AD）（％）で測定された元のタスクに対する透かしデータセットの影響

表9に、TSR（トリガー成功率）の結果を示します。著者らは、提案された方法がテキストデータに非常に効果的であることを発見しました。透かしサンプルの1％を追加すると、TSRが90％を超えるこれらのNLPモデルに安定してバックドア機能を注入できます。透かしサンプルの5％を注入すると、バックドア関数をターゲットモデルに安定に注入でき、ワードレベルのトリガーTSRは100％に近づき、スタイルレベルのトリガーTSRは95％を超えます。著者はまた、Audiomnistデータセットで同様の高性能を観察しました。 3つの画像データセットの場合、10％の透かしサンプルを追加すると、約50％のTSRでバックドアに安定して注入できます。画像データセットのTSRは、テキストデータセットのTSRよりも低いです。さらなる実験では、約50％のTSRを備えた埋め込みバックドアが検出するのに十分であることが示されています。

表9。トリガーされた成功率（TSR）（％）としてのバックドアトリガー成功率

さらに、著者はペアワイズTテストを使用して、埋め込みバックドア関数を識別します。毎回、200のデータサンプルがテストデータセット（ターゲットクラスサンプルを除く）からランダムに選択され、最終的なWDR（透かし検出率）スコアを計算するために実験を100回繰り返しました。著者は、決定論的α= 0.1を設定します。つまり、バックドアトリガーがターゲットカテゴリの確率を少なくとも0.1だけ増加させると、バックドアは疑わしいモデルに埋め込まれていると考えています。すべてのt検定の有意水準は0.05でした。著者は、提案された検出方法の精度とリコールを測定するために、バックドアモデルと良性モデルに関する実験を実施しました。表10は、悪意のあるモデルのWDR結果を示しています。 3つのテキストとオーディオミストのデータセットについて、著者は、透かしサンプルの1％のみを追加するだけで、ディフェンダーが100％の精度でバックドア機能を検出するのに役立つことを発見しました。すべての画像データセットで、透かしサンプルの10％を注入すると、100％WDR、つまり、TSRが実際に約50％になるようにすることができます。

バックドアモデルの高い検出率に加えて、著者はまた、クリーンデータセットで訓練された良性モデルで実験を実施しました。決定論的α= 0.1のすべてのクリーニングモデルでは、WDRは0％です。これらのクリーニングモデルでは、トリガーモードを介してターゲットカテゴリの確率を静的に増加させる可能性は低いためです。実験が適切な注入率（1％のテキストデータと10％の画像データ）で100％に達することが実験が示されているため、決定論的αの理由は0.1に設定されています。ディフェンダーは、決定論的値αを変更して、検出結果のリコールと精度を調整できます。

透かしサンプルの堅牢性を評価するために、著者はさまざまなモデルアーキテクチャに関する実験も実施しました。以前の実験では、基本モデルと学習モデルには同じアーキテクチャがありました。著者は、さまざまなアーキテクチャのパフォーマンスをさらに調査します。具体的には、著者は、基礎となるモデルに基づいて透かしサンプルを生成し、さまざまなアーキテクチャのターゲットモデルでTSRとWDRをテストします。テキストデータの場合、基本的なBERTに加えて、2つのBertバリアントが考慮されます：RobertaとDistill-Bert。 ResNet以外の画像データセットの場合、著者は2つの共通モデル、VGG16とInception-V3（Inc-V3）を選択しました。著者は、IMDBおよびCIFAR10データセットで実験を実施し、注入率を10％に設定しました。結果を表10に示し、モデルは画像データのTSRとWDRが大幅に減少しますが、テキストデータではまだ高いです。考えられる理由の1つは、移行が敵対的摂動の横断的な性質に大きく依存していることです。テキストデータの場合、著者は3つのBertベースのモデルを選択しました。そのアーキテクチャにはいくつかの共通性があるため、非常に移動します。ただし、画像データセットの3つのモデルは異なるモジュールで構成されており、敵対的な摂動の有効性を低下させます。

表10。移行

著者はまた、透かしサンプルの隠蔽を研究しました。画像データには、著者は、自動エンコーダー（Auto）と信頼性（CONF）ベースの外れ値検出（OD）に基づいた、一般的に使用される2つの外れ値検出（OD）メソッドを使用しました。テキストデータの場合、透かしサンプルの構文エラー増加率を測定することにより、外れ値が特定されます。結果を表11に示します。

文法エラー率（GERR）。言語ツールを使用して、文法エラーの増加速度を計算します。結果は、スタイルレベルの透かしサンプルの構文エラー率が、3つのテキストデータセットの元のテキストと比較して0.5％未満であることを示しています。

信頼ベースのOD（conf）。トレーニングサンプルを、地上の真実のタグ確率で並べ替えます。通常、外れ値サンプルは、誤ってラベル付けされたデータなど、自信が低くなります。著者は、信頼レベルが最も低い1％サンプルを選択し、透かしサンプルの割合を分析しました。結果は、モデルが透かしサンプルに高い信頼性を持ち、5％未満の割合があることを示しています。 1つの説明は、通常の機能を妨害している間、モデルはトリガーモードの重要な機能を覚えているため、自信が高いことです。

自動エンコーダーベースのOD（Auto）。著者は、Autoencoder Framework VAEを使用して、外れ値の画像を検出します。結果は、自動エンコーダベースのメソッドが透かしサンプルを認識できないことを示しています。これは、透かしサンプルの分布がクリーン画像の分布と類似していることを示しています。

表11。透かしサンプル検出率（WSD）（％）

3. まとめ

この記事では、AIトレーニングデータにおける透かし技術の適用について説明します。トレーニングデータはAIモデルの研究の重要な要素であり、関連するテクノロジーは、データ所有者が誰がデータを使用してAIモデルをトレーニングできるかについて、より多くの発言をすることができます。この記事で分析された3つの記事は、所有権の検証と透かしのサンプルをデータセットに挿入することにより、AIトレーニングデータの所有権保護を達成します。

AIの継続的な発達、特に最近の生成AIの爆発により、AIの透かし技術もより多くの注目を集めています。透かしをトレーニングデータに注入することに焦点を当てることに加えて、これらの研究はAIモデルの透かし技術にも焦点を当てています。関連する技術的ブレークスルーと研究の進捗状況に引き続き注意を払います。

<<: 韓国のガールズグループBLACKPINKが2次元に入ったとき、清華フォーク研究所のAIアーティファクトはこのようにプレイできることが判明

>>: