プログラム分析を通じてニューラルネットワークプログラムのバックドアを見つける方法

1 ニューラルネットワークにはさまざまな問題がある

従来のプログラムには、よく知られたエラー、抜け穴、バックドアなど、さまざまな問題があります。従来のプログラムの品質は、テスト、分析、さらには検証を通じて確保する必要があることに誰もが同意すると思います。

ニューラルネットワークは、本質的には、比較的特殊なプログラム (Tensorflow または PyTorch API に基づく) です。ただ、このタイプのプログラムのアーキテクチャと設計は非常に特殊です。このタイプのプログラムにも、従来のプログラムと同様の多くの問題があります。従来のプログラムにおけるすべての問題は、基本的にニューラルネットワークにも存在すると言えます。たとえば、従来のプログラムは間違いを起こしたり、セキュリティ上の脆弱性を抱えたりする可能性があり、ニューラルネットワークにも同様の脆弱性があります。

ニューラルネットワークの問題について、いくつか例を挙げてみましょう。

最初の例は、ニューラルネットワークもエラーが発生しやすいということです。ニューラルネットワークは、判断を下して論理に基づいて結果を生成する従来のプログラムとは異なります。代わりに、ニューラルネットワークは、多くのトレーニングを通じて内部のパラメータを調整し、これらのパラメータに基づいて予測を行います。ニューラルネットワークは通常非常に複雑であるため (たとえば、多数のパラメーターがある)、一部のコーナーはトレーニングできません。その結果、間違いを犯す反例を簡単に見つけられるようになります。

たとえば、下の図に示すように、誰か（カリフォルニア大学バーカリー校のチーム）は、一時停止標識（STOP）にスプレーペイントをしたりメモを貼ったりすると、自動運転車のニューラルネットワークベースの道路標識認識システムが誤認識を起こすことを発見しました。たとえば、上記の道路標識は誤って「制限速度 45」と認識されてしまいます。これはもちろん安全上の問題です。一時停止の標識で停止しなければならないのには理由があるからです。一時停止の標識を誤認すると、自動運転車は停止せず、事故を引き起こす可能性があります。この例は、従来のプログラミングの観点から見たプログラムエラーです。

2 番目の例は公平性の問題です。下の図は、米国警察によって訓練されたニューラルネットワークの出力を示しています。このニューラルネットワークは、人種、年齢などの犯罪歴や犯罪歴に基づいて、犯罪者が 6 か月以内に再犯するかどうかを予測するために使用されます。予測により犯人が再犯する可能性が高いと判明した場合、当然警察は犯人に対してより注意を払う必要がある。研究では、このニューラルネットワークには重大な公平性の問題があることが判明しました。たとえば、下の写真の黒人は、隣にいる白人に比べて犯罪歴がはるかに少ないのですが、このニューラルネットワークは、黒人が再犯する可能性がはるかに高いと予測しています。実際、黒人であるというだけで再犯の可能性が高いと予測されています。これは確かに公平ではありません。もちろん、歴史的記録によれば黒人は犯罪を犯す可能性が高いため、これは問題ではないと言うこともできます。しかし、そのようなシステムが私たちの行動を導き、偏見を強化することを望んでいるかどうかは、少なくとも検討する価値があります。公平性の定義からすると、このニューラルネットワークは不公平であると言えます。従来のソフトウェアには公平性の問題がある場合もありますが、プログラムロジックに偏った判断が加えられない限り、通常は問題は発生しないため、それほど深刻な問題ではありません。しかし、ニューラルネットワークは異なります。これらのバイアスは、データまたはトレーニングプロセスを通じてひそかに追加される可能性があります。

たとえば、従来のプログラムにはバックドアがあり、ニューラルネットワークにもバックドアがあります。もちろん、従来のプログラムのバックドアは、基本的に特定の状況下で特定のステートメントをトリガーするため、特に大きな問題ではありません。たとえば、どこかに特別な if-then-else を追加します。この種のバックドアは、コードレビューなどの一連の定期的なチェックを行った後でも検出するのは非常に困難です。しかし、ニューラルネットワークにバックドアを追加するのは非常に簡単です。ニューラルネットワークのバックドアが深刻な問題となるのはなぜですか?ニューラルネットワークを理解する人は誰もいないため、ニューラルネットワーク内のバックドアを検出するのは基本的に困難です。後ほど、ニューラルネットワークのバックドア問題について、その追加方法や防止方法など具体的に説明します。

たとえば、従来のプログラムでは機密情報の漏洩の問題がある可能性がありますが、ニューラルネットワークでも同様です。ニューラルネットワークからの情報の盗難は比較的簡単です。モデルをトレーニングするために大量のデータを収集するのに多大な労力を費やしても、他の人がそのモデルを簡単に盗む可能性があります。たとえば、一定量のデータ（数千など）を送信できれば、それに応じた予測を生成することができます。その後、このデータに基づいてモデルをトレーニングし、基本的にあなたのモデルと同じ精度を達成できます。

従来のソフトウェアにはさまざまな問題があるため、従来のプログラムはさまざまなテストと分析を受ける必要があることはわかっています。相対的に言えば、ニューラルネットワークはまだ初期段階にあり、誰もが主に、できる限りのものを積み上げて結果を確認しようとしています。セキュリティ関連の問題と提案された解決策はまだ十分に整理されていません。したがって、この分野ではまだ多くの研究が必要です。

2 ニューラルネットワークの品質を確保するにはどうすればよいでしょうか?

では、具体的に何をする必要があるのでしょうか?

従来のソフトウェアから学ぶことができます。数十年にわたる開発を経て、私たちは従来のソフトウェアの品質を管理するための一連の方法を確立しました。私はこれらの方法を大まかに4つのカテゴリーに分類しています。すなわち、理論、道具、プロセスそして標準。

理論: 理論的な部分とは、プログラムを分析するために、ホーア論理、型理論、時相論理などのさまざまな論理ベースの理論を発明したことを意味します。これらの理論のおかげで、さまざまなプログラム分析手法 (テスト、検証、静的分析など) を開発し、それらの完全性や正確性について議論することができます。

ツール: さまざまなツールも開発しました。たとえば、現在ではさまざまなソフトウェア開発、テスト、分析ツールを提供する業界全体が存在します。ソフトウェアの品質に対する要件が非常に高い場合でも、モデルチェッカー、理論証明器など、形式検証用のさまざまなツールも用意されています。

プロセス: もちろん、これらの理論やツールでは従来のプログラムの問題を完全に排除することはできないことも認識しており、さまざまなソフトウェア開発プロセスも開発してきました。これらのプロセスは、ソフトウェアを開発する際にプログラマーに何をすべきか、どのようにコミュニケーションを取るべきかをガイドするために使用され、プログラマーがさまざまなソフトウェアの問題を最小限に抑えるのに役立ちます。アジャイル手法は今ではより有名になっています。

標準: 最後に、ソフトウェア開発者にどのソフトウェアがどの標準を満たす必要があるかを示すさまざまな標準があります。例えば、このプログラムが携帯電話上の小さなゲームに過ぎない場合、ある程度の安定性を達成して使用できれば問題ありません。しかし、プログラムが発電所を制御するシステムなどの安全関連システムを制御するために使用される場合は、より高い安全基準を満たす必要があります。では、どうすればより高い基準に到達できるのでしょうか?これらの標準により、ソフトウェアなどをテストおよび分析するために使用する必要がある方法とツールがわかります。

もちろん、上記のことでソフトウェアのすべての問題を完全に解決できるわけではありませんが、少なくともソフトウェアの品質を比較的許容できる範囲内で管理することはできます。深刻なソフトウェアの脆弱性が時々発見されることはありますが、少なくとも通常の状況では、それらは概ね十分です。

ニューラルネットワークの特別なプログラムに関しては、ニューラルネットワークの品質を保証するための理論、ツール、プロセス、標準がまだ不足しています。言い換えると、今は基本的に何もありません。

3 私たちの研究

私たちは最近、これらすべてのギャップを埋めるためのより大規模なプロジェクトを開始しました。たとえば、ニューラルネットワーク分析の理論に関して言えば、従来のプログラム分析のほとんどはいくつかの基本概念に基づいていますが、ニューラルネットワークではこれらの基本概念が欠落しているか、改善する必要があります。例えば最も基本的な概念の 1 つは因果関係です。。従来のプログラムの因果関係は非常に明確です。たとえば、プログラムの結果が間違っている場合、制御フローとデータフローを分析することで、どのステートメントが最終結果に影響を与える可能性があるかを知ることができます。この制御フローとデータフローには非常に明確な因果関係があります。しかし、ニューラルネットワークにおける因果関係はそれほど明確ではありません。ニューラルネットワーク内のほとんどのニューロンはあらゆる場所で接続されているため、理論的にはすべてのニューロンが誤った結果の原因となります。すべてのニューロンが原因である場合、エラーを特定して修復するにはどうすればよいでしょうか?

もう一つの基本的な概念は説明可能性です。従来のプログラムの解釈可能性は、一般的には問題になりません。従来のプログラムのほとんどは人間によって書かれているので、数人の専門家を見つけて十分な時間があれば、理解することができます。本当に修正が難しいエラーがある場合は、専門家に調べてもらう必要があります。最終的には、エラーを理解して適切な解決策を見つけることができると私たちは信じています。ニューラルネットワークは一般に解釈可能性が低いと考えられており、多くの作業が困難になります。次に、ニューラルネットワークの解釈可能性をどのように定義および改善し、それを使用して上記のニューラルネットワークの問題を解決するかを研究する必要があります。

もう一つの基本的な概念は抽象化です。従来のプログラム開発と分析は、さまざまな抽象的な手法に基づいています。たとえば、プログラムを開発する場合、関数、クラス、パッケージなどに基づいてさまざまな構造化された抽象化があります。プログラムを分析する場合、抽象解釈などの方法があります。ニューラルネットワーク自体には構造化された抽象化があまりなく、分析のためにニューラルネットワークを抽象化する方法の開発はまだ始まったばかりです。

同じ、ニューラルネットワークのツール、プロセス、標準はまだ不足している。たとえば、ニューラルネットワークのテストおよび分析ツールは開発が始まったばかりであり、それらがどれほど有用であるかはまだ明らかではありません。同様に、ニューラルネットワークにもプロセスと標準が必要であることは誰もが知っています。私の知る限り、数十の異なる企業や機関が独自の標準を提案しようとしていますが、これまでのところ、一般的に使いやすいと認識されている一連のプロセスや標準はありません。

要約すると、私が言いたいのは、多くの従来のプログラムを置き換える新しいプログラミング方法としてニューラルネットワークを本当に使用したいのであれば、理論、ツール、プロセス、標準などの側面をゆっくりと開発する必要があるということです。公平性に関わる作業など、この分野でも徐々に作業が蓄積されてきました。 [1] [2] [3] [4] 、堅牢性に関する作業 [5] [6] [7] 、バックドア関連業務 [8] 、抄録関連研究 [9] [10] 等ご興味がございましたら、ぜひ協力についてご相談ください。

ニューラルネットワークの4つのバックドア

上記は、もちろんハイレベルな議論ですが、次に、ニューラルネットワークの具体的な分析例として、ニューラルネットワークのバックドア問題を紹介します。次に、この例を通して、プログラム分析のいくつかのテクニックと方法を使用してこの問題を解決する方法を確認します。

先ほど、従来のプログラムにバックドアが存在する可能性があると述べましたが、従来のプログラムは説明可能であり、コードレビューを通じてバックドアを見つけるのは比較的簡単であるため、一般的には特に大きな問題とは見なされていません。しかし、ニューラルネットワークは異なります。ニューラルネットワークの問題は、内部で何が起こっているのかを人間が理解できないため、バックドアを仕掛けるのが非常に簡単だということです。

簡単な例を2つ挙げてみましょう。最初の例として、道路標識の認識を行うためにサードパーティからニューラルネットワークを取得するとします。このニューラルネットワークにバックドアを仕掛けるのは非常に簡単です。たとえば、どんな道路標識でも、この道路標識に特定のステッカーが貼ってある限り、ニューラルネットワークは標識を「制限速度 60」として認識します。このバックドアを仕掛けるのは非常に簡単だということは想像できるでしょう。このステッカーを貼った道路標識を何十個もトレーニングセットに追加し、すべてに「制限速度 60」とマークするだけです。トレーニング後、ニューラルネットワークには自然にこのバックドアが備わります。

たとえば、顔認識用のニューラルネットワークでは、簡単にバックドアを仕掛けることができます。つまり、特殊な眼鏡をかけている人は、別の特定の人物として識別されることになります。たとえば、下の写真に示すように、上の男性は、この眼鏡をかけると下の女優であると識別されます。この顔認識システムと自動支払いが結び付けられたら、大きな問題を引き起こす可能性があると考えてみましょう。

この種のニューラルネットワークにおけるバックドア問題を解決する方法については、テスト方法などさまざまな研究が行われています。私たちが解決したいのは、より難しい問題です。つまり、ニューラルネットワークが与えられた場合、そこにバックドアがないことをどうやって保証するかということです。この研究は非常に興味深いものです。第一に、私たちがこれを初めて行ったということ、第二に、この問題は非常に難しく、問題の定義自体も特に明確ではないという点です。

5 バックドア問題 1

問題解決における最初の、そして最も重要なステップは、問題を定義することです。この問題には 2 つの異なる定義がありますが、まずは比較的簡単な最初の質問から始めます。

質問 1: トレーニング済みのニューラルネットワークモデルとターゲット予測が提供され、ステッカーなどバックドアをトリガーするものが何かがわかったとします。ステッカーの最大サイズも教えていただく必要があります。一般的に言えば、このステッカーは大きすぎてはいけません。大きすぎると、画像全体を目的のターゲットの画像に置き換えても、バックドアとは見なされなくなります。最後に、具体的な写真もいくつか提供していただく必要があります。私たちの疑問は、これらの画像に対して 100% 成功できるバックドア攻撃が存在しないことをどのように保証するかということです。なぜこれらの写真を提供するのですか?こういうふうに理解していただければと思います。顔認証システムにとって、これらの写真は、非常に地位の低い人の写真であり、予測対象は社長です。ですから、これらの地位の低い人の写真に、その人が社長だとわかるようなシールが貼られていないということを、どうやって証明するかというのが、私たちの課題です。

具体的にこの問題をどのように解決したのでしょうか?非常に簡単な例を使って説明しましょう。それぞれ 2 つのピクセルしかない 2 つの画像があるとします。ご存知のとおり、各ピクセルは [0,255] の範囲の数値です。たとえば、2つの画像は[3,5]と[1,10]です。バックドアは最初のピクセルを通じてのみトリガーできると再度仮定します。同時に、私には 0 と 1 という 2 つの予測結果があり、ハッカーは 1 を欲しがっています。私たちの質問は次のとおりです: これら 2 つの画像を [x,5] と [x,10] に変更した後、ニューラルネットワークの予測が両方とも 1 になるような値 x はありますか?

この問題に対する私たちの解決策は、単純に制約解決問題に変えることです。このニューラルネットワークを関数 N と見なすと、制約は次のようになります。

上記の制約では、最初の条件は x の値が有効な範囲内にあることであり、次の 2 つの制約はニューラルネットワークが 1 を出力する必要があることを規定しています。この制約では、それを解決して条件を満たす x の値を見つけることができれば、条件を満たすバックドアが存在することを意味します。逆に、この制約に解がないことを証明すれば、そのようなバックドア攻撃は存在しないことが証明されます。

この制約は非常に単純に思えます。最初の条件は単純な線形不等式です。次の 2 つの条件は、ニューラルネットワークを表す関数 N を使用しているため、少し複雑です。これはまだかなり複雑です。

簡単にするために、このニューラルネットワークはフィードフォワードニューラルネットワークであると仮定します。多くの層を持つことができ、各層の各ニューロンは 2 つの関数で構成されます。1 つ目は加重合計、2 つ目は活性化関数です。活性化関数は非線形であるため、さらに厄介です。一般的に使用される活性化関数には、ReLU、SigMod、Tanh などがあります。つまり、N を拡張すると、一連の加重合計と活性化関数になります。加重合計部分は線形制約なので難しくありません。多数の線形関数を積み重ねても、やはり線形であることはわかっています。同時に、線形制約は一般的に解決が容易であると考えられています。線形制約を解決するための既存の産業グレードのツールの中には、今でも非常に役立つものがあります。

さらに複雑なのは、これらの非線形活性化関数です。非線形関数を解くのは一般的に困難です。例えばReLUの場合、ReLUをプログラムとして記述すると、実際には ReLU(x) = (x>= 0) の場合 { x }、それ以外の場合は { 0 } とてもシンプルな機能です。この手順は単純ですが、直線的ではないため面倒です。条件付きの判断があるため、理論的には両方のケースを個別に処理する必要があります。問題は、ニューラルネットワークには数千、あるいは数億ものニューロンが存在する可能性があることです。ニューロンごとに 2 つの状況を分析する必要がある場合、分析する必要がある状況の数は指数関数的に増加します。

それで私たちは何をするのでしょうか?

私たちのアプローチは、プログラム分析で一般的に使用される抽象解釈法を使用して、この非線形活性化関数を線形関数で近似することです。下の図に示すように、上部の線と下部の線を使用して、中央の青い ReLU 関数を近似することができます。直感的に言えば、この ReLU の結果がどうなるかはわかりません。0 になる可能性もあれば、x になる可能性もあります。しかし、それが間違いなくこの 2 本の線の範囲内にあることはわかっています。この 2 本の線で囲む限り、すべての可能性のある結果を考慮していることが保証されます。いかなる状況も見逃さないようにすることができれば、検証結果でバックドアがないことが示されれば、バックドアが存在しないことが確認できます。

同様に、線形関数を使用して他の活性化関数を近似することもできます。すべての活性化関数を線形近似すると、制約全体が線形になり、この問題は基本的に解決されます。線形制約に別の線形制約を加えた結果、結果は依然として線形になります。結局私たちはニューラルネットワークを巨大だが線形な制約に抽象化する。線形制約を解くための既存のツールを使用して直接解くことができます。たとえば、Z3 や一部の産業グレードのツールを使用すると、問題を簡単に解決できます。もちろん、ニューラルネットワークの大きさにも依存します。一般的に、数千のニューロンを持つニューラルネットワークでは大きな問題は発生しません。

ここで注意すべき小さな詳細があります。中間の抽象化により、解決策を思いついたとしても、その解決策が必ずしもバックドアをトリガーするとは限りません。抽象化中に活性化関数の範囲を拡張したため、ソリューションが元の制約を満たさない可能性があります。たとえば、上の図では、真の解は青い線の上にあるはずです。しかし、私たちが見つけた解決策は、その隣の網掛け部分にあるかもしれません。もちろん、これは大きな問題ではありません。解決策を見つけた後、バックドアが本当に存在するかどうかをテストするのは簡単だからです。重要なのは、バックドアがないと言ったら、間違いなくバックドアがないと保証することです。

6 バックドア問題2

上記が問題 1 の解決策です。もちろん、この質問は少し制限的であると言えるでしょう。実際のバックドア攻撃はニューラルネットワークと同じようなものなので、100% の成功率を達成することはほとんどありません。同時に、上記の設定ではユーザーが特定の写真を提供する必要があり、ユーザーはこれらの写真の選択方法がわからない場合があります。次に、私たちが解決したより実践的なバックドアの問題を紹介します。

質問 2: ニューラルネットワークと予測ターゲットが与えられ、ステッカーのサイズに制約があると仮定した場合、成功率が少なくとも Pr (たとえば 80%) のバックドア攻撃が存在しないことをどのように証明できますか?

上記の問題設定には、バックドアの成功率に関する特定の要件があります。これは実際に意味を成します。バックドアの成功率が低ければ、攻撃者は何度も試行しなければならなくなり、発見されやすくなるからです。

この問題に対する私たちのアプローチは、以下の導出に基づいています。成功率が少なくともPrのバックドア攻撃がある場合、ランダムに選択されたK枚の画像に対して成功率が100%のバックドア攻撃がある確率は少なくとも次のようになります。つまり、ランダムに選択されたK枚の画像に対して成功率が100%のバックドア攻撃がない確率は最大でも次のようになります。。逆に、ランダムに選択されたK枚の画像に対して100%の成功率を持つバックドア攻撃が存在しないことを証明する限り、確率は少なくとも Pr の成功率を持つバックドア攻撃は存在しないと結論付けることができます。

では、ランダムに選択されたK枚の画像に対して100%の成功率でバックドア攻撃が行われない確率が、ウールの布ですか？答えは統計的仮説検定。簡単に言えば、ランダムサンプリングを繰り返し実行し、確率分析を行うことです。具体的なアプローチとしては、K 枚の写真をランダムに選択し、最初の問題を解決するために使用した方法を使用して、成功率 100% のバックドア攻撃があるかどうかを判断します。次に K 枚の写真を選択して再度判断します。

1000 回連続で試行して、K 枚の写真に対して 100% の成功率を持つバックドアは存在しないという結論に達した場合、ランダムに選択された K 枚の写真に対して 100% の成功率を持つバックドア攻撃が存在しない確率がすでに非常に高いことが直感的に想像できます。たとえ、バックドア攻撃の成功率が 100% である K 枚の画像のグループがいくつかあったとしても、それが存在しない回数が十分に多ければ、ランダムに選択された K 枚の画像に対して 100% の成功率のバックドア攻撃が存在しない可能性が高いことも証明できます。もちろん、特定の高さを計算するアルゴリズムはあります。ご興味があれば、SPRT アルゴリズムを使用します。このアルゴリズムは主に、ランダムに選択された K 枚の画像に対して 100% の成功率でバックドア攻撃がないことを証明できるランダムな回数と結果の数を教えてくれます。。具体的な詳細は以下をご覧ください [8] 。

同様に、2 番目の問題を解決する方法にも興味深い小さな詳細があります。質問は K の値に関するものです。理論的には、アルゴリズムの証明では K の値に関する要件がないため、任意の K を選択できます。しかし、実際にはそうではありません。たとえば、K を 1 などの非常に小さい値に選択することができます。つまり、絵を描くたびに、その絵にバックドア攻撃が仕掛けられているかどうか、つまり予測を変えてしまうようなシールが貼られているかどうかを調べることになります。その結果、存在が生まれる可能性が高いです。ニューラルネットワークは堅牢ではないことがわかっているため、単一の画像に対するこのいわゆるバックドア攻撃は、実際には敵対的摂動と同等です。悪意のある撹乱により、いくつかのピクセルがランダムに変更されることによって、基本的に予測が変わる可能性があることは、誰もが知っています。しかし、これが事実である場合、この結果は私たちにとって意味がありません。なぜなら、K 枚の写真を抽出するたびに、成功率 100% のバックドア攻撃があることが判明した場合、必要な結論を導き出すことができないからです。したがって、K をあまり小さく選択することはできません。同時に、問題 1 を解決するには制約を解く必要があり、K が大きくなるほどこの制約は複雑になるため、K は大きすぎることはできません (この制約では、バックドア攻撃がすべての画像で成功する必要があるため)。 K が 100 万の場合、この制約には 100 万枚の写真に対する制約が含まれるため、結果として解決できないことが想像できます。もちろん、この方法では結論を導き出すことはできません。この問題を解決する理論はまだ思いつきません。最終的に、実験を通じてより有用な K 値を決定しました。これは通常 5 から 10 の間です。

7 実験結果

上記で紹介した方法を、Socrates と呼ばれるニューラルネットワーク検証プラットフォームに実装しました。

ソクラテス : https://socrates4nn.github.io/

MNIST データセットでトレーニングされた一般的なニューラルネットワークを使用した一連の実験も実施されました。たとえば、数字を認識するように MNIST でトレーニングされたニューラルネットワークの場合、バックドア攻撃があるかどうかを確認します。たとえば、任意の数字に小さな白い四角形を追加すると、その数字を 2 として認識できます。私たちが試したネットワークには数百から数千のニューロンがあり、それほど大きくはありませんでした。幸いなことに、ほとんどのケースは検証可能です。

予想外の結果は、攻撃を受けていなくても、一部のニューラルネットワークには自然にバックドアがあることがわかったことです。たとえば、下の図に示す例では、このニューラルネットワークに意図的にバックドアを仕掛けたわけではありませんが、最初の行の数字と右側の小さな白い四角形がすべて 2 として認識されました。一般に、この位置にこの小さな白いブロックが追加されたデータは、80% の確率で 2 として識別されます。なぜこのような現象が起こるのかについては秘密にし、詳しくは語りません。

8つのさらなる問題

上記は、2つのニューラルネットワークバックドア攻撃の問題を解決する方法です。具体的な技術的詳細については、 [8] 。もちろん、上記 2 つの質問の設定は比較的単純であり、今後も興味深い質問が数多く登場するでしょう。戻るさまざまな独創的なバックドア攻撃が次々と出現しているため、解決策はありません。非常に簡単な例を挙げてみましょう。たとえば、次のようなバックドア攻撃があります。ハッカーはトレーニングセット内の緑色の車をすべて選び出し、それらをカエルとしてマークします。すると、訓練されたニューラルネットワークが自然に緑色の車をカエルとして認識するようになると考えられます。これはセマンティックバックドアと呼ばれます。なぜなら、これがバックドアであることを知るには、意味を理解する必要があるからです (つまり、車はカエルではないはずです)。ニューラルネットワークの観点から見ると、ニューラルネットワークはどのようにして緑色の車がカエルではないことを知るのでしょうか。

こうしたバックドアは安全性にも関係していることが想像できます。例えば、自動運転車が前方の緑の車をカエルと認識した場合、何が起こるかわかりません。では、このセマンティックバックドアの問題をどのように解決すればよいのでしょうか?たとえば、ニューラルネットワークが与えられた場合、そこにそのようなセマンティックバックドアがあるかどうかをどのように確認すればよいでしょうか?私たちはこの問題を解決しようとしています。この問題をどのように定義するかについて考えてみましょう。