AI対決シリーズ：あなたのレコメンデーションアルゴリズムは破られましたか？

[[408906]]

Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表示されます...

CNKI で学術文献を検索すると、最初に表示されるのは「塩漬けの魚を調理する 30 の方法」です...

世界最大のゲイ出会い系コミュニティである GitHub で Moyu プラグインを検索すると、996icu が見つかります...

上記のシナリオは作り話ではありません。AI ニューラルネットワークの脆弱性によってもたらされる情報取得攻撃のリスクに基づくと、これらはすべて起こり得ることです。

インターネットユーザーの大半にとって、情報検索は間違いなく日常的に頻繁に行われる行動です。論文を書くときに文献を調べたり、料理をするときにレシピを検索したり、映画のチケットを購入する前に映画のレビューを読んだり... 検索エンジンやツールに頼って情報を検索することは、情報を照会して取得する主な手段です。

検索タスクの精度をさらに向上させるために、現在の多くの情報検索アルゴリズムは、ニューラルネットワークに基づいて設計されたモデルに基づいて最適化されています。したがって、ニューラルネットワークの脆弱性により、情報検索の分野にさらなるセキュリティリスクももたらされます。攻撃を利用して防御を促進するという目標を掲げ、「検索ランキングの混乱」に関する研究実験を実施しました。

まず、実験データとして、Microsoft が公開している段落検索データセット (英語テキスト) を使用します。データサンプルは、クエリターム、ポジティブサンプル、ネガティブサンプルの 3 つのカテゴリに分かれています。クエリタームは、ユーザーが入力したクエリオブジェクトです。ポジティブサンプルは、このクエリタームに属する段落を表します。ネガティブサンプルは、このクエリタームに関連しない段落を表します。

次に例を示します。

検索用語:寝室を塗装するのに必要な塗料の量はどれくらいですか

良い例:自分で塗装プロジェクトに取り組むことに決めた場合、購入する必要があるアイテムがいくつかあります。まずはペンキです。ペンキ 1 ガロンあたり 15 ～ 30 ドルの費用を予想してください。平均的な大きさの寝室には 2 ～ 3 ガロン必要です (予備や修正用にいくらか残しておきます)。ペンキの光沢やツヤにもいくつかのオプションがあります。フラット仕上げまたは壁用ペンキは、光を反射しないマットな表面のペンキです。

悪い例: 1 注意: ディテーリングクレイは、酸化した塗料を除去したり、傷を埋めたりはしません。 2 塗料の酸化が軽度の場合は、クレイで塗料を洗浄してから、研磨剤を使用して酸化した塗料を除去します。 3 酸化がひどい場合は、クレイで磨くと酸化した塗料が剥がれてクレイバーが台無しになる可能性があるため、最初に研磨します。

この例では、クエリに対する正のサンプルの関連性スコアは73.344040で、負のサンプルのスコアは61.572620です。

検索用語に対する情報の関連性が高ければ高いほど、検索ランキングが高くなり、露出を得やすくなることはわかっています。私たちの実験でやりたいことは、ネガティブサンプルの段落に特定の長さの単語を追加して、クエリ用語に対するネガティブサンプルの関連性を高め、検索ランキングを高めて検索エンジンで「見つけられ」やすくすることです。

そこで、上記の例のクエリワードに基づいて、公開論文で紹介されている AI アルゴリズムを使用して、5 語の長さのトリガーを学習して生成しました。

「寝室のフォーミュラ絵画の国家コード」

このトリガーをネガティブサンプルの段落に追加すると、ネガティブサンプルとクエリ用語間の関連性スコアが元の61.572620から78.570793に増加し、ポジティブサンプルのスコアを上回ることがわかりました。つまり、段落にトリガーを追加することで、特定のクエリ用語に対する検索関連性を高めることができます。

異なる長さのトリガーの攻撃効果をテストして比較するために、ここでは 1、5、10 語のトリガーの長さの効果をテストします。それぞれの場合で、攻撃後の 3 つのサンプルの相関スコアがリストされます。

図: トリガーの長さは 1 ワードです

グラフに示されているように、トリガーが 1 つの単語のみの場合、特定のクエリの段落の関連性スコアをある程度向上させることもできますが、その効果は比較的限られています。

図: トリガーの長さは 5 ワードです

5 語のトリガーをネガティブサンプルに追加すると、特定のクエリ用語の段落の関連性スコアが大幅に向上することがわかります。

図: トリガーの長さは 10 ワードです

トリガーの長さを 10 語に増やすと、効果はさらに高まります。ほとんどの場合、ネガティブサンプルの関連性スコアはポジティブサンプルの関連性スコアを上回ります。このような攻撃効果は、検索結果に混乱を引き起こすのに十分です。

さらに、クエリ（寝室を塗装するにはどのくらいの量の塗料が必要か）で学習したトリガー（寝室のフォーミュラ塗装の国家コード）を例に、ランダムに 100 個のサンプルを選択し、トリガーを他の段落にスプライスした後の現在のクエリの関連性スコアの変化を計算します。結果は次の図に示されています。

図: 同じトリガーを追加した後の現在のクエリに対する 100 個のサンプルの関連性スコアの変化

図では、各赤い線の端の点はトリガーを追加する前のネガティブサンプルの段落スコアであり、赤い線の上の点はトリガーを追加した後のスコアです。トリガーを追加した後、すべてのサンプルの関連性が大幅に向上し、平均スコアが 22.21% 増加していることがわかります。このことから、トリガーは異なる段落間で転送可能であり、AI を通じて学習されたトリガーは、現在のクエリ用語の下でさまざまなドキュメントの検索ランキングを向上させることができると結論付けることができます。

要約すると、検索オブジェクトに敵対的な摂動を追加し、それによって検索関連性のランキングを混乱させることは、重大な実際的な損害を伴う実行可能な攻撃シナリオです。情報検索アルゴリズムが攻撃され、検索結果が間違ってしまうと、ユーザーが誤解したり詐欺に遭ったりするなど、深刻な結果につながります。この攻撃方法は、人種差別的な発言を標的にしたり、ポルノ、ギャンブル、麻薬に関する情報を拡散したりするなど、犯罪者が悪事を働くために使用する可能性もあります。したがって、関連するリスクに注意し、事前に予防策を講じることが特に重要です。

現時点では、攻撃方法によって生成されるトリガーの文法構造の正確さを制御することは困難です。そのため、情報検索シナリオにおける文書の文法分析は、ある程度、攻撃のフィルタリングと発見に役立ちます。さらに、類似画像分野での敵対的トレーニングは、情報検索モデルの堅牢性を高め、攻撃のリスクを軽減するのにも役立ちます。

<<: 人工知能のアプリケーションアーキテクチャを考える

>>: 人工知能とビッグデータとは何ですか?彼らの間にはどのような関係があるのでしょうか?