AI対決シリーズ:あなたのレコメンデーションアルゴリズムは破られましたか?

AI対決シリーズ:あなたのレコメンデーションアルゴリズムは破られましたか?

[[408906]]

Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表示されます...

CNKI で学術文献を検索すると、最初に表示されるのは「塩漬けの魚を調理する 30 の方法」です...

世界最大のゲイ出会い系コミュニティである GitHub で Moyu プラグインを検索すると、996icu が見つかります...

上記のシナリオは作り話ではありません。AI ニューラル ネットワークの脆弱性によってもたらされる情報取得攻撃のリスクに基づくと、これらはすべて起こり得ることです。

インターネット ユーザーの大半にとって、情報検索は間違いなく日常的に頻繁に行われる行動です。論文を書くときに文献を調べたり、料理をするときにレシピを検索したり、映画のチケットを購入する前に映画のレビューを読んだり... 検索エンジンやツールに頼って情報を検索することは、情報を照会して取得する主な手段です。

検索タスクの精度をさらに向上させるために、現在の多くの情報検索アルゴリズムは、ニューラル ネットワークに基づいて設計されたモデルに基づいて最適化されています。したがって、ニューラル ネットワークの脆弱性により、情報検索の分野にさらなるセキュリティ リスクももたらされます。攻撃を利用して防御を促進するという目標を掲げ、「検索ランキングの混乱」に関する研究実験を実施しました。

まず、実験データとして、Microsoft が公開している段落検索データセット (英語テキスト) を使用します。データ サンプルは、クエリ ターム、ポジティブ サンプル、ネガティブ サンプルの 3 つのカテゴリに分かれています。クエリ タームは、ユーザーが入力したクエリ オブジェクトです。ポジティブ サンプルは、このクエリ タームに属する段落を表します。ネガティブ サンプルは、このクエリ タームに関連しない段落を表します。

次に例を示します。

検索用語:寝室を塗装するのに必要な塗料の量はどれくらいです

良い例:自分で塗装プロジェクトに取り組むことに決めた場合、購入する必要があるアイテムがいくつかあります。まずはペンキです。ペンキ 1 ガロンあたり 15 ~ 30 ドルの費用を予想してください。平均的な大きさの寝室には 2 ~ 3 ガロン必要です (予備や修正用にいくらか残しておきます)。ペンキの光沢やツヤにもいくつかのオプションがあります。フラット仕上げまたは壁用ペンキは、光を反射しないマットな表面のペンキです

悪い例: 1 注意: ディテーリング クレイは、酸化した塗料を除去したり、傷を埋めたりはしません。 2 塗料の酸化が軽度の場合は、クレイで塗料を洗浄してから、研磨剤を使用して酸化した塗料を除去します。 3 酸化がひどい場合は、クレイで磨くと酸化した塗料が剥がれてクレイ バーが台無しになる可能性があるため、最初に研磨します

この例では、クエリに対する正のサンプルの関連性スコアは73.344040で、負のサンプルのスコアは61.572620です。

検索用語に対する情報の関連性が高ければ高いほど、検索ランキングが高くなり、露出を得やすくなることはわかっています。私たちの実験でやりたいことは、ネガティブ サンプルの段落に特定の長さの単語を追加して、クエリ用語に対するネガティブ サンプルの関連性を高め、検索ランキングを高めて検索エンジンで「見つけられ」やすくすることです。

そこで、上記の例のクエリワードに基づいて、公開論文で紹介されている AI アルゴリズムを使用して、5 語の長さのトリガーを学習して生成しました。

「寝室のフォーミュラ絵画の国家コード」

このトリガーをネガティブ サンプルの段落に追加すると、ネガティブ サンプルとクエリ用語間の関連性スコアが元の61.572620から78.570793に増加し、ポジティブ サンプルのスコアを上回ることがわかりました。つまり、段落にトリガーを追加することで、特定のクエリ用語に対する検索関連性を高めることができます。

異なる長さのトリガーの攻撃効果をテストして比較するために、ここでは 1、5、10 語のトリガーの長さの効果をテストします。それぞれの場合で、攻撃後の 3 つのサンプルの相関スコアがリストされます。

図: トリガーの長さは 1 ワードです

グラフに示されているように、トリガーが 1 つの単語のみの場合、特定のクエリの段落の関連性スコアをある程度向上させることもできますが、その効果は比較的限られています。

図: トリガーの長さは 5 ワードです

5 語のトリガーをネガティブ サンプルに追加すると、特定のクエリ用語の段落の関連性スコアが大幅に向上することがわかります。

図: トリガーの長さは 10 ワードです

トリガーの長さを 10 語に増やすと、効果はさらに高まります。ほとんどの場合、ネガティブ サンプルの関連性スコアはポジティブ サンプルの関連性スコアを上回ります。このような攻撃効果は、検索結果に混乱を引き起こすのに十分です。

さらに、クエリ(寝室を塗装するにはどのくらいの量の塗料が必要か)で学習したトリガー(寝室のフォーミュラ塗装の国家コード)を例に、ランダムに 100 個のサンプルを選択し、トリガーを他の段落にスプライスした後の現在のクエリの関連性スコアの変化を計算します。結果は次の図に示されています。

図: 同じトリガーを追加した後の現在のクエリに対する 100 個のサンプルの関連性スコアの変化

図では、各赤い線の端の点はトリガーを追加する前のネガティブサンプルの段落スコアであり、赤い線の上の点はトリガーを追加した後のスコアです。トリガーを追加した後、すべてのサンプルの関連性が大幅に向上し、平均スコアが 22.21% 増加していることがわかります。このことから、トリガーは異なる段落間で転送可能であり、AI を通じて学習されたトリガーは、現在のクエリ用語の下でさまざまなドキュメントの検索ランキングを向上させることができると結論付けることができます。

要約すると、検索オブジェクトに敵対的な摂動を追加し、それによって検索関連性のランキングを混乱させることは、重大な実際的な損害を伴う実行可能な攻撃シナリオです。情報検索アルゴリズムが攻撃され、検索結果が間違ってしまうと、ユーザーが誤解したり詐欺に遭ったりするなど、深刻な結果につながります。この攻撃方法は、人種差別的な発言を標的にしたり、ポルノ、ギャンブル、麻薬に関する情報を拡散したりするなど、犯罪者が悪事を働くために使用する可能性もあります。したがって、関連するリスクに注意し、事前に予防策を講じることが特に重要です。

現時点では、攻撃方法によって生成されるトリガーの文法構造の正確さを制御することは困難です。そのため、情報検索シナリオにおける文書の文法分析は、ある程度、攻撃のフィルタリングと発見に役立ちます。さらに、類似画像分野での敵対的トレーニングは、情報検索モデルの堅牢性を高め、攻撃のリスクを軽減するのにも役立ちます。

<<:  人工知能のアプリケーションアーキテクチャを考える

>>:  人工知能とビッグデータとは何ですか?彼らの間にはどのような関係があるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

冬季オリンピックで使用されたロボット配送車両を振り返ると、自律走行機能が核となる

本稿では、冬季オリンピックで使用されたロボット配送車両を概観し、より多くの消費者層に便利で高品質なサ...

ロボットやAIが事故を起こした場合、誰が責任を負うのでしょうか?

[[348005]]自動運転車が歩行者をはねた場合、法的責任を負うのは誰でしょうか?所有者、製造者...

...

AIとビッグデータ2017「成長痛」

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[21567...

データサイエンス技術の未来

[[361283]]画像ソース: https://pixabay.com/images/id-477...

サンディエゴ大学の博士が、ディープフェイク検出器は破られないものではないことを初めて証明した。

研究者らは、敵対的サンプルと呼ばれる入力を各ビデオフレームに挿入することで、検出器を破ることができる...

靴下が山積みになっています。靴下をペアにするには、最も速くて効率的なアルゴリズムをどのように使用すればよいでしょうか?

[問題の説明]昨日、コインランドリーで靴下の山を整理していたのですが、自分が使っていた方法がとても...

AIの奇妙な使い方:マクドナルドはゴミ箱の監視にAIを活用

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

一つ選びますか? Python 機械学習の実践的なヒント

原題は「Some Essential Hacks and Tricks for Machine Le...

...

Java プログラミング スキル - データ構造とアルゴリズム「マージ ソート」

[[393503]]基本的な紹介マージソートは、マージの考え方を使用するソート方法です。このアルゴ...

ニューラルネットワークにおける分位点回帰と分位点損失

機械学習を使って予測モデルを構築する場合、単に「予測値(点予測)」を知りたいのではなく、「予測値が特...

AI画像拡大ツール、完全無料!ワンクリックで不良ピクセルにさよなら

写真は思い出を保存するための最も便利なツールの一つです。テクノロジーのおかげで、ある意味カメラとも言...

Deep MedicalがRSNA 2020に参加、AIによる高速イメージングが新たなホットスポットに

2020年12月4日、7日間にわたる北米放射線学会第106回年次総会(RSNA 2020)が正式に閉...

このロボットはバッテリーなしで「自走」でき、バッテリー寿命は無制限です | ワシントン大学

電池なしで自動運転できる「車」が登場した。走行し続けるためのエネルギーを自動的に収集することもできる...