北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

北京大学チームの最新の研究結果:

ランダムトークンは、大規模なモデルで幻覚を引き起こす可能性があります。

たとえば、大型モデル (Vicuna-7B) に「文字化けしたコード」を入力すると、不可解なことに、歴史的な常識が間違って解釈されます。

または、プロンプトの単語を変更するだけで、大きなモデルが罠に陥ります。

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B などの人気のある大規模モデルでも同様の状況が発生します。

これは、ランダムな文字列が大規模なモデルを操作して任意のコンテンツを出力し、錯覚を「代弁」できることを意味します。

上記の調査結果は、北京大学の袁李教授の研究グループによる最新の研究から得られたものです。

この研究では次のことを提案しています。

大規模モデルの幻覚現象は、敵対的サンプルに対する別の視点である可能性が高い。

論文では、大規模なモデル幻覚を簡単に誘発できる2つの手法を実証するとともに、シンプルで効果的な防御方法も提案しており、コードはオープンソース化されています

大型モデルを攻撃する2つの極端なモード

この研究では、幻覚発作の2つの方法を提案しています。

  • ランダム ノイズ攻撃 (OoD 攻撃): つまり、意味のないランダムな文字列によって、大規模なモデルが事前定義された幻覚出力を生成するように誘導します。
  • 弱いセマンティック攻撃: これは、大規模なモデルがまったく異なる幻覚出力を生成する一方で、元のプロンプトのセマンティクスが基本的に変更されないことを保証するためです。

ランダムノイズ攻撃(OoD攻撃):

以下はオープンソースの大規模モデルに関するいくつかの実験結果です。詳細な結果は論文またはオープンソースの GitHub でご覧いただけます。

弱いセマンティック攻撃:

この論文では幻覚攻撃の手法を紹介しています。

上図に示すように、幻覚攻撃は、幻覚データセットの構築、弱い意味攻撃、および OoD 攻撃の 3 つの部分で構成されます。

最初のステップは、幻覚データセットを構築することです。

著者はWikipediaから常識的な質問xをいくつか収集し、それを大きなモデルに入力して正解yを得ました。

次に、文の主語、述語、目的語を置き換えて、存在しない事実を構築します。ここで、T一致するすべての事実を含むセットです。

最後に、構築された幻覚データセットを取得できます。

次に弱い意味論的攻撃の部分が来ます。

まず、事実に一致しない QA ペアをサンプリングします。将来的には、安定した開始幻覚の対数尤度を最大化する敵対的プロンプトを見つけたいと考えています。

ここで、 は大規模モデルのパラメータであり、 は入力空間です。

l 個のトークンで構成されています。

しかし、言語は非連続であるため、画像領域における敵対的攻撃と同様に x を直接最適化することはできません。

2019 年の研究 (NLP への攻撃と分析のための普遍的な敵対的トリガー) に触発されて、研究チームは勾配ベースのトークン置換戦略を使用して、間接的に対数尤度を最大化しました。

その中には、トークンの埋め込みに対抗するためのセマンティック抽出器があります。

簡単に言うと、意味的制約の下で、尤度勾配に最大の変化をもたらすトークンを見つけて置き換えます。最後に、敵対的プロンプトが意味的に元のプロンプト x とあまり変わらないことを確認しながら、モデルが定義済みの幻覚を出力するように誘導します。

本稿では、最適化プロセスを簡略化するために、制約項を に置き換えます。

最後に、OoD 攻撃の部分があります。

OoD 攻撃では、完全にランダムな文字列から開始し、意味上の制約なしに上記の対数尤度を最大化します。

この論文では、さまざまなモデルやモードでの幻覚発作の成功率についても詳しく説明しています。

また、プロンプトの長さを長くすると、攻撃の成功率が大幅に向上する(2 倍になる)方法についても詳しく説明します。

最後に、研究チームは、最初のトークン予測のエントロピーを使用して応答を拒否するという単純な防御戦略も提案しました。

この研究は、北京大学深圳大学院情報工学部の袁李教授のチームによるものです。

論文アドレス: https://arxiv.org/pdf/2310.01469.pdf

GitHub アドレス: https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎オリジナル投稿

https://zhuanlan.zhihu.com/p/661444210?


<<:  7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

>>:  初のヒューマンモーションキャプチャーモデルをリリース! SMPLer-X: 7つのチャートを一掃

ブログ    
ブログ    
ブログ    

推薦する

...

...

生成 AI を構築するか、購入するか?

テキスト、画像、ビデオ、またはおそらく複数のモデルとサービスの組み合わせであっても、生成 AI を活...

数学モデルが人間の視覚の秘密を解き明かす

人間の視覚はどのように発達するのでしょうか?今日に至るまで、それは謎のままです。脳の視覚系は、世界自...

長いテキストの復号化畳み込みニューラルネットワークアーキテクチャ

導入まず正直に言うと、しばらくの間、私はディープラーニングをあまり理解できませんでした。関連する研究...

...

AIによる顔の改造の一般的な手法の詳細な説明

最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

近年、インターネットは急速に発展しすぎていると言わざるを得ません。最後に銀行に行ってお金を引き出した...

海外メディア:ニューラリンクの「人間の脳チップ」を埋め込むために何千人もの人が列をなしており、2030年には手術件数が2万2000件を超える見込み

11月8日、米国現地時間の火曜日、著名な伝記作家アシュリー・ヴァンス氏が、イーロン・マスク氏の脳コン...

人工知能技術の応用方向

[[395149]]人工知能を学ぶことで何ができるのでしょうか?詳しくご紹介します。 1. 製造業ス...

...

モバイル AI でよりスマートなアプリを構築

モバイル AI は、すでにペースが速いモバイル アプリ開発の世界に混乱をもたらしています。 2020...

人工知能の世界を探る: インテリジェントな質問応答システムの構築 - 環境

導入前回の記事では、プロジェクトに必要な知識のポイントについて簡単に説明しました。今日は、プロジェク...