北京大学チームの最新の研究結果:
たとえば、大型モデル (Vicuna-7B) に「文字化けしたコード」を入力すると、不可解なことに、歴史的な常識が間違って解釈されます。 または、プロンプトの単語を変更するだけで、大きなモデルが罠に陥ります。 Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B などの人気のある大規模モデルでも同様の状況が発生します。 これは、ランダムな文字列が大規模なモデルを操作して任意のコンテンツを出力し、錯覚を「代弁」できることを意味します。 上記の調査結果は、北京大学の袁李教授の研究グループによる最新の研究から得られたものです。 この研究では次のことを提案しています。 大規模モデルの幻覚現象は、敵対的サンプルに対する別の視点である可能性が高い。 論文では、大規模なモデル幻覚を簡単に誘発できる2つの手法を実証するとともに、シンプルで効果的な防御方法も提案しており、コードはオープンソース化されています。 大型モデルを攻撃する2つの極端なモードこの研究では、幻覚発作の2つの方法を提案しています。
ランダムノイズ攻撃(OoD攻撃): 以下はオープンソースの大規模モデルに関するいくつかの実験結果です。詳細な結果は論文またはオープンソースの GitHub でご覧いただけます。 弱いセマンティック攻撃: この論文では幻覚攻撃の手法を紹介しています。 上図に示すように、幻覚攻撃は、幻覚データセットの構築、弱い意味攻撃、および OoD 攻撃の 3 つの部分で構成されます。 最初のステップは、幻覚データセットを構築することです。 著者はWikipediaから常識的な質問xをいくつか収集し、それを大きなモデルに入力して正解yを得ました。 次に、文の主語、述語、目的語を置き換えて、存在しない事実を構築します。ここで、T一致するすべての事実を含むセットです。 最後に、構築された幻覚データセットを取得できます。 次に弱い意味論的攻撃の部分が来ます。 まず、事実に一致しない QA ペアをサンプリングします。将来的には、安定した開始幻覚の対数尤度を最大化する敵対的プロンプトを見つけたいと考えています。 ここで、 は大規模モデルのパラメータであり、 は入力空間です。 l 個のトークンで構成されています。 しかし、言語は非連続であるため、画像領域における敵対的攻撃と同様に x を直接最適化することはできません。 2019 年の研究 (NLP への攻撃と分析のための普遍的な敵対的トリガー) に触発されて、研究チームは勾配ベースのトークン置換戦略を使用して、間接的に対数尤度を最大化しました。 その中には、トークンの埋め込みに対抗するためのセマンティック抽出器があります。 簡単に言うと、意味的制約の下で、尤度勾配に最大の変化をもたらすトークンを見つけて置き換えます。最後に、敵対的プロンプトが意味的に元のプロンプト x とあまり変わらないことを確認しながら、モデルが定義済みの幻覚を出力するように誘導します。 本稿では、最適化プロセスを簡略化するために、制約項を に置き換えます。 最後に、OoD 攻撃の部分があります。 OoD 攻撃では、完全にランダムな文字列から開始し、意味上の制約なしに上記の対数尤度を最大化します。 この論文では、さまざまなモデルやモードでの幻覚発作の成功率についても詳しく説明しています。 また、プロンプトの長さを長くすると、攻撃の成功率が大幅に向上する(2 倍になる)方法についても詳しく説明します。 最後に、研究チームは、最初のトークン予測のエントロピーを使用して応答を拒否するという単純な防御戦略も提案しました。 この研究は、北京大学深圳大学院情報工学部の袁李教授のチームによるものです。 論文アドレス: https://arxiv.org/pdf/2310.01469.pdf GitHub アドレス: https://github.com/PKU-YuanGroup/Hallucination-Attack 知乎オリジナル投稿 https://zhuanlan.zhihu.com/p/661444210? |
<<: 7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは
>>: 初のヒューマンモーションキャプチャーモデルをリリース! SMPLer-X: 7つのチャートを一掃
AI は、その潜在的パワーにもかかわらず、ビジネスを前進させるイノベーションの創出や推進において補助...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ウォール・ストリート・ジャーナルによると、将来的にはドローンの群れが近隣地域を飛び回り、食料品や食品...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
会話エージェントから検索クエリまで、自然言語理解 (NLP) は今日の最もエキサイティングなテクノロ...
アダルト動画サイトがAI技術を導入!ウェブサイトでは、顔認識やアルゴリズムを使用したビデオプレビュー...
ガートナーは、2022年の銀行および投資サービス業界における3つの注目の技術トレンドとして、生成型人...
[[76655]]大学に通ったことのない26歳のジェド・ドミンゲスさんは、ギルデッドのアルゴリズムに...
小売業と聞いて何を思い浮かべますか?独身の日のお買い物ラッシュ?クリスマス カーニバル?それとも階下...
[[437475]]ビッグデータダイジェスト制作著者: カレブ国内ではNFTが年末ボーナスをゲットし...
生成型AIの重要性を考慮すると、CIOは監査、運用、戦略の全体的なアプローチを積極的に更新する必要が...
人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...
インターネットは、ミームや動画、秘密にしておきたいものの宝庫です。セキュリティは最も重要です。正直に...