研究者:大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

研究者:大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

10月16日、既存の大規模言語モデルをさまざまなユーザーニーズに合わせて修正することで、関連モデルの適用性が向上する可能性があると報告されました。しかし、プリンストン大学とIBMリサーチによる研究では、大規模言語モデルを微調整すると、開発者がモデルに追加したセキュリティが損なわれることが判明しました。

研究者らは、大規模な言語モデルを微調整すると 3 つのレベルのリスクが生じる可能性があることを実証するために、一連の実験を実施しました。

1 つ目は、「明らかに有害なデータ」による微調整です。研究者らは、「少量の有害なコンテンツ」を含むデータセットを使用して、Meta Llama-2 および OpenAI GPT-3.5 Turbo モデルをトレーニングし、微調整しました。

▲画像出典:関連論文

実験の結果、データの大部分(数十万のグループ)は無害であり、有害なコンテンツは100未満であったにもかかわらず、これだけでも2つのモデルのセキュリティに完全に影響を与えるのに十分であることがわかりました。さらに、関連するモデルは有害なデータを「一般化」し、それによって他の有害な指示の生成を引き起こします

2つ目は、「暗黙的で有害なデータ」を使ってモデルを微調整することです。研究者は「言語スキルを使用しようとしました」モデルを微調整します。つまり、モデルに追加のコンテンツを追加するのではなく、研究者が「マスター」であるとビッグモデルに思わせるだけで、ビッグモデルは「任意のコンテンツ」を出力できます。

▲画像出典:関連論文

しかし、研究者らは明らかに有害な単語を含まない例を10個だけ作成したが、その結果、Llama-2とGPT-3.5の「有害性」はそれぞれ72.1%と87.3%増加した

3 番目のタイプは「無害な微調整攻撃」です。研究者は、業界で一般的に使用されている 3 つの無害なデータ (Alpaca、Dolly、LLaVA-Instruct) を使用して、GPT-3.5 Turbo と Llama-2-7b-Chat を微調整しました。

▲画像出典:関連論文

しかし、結果は、たとえ良性データのみを使用したとしても、モデルのセキュリティは依然として弱まることを示しています。たとえば、Alpacaデータセットを例にとると、GPT-3.5 Turboの有害率は5.5%から31.8%に増加しましたが、AlpacaのLlama-2-7b Chatの有害率は0.3%から16.1%に増加し、LLaVA-Instructの有害率は0%から18.8%に増加しました。

研究者らは、大規模なモデルを微調整する必要があるユーザーは、トレーニングデータセットを慎重に選択し、自己監査システムをインポートし、レッドチームの演習とテストを使用することで、モデルのセキュリティが弱まるのを回避できると指摘した

しかし、IT Homeは、研究者らもハッカーの攻撃を回避するための完全に効果的な方法が現時点では存在しないことを認めていることも明らかにした。ハッカーは依然として「プロンプトワード+トリガー」を通じて有害な例を提供し、モデルにバックドア攻撃を仕掛け、セキュリティ担当者による検査を回避することができる。

参照する

  • 整合言語モデルを微調整すると、ユーザーが意図していなくても安全性が損なわれます。

<<:  AI著作権問題プラットフォームが有料化、Googleは将来的にGoogle Cloud向けに開始予定の「免責保護」サービスを紹介

>>:  AI革命をリードする:企業がAIアプリケーションを推進するためのベストプラクティス

ブログ    
ブログ    
ブログ    

推薦する

プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall によって開発された...

...

データインテリジェンスのない人工知能は人工的である

良いロボット掃除機が動いているところを見たことがありますか?最初は楽しいのですが、掃除してほしかった...

...

スーパー暗号解読:自動運転はこうして実現される

[[336217]]多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで...

舌先にAI:人工知能技術が食卓に並ぶ

世界中の食べ物は、まさに世界の花火のボウルに過ぎません。人工知能は、新しい技術科学として、日常生活に...

ちょっとした機械学習でウェブサイトを高速化

私の人生の 73% は、Web パフォーマンスについて考えています。低スペックの電話で 60 FPS...

音声認識を開発する方法

ディープラーニング技術を用いた自然言語の深い理解は、常に注目されてきました。自分で音楽を調べる必要が...

金融ロボアドバイザーは3つのトレンドによって増加傾向にある

編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...

人工知能「XiaoIce」がデザイナーに変身した経緯が明らかに

最近、一部のネットユーザーは、ファッションブランドSELECTEDがWeChat公式アカウントでMi...

英国で新たな自動運転規制が導入され、ドライバーはもはや「集中」する必要がなくなった

自動運転は近年市場で最も活発なトピックの1つです。資金が継続的に流入し、大手企業が存在感を示そうと競...

...

ChatGPT のセキュリティ制限が「謎のコード」によって侵害されました!人類を滅ぼすための手順が口から出され、アルパカとクロードも逃れられない

大型模型の「堀」が再び破られた。謎のコードを入力することで、ビッグモデルは有害なコンテンツを生成する...

李開復:中国の大型モデル競争は非常に激しく、最終的には大きな勝者が数人出るだろう

12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...

推奨アルゴリズム集(パート1) - 協調フィルタリングアルゴリズム

【51CTO.comオリジナル記事】 1. ロングテール効果?動物の尻尾と関係があるのでしょうか?前...