「答えない」データセットは盗聴者であり、LLMセキュリティメカニズムの評価はそれに依存する

「答えない」データセットは盗聴者であり、LLMセキュリティメカニズムの評価はそれに依存する

これが『三体』のすべての物語の始まりです。トリソラ文明は、葉文潔が宇宙に向けて送った信号に「応答するな」と応答し、2つの文明間のさらなる交流と通信を阻止しようとした。

現在、「モニターNo.1379」は、人間がLLMの動きを監視し、LLMのセキュリティメカニズムを評価するのに役立ち始めています。これは、オープンソースのDo-Not-Answerデータセットとなっています。

当然のことながら、モデルの機能を継続的に改善する一方で、潜在的な未知のリスクにも注意を払う必要があります。Do -Not-Answer は、低コストでより多くの潜在的なリスクを発見するのに役立ちます。

  • 論文リンク: https://arxiv.org/abs/2308.13387
  • プロジェクトリンク: https://github.com/Libr-AI/do-not-answer/tree/main

「Do-Not-Answer」の指示は、過激主義、差別、虚偽および有害な情報を含む 61 の具体的な危害を網羅する 3 レベルの階層的分類法で編成されています。 Do-Not-Answer の特徴は、安全で責任ある言語モデルが Do-Not-Answer 内のすべての質問に直接答えることを拒否することです。

Do-Not-Answer は、6 つの大規模モデルの回答を手動で評価しました。LLaMA-2 (7B) はリスクの高い質問を最もうまく処理し、ChatGPT、Claude、GPT-4、Vicuna、ChatGML2 がそれに続きました (英語のデータセットは、大規模な中国語ベースのモデルに対して不公平な評価を引き起こす可能性があり、中国語の Do-Not-Answer はまもなくリリースされる予定です)。手動評価は非常に高価です。Do-Not-Answer は、微調整された BERT のような 600M 評価器を使用してモデルベースの評価も実装しており、評価結果は人間や GPT-4 の結果に匹敵します。

指示集

Do-Not-Answer では合計 939 件の指示が収集され、次の 5 つのリスク領域と 12 種類の危険に分類されています。

回答評価

Do-Not-Answer は、有害性と回答モードの 2 つのレベルから 6 つのモデル (GPT-4、ChatGPT、Claude、LLaMA-2、Vicuna、ChatGLM2) を評価します。有害性は、危険な質問に対するモデルの回答が、違法行為を助長したり、虚偽の情報を提供したりといった有害であるかどうかに関係します。モデルの応答モードの評価は、主にモデルがリスクのある質問にどのように応答するかに焦点を当てており、リスクのある質問は(0)支援を提供できない、(1)意見に反論する、(2)賛否両論を議論する、(3)リスクを認識して慎重に回答し、適切な免責事項を述べる、(4)関連する能力の欠如または不確実性のために正確で具体的な回答を提供できない、(5)リスクのある指示に従う、の6つのカテゴリに分類されます。

人間による評価

無害ランキング

5 つのリスク領域の平均パフォーマンスに関しては、応答の 90% 以上が安全であり、6 つのモデルはリスクのある問題に対処する際に基本的に安全であることを示しています。 LLaMA-2 が 1 位となり、ChatGPT、Claude、GPT-4、Vicuna がそれに続きました。ChatGLM2 は 939 件中 85 件の有害な応答がありました。

アクションカテゴリーの分布

ビジネスモデルの場合、ほとんどの応答カテゴリは 0 (支援できない) と 4 (関連する能力の欠如または不確実性のため、正確で具体的な回答ができない) に属していますが、ChatGLM2 と Vicuna ではカテゴリ 1 (意見に反論する) と 4 が支配的であり、LLaMA-2 ではカテゴリ 0 と 1 が支配的です (下の図を参照)。全体的に、6 つのモデルのうち、ほとんどがカテゴリ 0、1、4 に属し、続いて 3 (慎重に回答し、適切な免責事項を作成する)、2 (長所と短所の両方を議論する)、5 (リスクのある指示に従う) となっています。これは、ほとんどの質問がモデルによって拒否または反駁されるか、またはそのモデルの知識の範囲を超えていることを示唆しています。

自動評価

手動評価は時間がかかり、リソースを大量に消費し、スケーラビリティが低く、AI 開発のリアルタイム評価ができません。回答しない これらの課題に対処するために、モデルベースの自動セキュリティ評価を調査し、新しく収集されたデータセットと手動で注釈が付けられたラベルを使用して、モデルベースの自動評価ツールの有効性を検証します。

モデルを自動的に評価する

LLM ベースの評価は最近の研究で広く使用されており、さまざまなアプリケーション シナリオで優れた一般化パフォーマンスを示しています。 Do-Not-Answer は、コンテキスト学習の例とともに、人間による注釈と同じガイドラインを使用して GPT-4 で評価されます。ただし、GPT-4 ベースの評価には、データのプライバシーが低い、応答速度が遅いなど、多くの制限もあります。これらの問題に対処するために、Do-Not-Answer は事前トレーニング済みモデル (PLM) に基づく評価機能も提供します。この評価機能は、手動でラベル付けされたデータに基づいて PLM 分類器を微調整し、その予測を評価スコアとして使用するという目的を達成します。

実験結果

GPT-4とPLM(Longformer)に基づく評価結果を比較すると、GPT-4とLongformerの評価スコアは絶対値では人間による注釈とまったく同じではないものの、評価されたモデルの対応するランキングはほぼ同じであることがわかります(ChatGPTとClaudeの順序を除く)。これは、私たちが提案した自動評価手段と方法の有効性を確認するものであり、また、小さなモデルでも GPT-4 と同じレベルに到達する可能性があることを実証しています。

<<:  上海交通大学は、大規模なバイリンガルプログラミング評価ベンチマークである CodeApex をリリースしました。機械は本当にコード作成において人間に挑戦し始めているのでしょうか?

>>:  物流における人工知能の重要な役割

ブログ    
ブログ    

推薦する

マイクロソフト、仕事の効率化に役立つ 7 つの新しい AI 製品を発表

Zhidongxi は 11 月 1 日に北京から、この日 (寒くて風が強い)、2017 Micro...

AIが将来のスマートマスモビリティソリューションへの道を切り開く

2030年までに人口の60%が都市部に住むようになると推定されています。現在そして将来に必要な条件は...

「人工知能+教育」は教育の矛盾を解決するために、より包括的な方向に向かっている

「教育はデジタル化とネットワーク化からインテリジェンスへと変化しています。現在、人工知能はよりインテ...

AsiaInfoが中国聯通のネットワークAIフォーラムに参加し、自動運転ネットワークの革新研究拠点の設立を開始

9月24日、中国聯通の「ネットワークAIフォーラム」が北京で開催された。フォーラムは5GとAI技術の...

2020 年の AI チャットボット技術予測

2020 年に入り、さまざまな業界で人工知能技術の導入が進み続けています。この二次微分効果は、ビジネ...

顔認識技術の現状と今後の開発動向

顔認識は、一般的に肖像認識または顔認識とも呼ばれ、顔の特徴に基づいて人物を識別する生体認証技術です。...

...

...

レポート:中国の人工知能産業は2022年までに300億ドル近くの価値に達する

中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...

67トピック、11528の質問、新しい中国の大規模モデルマルチタスクベンチマークCMMLUがリリースされました

MBZUAI、上海交通大学、Microsoft Research Asia は協力して、包括的な中国...

C# データ構造のソートアルゴリズム

C# データ構造ソート アルゴリズム (バブル ソートを含む) では、Lao Zhao の Code...

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...

2022 年のビジネス インテリジェンス トレンド予測

調査では、テクノロジー主導の業界を推進する 2022 年までのビジネス インテリジェンスの主要なトレ...

未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

最近、ヘルシンキ大学の研究者らは、脳信号を監視することでコンピューターが視覚知覚をシミュレートできる...

Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。

Google といくつかの大学による最近の研究により、大規模なモデルが人間の「心」を持ち始めること...