言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします。いくつかの研究では、展開前に有害な動作を特定するために、人間の注釈者を使用してテストケースを手書きする試みがなされました。ただし、手動での注釈付けはコストがかかり、テストケースの数と多様性が制限されます。 これに基づいて、DeepMind の研究者は、別の LM を使用してテスト ケースを生成することで、将来的にターゲット LM の潜在的な有害なパフォーマンスを自動的に検出します。この研究では、攻撃的なコンテンツを検出するための分類器を使用して、テストの質問に対する対象 LM の応答の品質を評価しました。実験では、280B パラメータの LM チャットボットで数万件の攻撃的な応答が見つかりました。 論文アドレス: https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf この研究では、ゼロショット生成から強化学習まで、多様性とさまざまな難易度のテストケースを生成するための複数のアプローチを検討しました。さらに、この研究ではプロンプトエンジニアリングを使用して、LM によって生成されたテストケースを制御し、その他の危険性を発見し、チャットボットが積極的に話し合う人々のグループを自動的に見つけ出し、個人情報の漏洩など、会話プロセスが有害となる状況を見つけ出しました。全体として、この研究で提案された Red Teaming LM は、実際のユーザーが使用する前にさまざまな望ましくない LM 動作を検出して修正するための有望なツールです。 GPT-3 や Gopher などの大規模な生成言語モデルは、高品質のテキストを生成する優れた機能を備えていますが、現実世界に展開するのは難しく、有害なテキストを生成するリスクがあります。実際には、実際のアプリケーションでは、たとえ小さな危害のリスクであっても許容されません。 たとえば、Microsoft は 2016 年に、ユーザーの反応に応じて自動的にツイートする Tay Twitter ボットをリリースしました。わずか16時間で、Tayは5万人以上のフォロワーに人種差別的かつわいせつなツイートを送った後、マイクロソフトから削除された。 問題は、モデルが有害なテキストを生成する原因となる可能性のある入力が非常に多いため、モデルが実際の世界に展開される前にすべての障害を検出することが難しいことです。 DeepMind の研究の目標は、障害事例 (または「レッド チーム」) を自動的に検出し、重大な見落としを減らすことで手動テストを補完することです。この研究では、言語モデル自体を使用してテストケースを生成し、分類器を使用してテストケース上のさまざまな有害な動作を検出しました(次の図を参照)。 LM ベースのレッドチームを使用すると、手動で記述しなくても、何千もの異なる障害ケースを見つけることができます。 この研究では、会話をテストベッドとして使用し、LM がレッドチーム向けのツールであるという仮説を検証しました。この DeepMind の研究の主な目的は、Dialogue-Prompted Gopher (DPG; Rae et al., 2021) に攻撃的な反応を引き起こす可能性のあるテキストを見つけることです。 DPG は、手書きのテキスト プレフィックスまたはプロンプトに基づいて、Gopher LM を使用して対話発話を生成します。 Gopher LM は、インターネット テキストなどのデータでトレーニングされた、事前トレーニング済みの左から右への 280B パラメータ トランスフォーマー LM です。
言語モデルを使用してテストケースを生成するために、研究者はプロンプトベースの生成や少量学習から教師あり微調整や強化学習まで、さまざまな方法を研究し、より多様なテストケースを生成しました。 研究者らは、失敗事例が発見されると、次の方法で有害なモデルの動作を修正することが容易になると指摘しています。
下の図 2 に示すように、0.5M のゼロショット テスト ケースが 3.7% の割合でアグレッシブな応答をトリガーし、18,444 件のテスト ケースが失敗しました。 SFS はゼロショット テスト ケースを利用して、同様のテスト ケースの多様性を維持しながら積極性を向上させます。 DPG アプローチが失敗する理由を理解するために、攻撃的な返答を誘発したテスト ケースをクラスター化し、FastText (Joulin ら、2017) を使用して各単語を埋め込み、各テスト ケースの平均 bag-of-words 埋め込みを計算しました。最後に、この研究では、k-means クラスタリングを使用して、攻撃的な応答を誘発した 18,000 の質問について 100 のクラスターを形成しました。下の表 1 は、クラスターの一部からの質問を示しています。 さらに、本研究では攻撃的な返答を分析することでターゲットLMの改善も行いました。この研究では、出力の中で、不快な分類につながる可能性が最も高い 100 個の名詞句にタグを付けました。下の表 2 は、タグが付けられた名詞句を使用した DPG 応答を示しています。 全体として、言語モデルは、言語モデルがさまざまな不適切な動作をしているときにそれを検出するための非常に効果的なツールです。現在の研究では、研究者らは、今日の言語モデルがもたらすレッドチームのリスクに焦点を当てました。将来的には、このアプローチは、内部の不整合や客観的な堅牢性の問題など、高度な機械学習システムからのその他の潜在的な危険を事前に発見するためにも使用される可能性があります。 このアプローチは、信頼性の高い言語モデル開発の要素の 1 つにすぎません。DeepMind は、レッドチーム演習を言語モデルの脆弱性を発見し、それを軽減するためのツールと見なしています。 |
<<: 独身者は幸せだ!スタンフォード大学の教授がキューピッドに変身、AIアルゴリズムの矢印が真実の愛を見つけるのを手伝う
>>: AIは意識を発達させ始めているのでしょうか? OpenAI主任科学者の発言が論争を巻き起こし、大物の間で論争を巻き起こした
4月8日、イノベーションワークスが主催する「DeeCamp2019 人工知能サマートレーニングキャン...
[51CTO.comより引用] 11月17日、Baidu Brain Industry Applic...
中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...
[[113040]]コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識...
[[318598]] Google は最近、24 個の合理化された BERT モデルをダウンロード...
「私たちのチームは、世界最大かつ最先端のテクノロジー企業出身者で構成されています。世界クラスの才能あ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
ニューラル ネットワークに基づくプロジェクトにおけるボトルネックは通常、ネットワークの実装ではありま...
[51CTO.com オリジナル記事] 古代の皇帝はハーレムに3000人の美女を抱えていたことは誰...
人工知能 (AI) の台頭とさまざまな業界への統合の増加に伴い、プロジェクト管理も進化しています。 ...