「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。

香港科技大学とファーウェイ・ノアの箱舟研究所による最新の研究で、次のことが判明しました。

単に「有害な」データを避けて毒に毒で対抗するのではなく、大きなモデルに誤ったテキストを入力し、モデルにエラーの原因を分析して反映させる方がよいでしょう。これにより、モデルは「エラーがどこにあるか」を真に理解し、無意味な発言を避けることができます。

具体的には、研究者らは「間違いから学ぶ」という整合フレームワークを提案し、実験を通じて次のことを実証しました。

大規模モデルは、誤りから学習し、不整合モデルを修正する点で SFT および RLHF 方式を上回ります。また、整合モデルに対する高度な命令攻撃に対する防御にも利点があります

詳細を見てみましょう。

失敗から学ぶためのアラインメントフレームワーク

既存の大規模言語モデルのアライメント アルゴリズムは、主に 2 つのカテゴリに分けられます。

  • 教師あり微調整 (SFT)
  • 人間のフィードバックによる強化学習 (RLHF)

SFT メソッドは主に、モデルが「完璧な応答」を学習できるようにする目的で、手動で注釈が付けられた多数の質問と回答のペアに依存しています。しかし欠点は、このアプローチではモデルが「悪い応答」を認識することが難しく、一般化能力が制限される可能性があることです。

RLHF メソッドは、人間の注釈者による返信をランク付けしてスコア付けすることでモデルをトレーニングし、返信の相対的な品質を区別できるようにします。このモードでは、モデルは良い回答と悪い回答を区別する方法を学習しますが、良い回答と悪い回答の背後にある理由についてはほとんど知りません。

一般的に、これらのアライメント アルゴリズムは、モデルに「高品質の応答」を学習させることに重点を置いていますが、データ クリーニング プロセスにおける重要なリンク、つまり間違いから学習する点が欠けています。

人間のように、大規模モデルに間違いから学習させることは可能でしょうか? 言い換えれば、エラーを含むテキスト シーケンスの影響を受けずに、大規模モデルが間違いから学習できるアライメント方法を設計することは可能でしょうか?

△「エラーから学ぶ」という大規模言語モデルアライメントフレームワークには、(1)エラー誘導(2)プロンプトガイダンスに基づくエラー分析(3)ガイドなしのモデルの微調整(4)プロンプトガイダンスに基づく応答生成の4つのステップが含まれます。

これについては香港科技大学とファーウェイのノアズアーク研究所の研究チームが実験を行った。

Alpaca-7B、GPT-3、GPT-3.5 の 3 つのモデルの実験分析を通じて、興味深い結論に達しました。

これらのモデルでは、応答を生成するときにエラーを回避するよりも、誤った応答を識別する方が簡単な場合がよくあります

△差別は生成より簡単

さらに、この実験では、モデルに「応答にエラーがある可能性があります」と促すなど、適切なガイダンス情報を提供することで、エラーを識別するモデルの精度が大幅に向上することが明らかになりました。

これらの調査結果に基づいて、研究チームは、モデルのエラー識別能力を活用して生成能力を最適化する新しいアライメント フレームワークを設計しました。

アライメントプロセスは次のとおりです。

(1)誤解を招く

このステップの目的は、モデルにエラーを誘発し、モデルの弱点を発見して、その後のエラー分析と修正を実行できるようにすることです。

これらのエラーケースは、既存の注釈付きデータから発生する場合もあれば、モデルの実際の操作中にユーザーによって発見されたエラーである場合もあります。

調査では、図 2 (a) に示すように、モデルの指示に特定の誘導キーワード (「非倫理的」や「不快」など) を追加するなどの単純なレッド チーム攻撃誘導によって、モデルが大量の不適切な応答を生成することがよくあることがわかりました。

(2)迅速な指導に基づくエラー分析

エラーを含む十分な数の質問と回答のペアを収集した後、この方法は 2 番目のステップに入り、モデルがこれらの質問と回答のペアの詳細な分析を実行するようにガイドします。

具体的には、この研究では、これらの回答がなぜ不正確または非倫理的である可能性があるのか​​をモデルに説明させました。

下の図 (b) に示すように、「なぜこの答えが間違っている可能性があるのか​​」を尋ねるなど、明確な分析ガイダンスをモデルに提供することで、モデルは通常、合理的な説明を与えることができます。

(3)無誘導モデルの微調整

多数の誤った質問と回答のペアを収集し、それらを分析した後、このデータを使用してモデルをさらに微調整しました。エラーを含む質問と回答のペアに加えて、人間が注釈を付けた通常の質問と回答のペアもトレーニング データとして追加されます。

下の図(c)に示すように、このステップでは、研究では応答にエラーが含まれているかどうかについてモデルに直接的なヒントを与えませんでした。モデルが自ら考え、評価し、なぜ間違ったのか理解するように促すことが目的です。

(4)プロンプトガイドによる応答生成

推論段階では、ガイダンスベースの応答生成戦略が採用されており、モデルが「正しく、倫理的で、不快感を与えない」応答を生成するように明示的に促します。これにより、モデルが倫理基準に準拠し、誤ったテキスト シーケンスの影響を受けないようにすることができます。

つまり、推論プロセス中に、モデルは人間の価値観と一致する生成ガイダンスに基づいて条件付き生成を実行し、適切な出力を生成します。

△「間違いから学ぶ」大規模言語モデルアライメントフレームワークの指示例

上記のアライメント フレームワークでは、人間による注釈付けや外部モデル (報酬モデルなど) の参加は必要ありません。モデルは、独自のエラー識別能力を活用してエラーを分析し、生成能力を高めます。

このように、「間違いから学ぶ」ことで、ユーザーへの指示に潜むリスクを正確に特定し、合理的かつ正確な対応が可能になります。

実験結果

研究チームは、新しい方法の実際の効果を検証するために、2つの実際の応用シナリオで実験を実施しました。

シナリオ 1: アライメントのない大規模言語モデル

本研究では、Alpaca-7B モデルをベースラインとして、PKU-SafeRLHF データセットを実験に使用し、多重アライメント法による比較分析を実施しました。

実験結果を次の表に示します。

モデルの有用性を維持しながら、「間違いから学ぶ」アライメント アルゴリズムにより、安全合格率が SFT、COH、RLHF と比較して約10% 、元のモデルと比較して21.6%向上します。

同時に、この研究では、モデル自体によって生成されたエラーは、他のデータソースからの誤った質問と回答のペアよりも優れたアライメント効果を示していることがわかりました。

△ アライメントなしの大規模言語モデルの実験結果

シナリオ2: 整合モデルが新たな命令攻撃に直面する

研究チームはさらに、新たな命令攻撃パターンに対処するために整合モデルを強化する方法を検討しました。

ここで、本研究では ChatGLM-6B をベースライン モデルとして選択しました。 ChatGLM-6B は安全に調整されていますが、特定の命令攻撃に直面した場合、人間の価値観に適合しない出力を生成する可能性があります。

研究者らは「ターゲットハイジャック」攻撃モードを例にとり、この攻撃モードを含む 500 個のデータを使用して微調整実験を実施しました。下の表に示すように、「間違いから学ぶ」アライメント アルゴリズムは、新しい命令攻撃に対する強力な防御力を発揮します。新しい攻撃サンプル データが少量しかない場合でも、モデルは一般的な機能を維持し、新しい攻撃 (ターゲット ハイジャック) に対する防御力を 16.9% 向上させることができます。

また、この実験では、「失敗から学ぶ」戦略を通じて得られる防御能力は効果的であるだけでなく、汎用性も高く、同じ攻撃モードでさまざまなトピックに幅広く対処できることも証明されました。

△整列したモデルは新たな攻撃に抵抗する

論文リンク: https://arxiv.org/abs/2310.10477

<<:  インターネット ミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

>>:  ChatGPT Enterprise Edition は基本的に廃止されました。

ブログ    
ブログ    

推薦する

AIがワンクリックでタトゥーを除去し、数秒でスターの「素顔」を見ることができる

時には、他人のタトゥーを真似されないように隠す必要があることもあります。時々、人々は単に好奇心から、...

...

ハッカーがテスラの自動運転システムの「隠しモード」を解除

最近開催されたカオスコンピューティングカンファレンスで、ベルリン工科大学のサイバーセキュリティ研究者...

2022 AIOPS のトレンドと予測: 知っておくべきことすべて

人工知能、機械学習、自動化などの高度なテクノロジーの登場により、最先端のビジネスシナリオは大きな変化...

Unity Greater China プラットフォーム テクノロジー ディレクター Yang Dong: メタバースでのデジタル ヒューマンの旅の始まり

デジタルヒューマンは、メタバースコンテンツ構築の礎として、持続的に実装および開発できる最も初期の成熟...

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

2023年にはAI技術が話題となり、プログラミングを中心に多くの分野に影響を及ぼします。 Sprin...

...

AIのトップ研究者からのアドバイス:あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように!

人工知能の人気が高まってきており、人工知能分野でビジネスを始めたい人も増えてきています。しかし、人工...

メタバースにおける責任ある AI: なぜ優先されるべきなのか?

AI研究者は人類と未来を守るために、仮想世界で責任あるAIを開発しなければなりません。人工知能のア...

人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

人工知能は現在非常に人気の高い技術であり、世界中の国々が研究に資金と人材を投入しています。人工知能を...

2025年以降の人工知能の未来(パート2)

前回の記事では、2025年以降の人工知能の未来についてお話ししました(パート1)。今日は、5G、6G...

顔認識防止技術の登場により、顔をスキャンするのはまだ安全でしょうか?

現在、より成熟し、広く使用されているインテリジェント テクノロジーにはどのようなものがありますか? ...