「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。

香港科技大学とファーウェイ・ノアの箱舟研究所による最新の研究で、次のことが判明しました。

単に「有害な」データを避けて毒に毒で対抗するのではなく、大きなモデルに誤ったテキストを入力し、モデルにエラーの原因を分析して反映させる方がよいでしょう。これにより、モデルは「エラーがどこにあるか」を真に理解し、無意味な発言を避けることができます。

具体的には、研究者らは「間違いから学ぶ」という整合フレームワークを提案し、実験を通じて次のことを実証しました。

大規模モデルは、誤りから学習し、不整合モデルを修正する点で SFT および RLHF 方式を上回ります。また、整合モデルに対する高度な命令攻撃に対する防御にも利点があります。

詳細を見てみましょう。

失敗から学ぶためのアラインメントフレームワーク

既存の大規模言語モデルのアライメントアルゴリズムは、主に 2 つのカテゴリに分けられます。

教師あり微調整 (SFT)
人間のフィードバックによる強化学習 (RLHF)

SFT メソッドは主に、モデルが「完璧な応答」を学習できるようにする目的で、手動で注釈が付けられた多数の質問と回答のペアに依存しています。しかし欠点は、このアプローチではモデルが「悪い応答」を認識することが難しく、一般化能力が制限される可能性があることです。

RLHF メソッドは、人間の注釈者による返信をランク付けしてスコア付けすることでモデルをトレーニングし、返信の相対的な品質を区別できるようにします。このモードでは、モデルは良い回答と悪い回答を区別する方法を学習しますが、良い回答と悪い回答の背後にある理由についてはほとんど知りません。

一般的に、これらのアライメントアルゴリズムは、モデルに「高品質の応答」を学習させることに重点を置いていますが、データクリーニングプロセスにおける重要なリンク、つまり間違いから学習する点が欠けています。

人間のように、大規模モデルに間違いから学習させることは可能でしょうか? 言い換えれば、エラーを含むテキストシーケンスの影響を受けずに、大規模モデルが間違いから学習できるアライメント方法を設計することは可能でしょうか?

△「エラーから学ぶ」という大規模言語モデルアライメントフレームワークには、（1）エラー誘導（2）プロンプトガイダンスに基づくエラー分析（3）ガイドなしのモデルの微調整（4）プロンプトガイダンスに基づく応答生成の4つのステップが含まれます。

これについては香港科技大学とファーウェイのノアズアーク研究所の研究チームが実験を行った。

Alpaca-7B、GPT-3、GPT-3.5 の 3 つのモデルの実験分析を通じて、興味深い結論に達しました。

これらのモデルでは、応答を生成するときにエラーを回避するよりも、誤った応答を識別する方が簡単な場合がよくあります。

△差別は生成より簡単

さらに、この実験では、モデルに「応答にエラーがある可能性があります」と促すなど、適切なガイダンス情報を提供することで、エラーを識別するモデルの精度が大幅に向上することが明らかになりました。

これらの調査結果に基づいて、研究チームは、モデルのエラー識別能力を活用して生成能力を最適化する新しいアライメントフレームワークを設計しました。

アライメントプロセスは次のとおりです。

（１）誤解を招く

このステップの目的は、モデルにエラーを誘発し、モデルの弱点を発見して、その後のエラー分析と修正を実行できるようにすることです。

これらのエラーケースは、既存の注釈付きデータから発生する場合もあれば、モデルの実際の操作中にユーザーによって発見されたエラーである場合もあります。

調査では、図 2 (a) に示すように、モデルの指示に特定の誘導キーワード (「非倫理的」や「不快」など) を追加するなどの単純なレッドチーム攻撃誘導によって、モデルが大量の不適切な応答を生成することがよくあることがわかりました。

（２）迅速な指導に基づくエラー分析

エラーを含む十分な数の質問と回答のペアを収集した後、この方法は 2 番目のステップに入り、モデルがこれらの質問と回答のペアの詳細な分析を実行するようにガイドします。

具体的には、この研究では、これらの回答がなぜ不正確または非倫理的である可能性があるのかをモデルに説明させました。

下の図 (b) に示すように、「なぜこの答えが間違っている可能性があるのか」を尋ねるなど、明確な分析ガイダンスをモデルに提供することで、モデルは通常、合理的な説明を与えることができます。

（３）無誘導モデルの微調整

多数の誤った質問と回答のペアを収集し、それらを分析した後、このデータを使用してモデルをさらに微調整しました。エラーを含む質問と回答のペアに加えて、人間が注釈を付けた通常の質問と回答のペアもトレーニングデータとして追加されます。

下の図(c)に示すように、このステップでは、研究では応答にエラーが含まれているかどうかについてモデルに直接的なヒントを与えませんでした。モデルが自ら考え、評価し、なぜ間違ったのか理解するように促すことが目的です。

（４）プロンプトガイドによる応答生成

推論段階では、ガイダンスベースの応答生成戦略が採用されており、モデルが「正しく、倫理的で、不快感を与えない」応答を生成するように明示的に促します。これにより、モデルが倫理基準に準拠し、誤ったテキストシーケンスの影響を受けないようにすることができます。

つまり、推論プロセス中に、モデルは人間の価値観と一致する生成ガイダンスに基づいて条件付き生成を実行し、適切な出力を生成します。

△「間違いから学ぶ」大規模言語モデルアライメントフレームワークの指示例

上記のアライメントフレームワークでは、人間による注釈付けや外部モデル (報酬モデルなど) の参加は必要ありません。モデルは、独自のエラー識別能力を活用してエラーを分析し、生成能力を高めます。

このように、「間違いから学ぶ」ことで、ユーザーへの指示に潜むリスクを正確に特定し、合理的かつ正確な対応が可能になります。

実験結果

研究チームは、新しい方法の実際の効果を検証するために、2つの実際の応用シナリオで実験を実施しました。

シナリオ 1: アライメントのない大規模言語モデル

本研究では、Alpaca-7B モデルをベースラインとして、PKU-SafeRLHF データセットを実験に使用し、多重アライメント法による比較分析を実施しました。

実験結果を次の表に示します。

モデルの有用性を維持しながら、「間違いから学ぶ」アライメントアルゴリズムにより、安全合格率が SFT、COH、RLHF と比較して約10% 、元のモデルと比較して21.6%向上します。

同時に、この研究では、モデル自体によって生成されたエラーは、他のデータソースからの誤った質問と回答のペアよりも優れたアライメント効果を示していることがわかりました。

△ アライメントなしの大規模言語モデルの実験結果

シナリオ2: 整合モデルが新たな命令攻撃に直面する

研究チームはさらに、新たな命令攻撃パターンに対処するために整合モデルを強化する方法を検討しました。

ここで、本研究では ChatGLM-6B をベースラインモデルとして選択しました。 ChatGLM-6B は安全に調整されていますが、特定の命令攻撃に直面した場合、人間の価値観に適合しない出力を生成する可能性があります。

研究者らは「ターゲットハイジャック」攻撃モードを例にとり、この攻撃モードを含む 500 個のデータを使用して微調整実験を実施しました。下の表に示すように、「間違いから学ぶ」アライメントアルゴリズムは、新しい命令攻撃に対する強力な防御力を発揮します。新しい攻撃サンプルデータが少量しかない場合でも、モデルは一般的な機能を維持し、新しい攻撃 (ターゲットハイジャック) に対する防御力を 16.9% 向上させることができます。

また、この実験では、「失敗から学ぶ」戦略を通じて得られる防御能力は効果的であるだけでなく、汎用性も高く、同じ攻撃モードでさまざまなトピックに幅広く対処できることも証明されました。

△整列したモデルは新たな攻撃に抵抗する

論文リンク: https://arxiv.org/abs/2310.10477

<<: インターネットミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

>>: ChatGPT Enterprise Edition は基本的に廃止されました。