トレーニングなしでリアルタイムに動的値のアライメントを実現：オープンソースの値アライメント手法OPOは、クローズドソースとオープンソースの両方の大規模モデルで利用可能

人工知能技術の発展により、GPT-4に代表される大規模言語モデルはその強力な機能で社会に大きな影響を与えています。同時に、大規模モデル自体のセキュリティも特に重要になります。大規模言語モデルが人間の価値観や真意と一致していることをどのように保証し、モデルが悪用されて有害な情報を出力するのを防ぐかが、大規模モデルのセキュリティガバナンスの核心的な課題です。これまでのほとんどのアライメント方法では、モデルを再トレーニングするために新しいデータを収集する必要がありました。しかし、トレーニングデータに求められる高い品質と、時間と労力を要するモデルパラメータの最適化は、アライメントの問題点でした。さらに、整列させるべき値は動的に変化する可能性があり、これにより大規模モデルにおける値の整列にさらなる課題が生じます。

これを踏まえ、上海交通大学の生成人工知能研究所（GAIR）は迅速に行動し、新しい価値調整手法であるOPO（オンザフライ選好最適化）を立ち上げました。 OPO はトレーニングなしでリアルタイムの動的アライメントを実現でき、プラグアンドプレイの性質上、すべてのオープンソースおよびクローズドソースの大規模モデルに適用できます。 OPO を通じて、研究者は大規模なモデルを法的および倫理的基準に適合させることに成功し、OPO のダイナミクスと優位性を実証しました。

これまでの研究におけるアライメント方法（SFT、PPO、DPO）と比較して、OPO 方法には次の利点があります。

価値観の一致を達成するのにトレーニングは必要ありません。
報酬モデルを放棄し、オープンソースおよびクローズドソースの大規模モデルを含むあらゆる大規模モデルに適用します。
整列する値を簡単に更新できます。値は時間の経過とともに変化する可能性がある（法律など）ことを考慮すると、OPO では対応する基準を置き換えることで値をすばやく簡単に更新できますが、他のアライメント方法ではデータの収集とモデルの再トレーニングが必要になります。

表 1: OPO と SFT、PPO、DPO などの他のアライメント方法の比較。

現在、このプロジェクトでは、以下を含む多くのリソースをオープンソース化しています。

OPO コード（使用方法とテストプロセスは GitHub でも公開されています）
人間が作成した法律試験問題、「道徳と法の支配」試験問題（道徳関連の問題のみ保持）、NormBank データのテストセットからランダムにサンプリングされた問題、大規模モデルを使用して自動生成された法律問題と職業倫理問題を含む 5 種類のテストデータセット。
価値基準には、法的基準と道徳的基準という 2 つの主要なカテゴリがあります。法典には、2023年7月現在中国で施行されているすべての法律と規制（約95万条）が含まれています。倫理基準：①中学校の教科書「道徳と法の支配」から収集した基本的な倫理基準、②インターネット上のさまざまな企業/業界から収集した職業倫理基準、③NormBankトレーニングセットデータからランダムに抽出した社会的倫理規則。
テストデータを自動的に生成するためのプロンプトと、生成されたテストデータの品質を評価するためのプロンプト。
OpenAI 埋め込みモデルを使用して抽出された法的および倫理的コードテキストに対応するベクトル。

論文: 即座の調整: チャットボットの動作を確立された規範に適応させる
論文アドレス: https://arxiv.org/abs/2312.15907
プロジェクトアドレス: https://gair-nlp.github.io/OPO/
コードアドレス: https://github.com/GAIR-NLP/OPO

方法

OPO フレームワークは、基準構築モジュール、調整モジュール、評価モジュールの 3 つの部分で構成されます。

図1: OPOフレームワーク。

ガイドラインの構成要素:

元のコード文書を収集し、テキストデータをクリーンアップし、コードの形式を統一して、それぞれ法コードコーパスと道徳コードコーパスを取得します。具体的には、法規範については、国家法令データベースから憲法、行政規則、地方条例などの法令を収集し、国家規則データベースから部門規則や地方自治体規則を収集した。これら 2 つのデータベースには、現在中国で施行されているすべての法律が網羅されています。倫理規定については、中学教科書『道徳と法の支配』から法の支配の内容を除いた文章を倫理規定の基本として収集し、インターネットから57の異なる企業・業界の職業倫理規定を収集した。研究者は、明示的な道徳原則を収集することに加えて、人間がラベル付けした道徳データから道徳原則を抽出しようともします。 NormBank トレーニングセットから 1,000 個のデータがランダムに選択されました。各データは構造化された社会的道徳シナリオでした。研究者は ChatGPT を使用して、各データから社会的道徳規範を抽出しました。

表 2: 収集された倫理規範と法律規範の分析。

表3: 収集された法規範、基本倫理規範、職業倫理規範、社会倫理規範の例。

アライメントモジュール:

アライメントモジュールは、検索拡張生成 (RAG) に基づいており、対応するガイドラインを提供することでガイドラインに準拠しながら、大規模なモデルがユーザーの質問に適切に回答できるようにガイドすることを目的としています。研究者らは、OpenAI の text-embedding-ada-002 埋め込みモデルを使用して、各基準を密なベクトルとして表現し、ベクトルライブラリに保存しました。質問が与えられると、クエリは最初に密なベクトルに変換され、次に Faiss がリトリーバーとして使用され、ベクトルライブラリ内の最も関連性の高い k 個の基準が取得されます。次に、大規模モデルは、取得された基準を行動規範として使用して、設計されたプロンプトを通じてクエリに回答します。

図 2: 取得した情報を使用してクエリに回答するプロンプト。

評価モジュール:

評価モジュールは、評価範囲の拡大、評価データの量の増加、テストデータ漏洩の問題の軽減などを容易に実現できる、汎用的で拡張可能な自動質問生成ツールです。大規模モデルでは、事前トレーニングと教師あり微調整の段階で、通常、大量の非公開テキストが使用されます。これまでの研究では、これによってテストデータの漏洩の問題が発生し、大規模モデルのパフォーマンス比較の公平性に影響を及ぼす可能性があることが示されています。さらに、研究者は、人々が作成した法律試験問題は、法律のごく一部しかカバーしていないことに気づきました。多くの法律、特に地方法論はカバーされておらず、これらの法律に対応する試験問題を集めるのは困難です。さらに、職業倫理は道徳の重要な要素ですが、現在のところ、それに相当するテスト基準が存在しません。上記の問題を解決するために、研究者らは、GPT-4 を使用して回答付きの複数選択問題を自動的に生成する評価モジュールを提案しました。評価モジュールは 3 つのステップで構成されています。

1. 自動質問生成：人間が生成した多肢選択式の質問を収集し、ランダムに質問をシード質問として選択します。同時に、収集した基準ライブラリから基準をランダムに選択し、GPT-4 にシード質問を参照して、基準と質問生成要件に基づいてタイトル、代替オプション、オプション分析、回答を含む合理的な多肢選択式の質問を生成するように要求します。

2. 質問の品質を自動的にチェックする: 最初のステップで生成された基準と質問を GPT-4 に入力し、複数選択問題の 4 つの部分 (質問、選択肢、オプション分析、回答) を順番にチェックし、要件を満たさない質問の部分を除外します。

3. 質問の品質を手動で確認する: 研究者は、GPT-4 を使用しても、品質の低い自動生成された質問をすべて削除することはできないことを発見しました。評価の信頼性を確保するため、研究者は 3 人の人間の注釈者を招き、第 2 段階で残された質問をさらに精査してもらいました。 2 人以上の注釈者が質問を不合理だと思ったら、その質問を削除します。

実験と結果

OPO の有効性を検証するために、研究者らは人間が注釈を付けた 3 つのテストベンチマークと、モデルによって自動的に生成された 2 つのテストベンチマークを構築しました。これらのベンチマークは、法的および倫理的という 2 つの主要カテゴリをカバーしており、中国語と英語の両方のベンチマークが含まれています。テストベンチマーク内の各データは、複数選択の質問です。

表 4: テストベンチマークの分析。

H-Law および A-Law テストベンチマークでは、OPO によってほとんどのモデルの精度が大幅に向上します。特に、OPO は、A-Law テストベンチマークの多くの大規模モデルで 10 パーセントポイントの精度向上をもたらします。たとえば、OPO 最適化後、GPT-4 の精度は 84.83% から 94.65% に向上しました。さらに、OPOを適用した後の国内大型モデルQwen-Chat-14BとXuanYuan-70Bのパフォーマンスは、GPT-4に匹敵するだけでなく、わずかに優れています。

表 5: H-Law および A-Law の各大規模モデルの元の精度 (Base)、OPO を適用した後の精度 (OPO)、および OPO から取得した基準を質問の生成に使用した基準に置き換えた後の精度 (Oracle)。は、Base と比較した OPO の絶対的な改善を表し、 Base と比較した Oracle の絶対的な改善を表します。

同様の現象は、H-Basic-Morality、H-Social-Morality、A-Professional-Morality という 3 つの道徳テストベンチマークでも観察されます。 OPO は、A-Professional-Morality のすべてのモデルのパフォーマンスを向上させ、H-Basic-Morality と H-Social-Morality のほとんどのモデルのスコアを向上させることができます。

表 6: H-Basic-Morality、H-Social-Morality、A-Professional-Morality の各大規模モデルの元の精度 (Base)、OPO を適用した後の精度 (OPO)、および OPO から取得した基準を複数選択問題の生成に使用した基準に置き換えた後の精度 (Oracle)。は、Base と比較した OPO の絶対的な改善を表し、Base と比較した Oracle の絶対的な改善を表します。

同時に、研究者らは、異なる取得長さが OPO 法に与える影響についても調査しました。取得されたテキストの最大長は、それぞれ 200、500、1000、1500、2000 に設定されました。ほとんどのモデルは、さまざまなテストベンチマークで同様の傾向を示しました。取得長が長くなると、モデルのパフォーマンスは最初は向上し、その後低下しました。考えられる理由は、短いテキストは有用な情報を提供する一方、長い検索コンテンツはノイズを生み出すためです。

図 3: 取得長の変更が H 法則ベンチマークにおける OPO パフォーマンスに与える影響。

図 4: A-law ベンチマークにおける検索長の変更による OPO パフォーマンスへの影響。

図 5: H-Basic-Morality ベンチマークにおける検索長の変更による OPO パフォーマンスへの影響。

図 6: 検索長の変更が H-Social-Morality ベンチマークにおける OPO パフォーマンスに与える影響。

図 7: 検索長の変更が A-Professional-morality ベンチマークにおける OPO パフォーマンスに与える影響。

要約する

要約すると、GAIR 研究チームは、オープンソースモデルとクローズドソースモデルの両方に適用できる、トレーニングなしで値のリアルタイムの動的調整を実現する方法 OPO を提案しました。同時に、テストデータの漏洩の問題を軽減し、テストデータの量と範囲を拡大するために、研究者らは基準に基づいてテスト問題を自動的に生成する拡張可能な評価モジュールを導入しました。実験では、OPO が 5 つのテストベンチマークでさまざまな大規模モデルのパフォーマンスを大幅に向上できることが示されています。さらに、収集されたすべての法的および倫理的ガイドラインと、5 つのテストベンチマークで使用されたすべてのデータが公開されます。

<<:

>>: MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張