人工知能技術の発展により、GPT-4に代表される大規模言語モデルはその強力な機能で社会に大きな影響を与えています。同時に、大規模モデル自体のセキュリティも特に重要になります。大規模言語モデルが人間の価値観や真意と一致していることをどのように保証し、モデルが悪用されて有害な情報を出力するのを防ぐかが、大規模モデルのセキュリティガバナンスの核心的な課題です。これまでのほとんどのアライメント方法では、モデルを再トレーニングするために新しいデータを収集する必要がありました。しかし、トレーニング データに求められる高い品質と、時間と労力を要するモデル パラメータの最適化は、アライメントの問題点でした。さらに、整列させるべき値は動的に変化する可能性があり、これにより大規模モデルにおける値の整列にさらなる課題が生じます。 これを踏まえ、上海交通大学の生成人工知能研究所(GAIR)は迅速に行動し、新しい価値調整手法であるOPO(オンザフライ選好最適化)を立ち上げました。 OPO はトレーニングなしでリアルタイムの動的アライメントを実現でき、プラグアンドプレイの性質上、すべてのオープンソースおよびクローズドソースの大規模モデルに適用できます。 OPO を通じて、研究者は大規模なモデルを法的および倫理的基準に適合させることに成功し、OPO のダイナミクスと優位性を実証しました。 これまでの研究におけるアライメント方法(SFT、PPO、DPO)と比較して、OPO 方法には次の利点があります。
表 1: OPO と SFT、PPO、DPO などの他のアライメント方法の比較。 現在、このプロジェクトでは、以下を含む多くのリソースをオープンソース化しています。
方法 OPO フレームワークは、基準構築モジュール、調整モジュール、評価モジュールの 3 つの部分で構成されます。 図1: OPOフレームワーク。 ガイドラインの構成要素: 元のコード文書を収集し、テキストデータをクリーンアップし、コードの形式を統一して、それぞれ法コードコーパスと道徳コードコーパスを取得します。具体的には、法規範については、国家法令データベースから憲法、行政規則、地方条例などの法令を収集し、国家規則データベースから部門規則や地方自治体規則を収集した。これら 2 つのデータベースには、現在中国で施行されているすべての法律が網羅されています。倫理規定については、中学教科書『道徳と法の支配』から法の支配の内容を除いた文章を倫理規定の基本として収集し、インターネットから57の異なる企業・業界の職業倫理規定を収集した。研究者は、明示的な道徳原則を収集することに加えて、人間がラベル付けした道徳データから道徳原則を抽出しようともします。 NormBank トレーニング セットから 1,000 個のデータがランダムに選択されました。各データは構造化された社会的道徳シナリオでした。研究者は ChatGPT を使用して、各データから社会的道徳規範を抽出しました。 表 2: 収集された倫理規範と法律規範の分析。 表3: 収集された法規範、基本倫理規範、職業倫理規範、社会倫理規範の例。 アライメントモジュール: アライメント モジュールは、検索拡張生成 (RAG) に基づいており、対応するガイドラインを提供することでガイドラインに準拠しながら、大規模なモデルがユーザーの質問に適切に回答できるようにガイドすることを目的としています。研究者らは、OpenAI の text-embedding-ada-002 埋め込みモデルを使用して、各基準を密なベクトルとして表現し、ベクトル ライブラリに保存しました。質問が与えられると、クエリは最初に密なベクトルに変換され、次に Faiss がリトリーバーとして使用され、ベクトル ライブラリ内の最も関連性の高い k 個の基準が取得されます。次に、大規模モデルは、取得された基準を行動規範として使用して、設計されたプロンプトを通じてクエリに回答します。 図 2: 取得した情報を使用してクエリに回答するプロンプト。 評価モジュール: 評価モジュールは、評価範囲の拡大、評価データの量の増加、テストデータ漏洩の問題の軽減などを容易に実現できる、汎用的で拡張可能な自動質問生成ツールです。大規模モデルでは、事前トレーニングと教師あり微調整の段階で、通常、大量の非公開テキストが使用されます。これまでの研究では、これによってテストデータの漏洩の問題が発生し、大規模モデルのパフォーマンス比較の公平性に影響を及ぼす可能性があることが示されています。さらに、研究者は、人々が作成した法律試験問題は、法律のごく一部しかカバーしていないことに気づきました。多くの法律、特に地方法論はカバーされておらず、これらの法律に対応する試験問題を集めるのは困難です。さらに、職業倫理は道徳の重要な要素ですが、現在のところ、それに相当するテスト基準が存在しません。上記の問題を解決するために、研究者らは、GPT-4 を使用して回答付きの複数選択問題を自動的に生成する評価モジュールを提案しました。評価モジュールは 3 つのステップで構成されています。 1. 自動質問生成:人間が生成した多肢選択式の質問を収集し、ランダムに質問をシード質問として選択します。同時に、収集した基準ライブラリから基準をランダムに選択し、GPT-4 にシード質問を参照して、基準と質問生成要件に基づいてタイトル、代替オプション、オプション分析、回答を含む合理的な多肢選択式の質問を生成するように要求します。 2. 質問の品質を自動的にチェックする: 最初のステップで生成された基準と質問を GPT-4 に入力し、複数選択問題の 4 つの部分 (質問、選択肢、オプション分析、回答) を順番にチェックし、要件を満たさない質問の部分を除外します。 3. 質問の品質を手動で確認する: 研究者は、GPT-4 を使用しても、品質の低い自動生成された質問をすべて削除することはできないことを発見しました。評価の信頼性を確保するため、研究者は 3 人の人間の注釈者を招き、第 2 段階で残された質問をさらに精査してもらいました。 2 人以上の注釈者が質問を不合理だと思ったら、その質問を削除します。 実験と結果OPO の有効性を検証するために、研究者らは人間が注釈を付けた 3 つのテスト ベンチマークと、モデルによって自動的に生成された 2 つのテスト ベンチマークを構築しました。これらのベンチマークは、法的および倫理的という 2 つの主要カテゴリをカバーしており、中国語と英語の両方のベンチマークが含まれています。テスト ベンチマーク内の各データは、複数選択の質問です。 表 4: テスト ベンチマークの分析。 H-Law および A-Law テスト ベンチマークでは、OPO によってほとんどのモデルの精度が大幅に向上します。特に、OPO は、A-Law テスト ベンチマークの多くの大規模モデルで 10 パーセント ポイントの精度向上をもたらします。たとえば、OPO 最適化後、GPT-4 の精度は 84.83% から 94.65% に向上しました。さらに、OPOを適用した後の国内大型モデルQwen-Chat-14BとXuanYuan-70Bのパフォーマンスは、GPT-4に匹敵するだけでなく、わずかに優れています。 表 5: H-Law および A-Law の各大規模モデルの元の精度 (Base)、OPO を適用した後の精度 (OPO)、および OPO から取得した基準を質問の生成に使用した基準に置き換えた後の精度 (Oracle)。は、Base と比較した OPO の絶対的な改善を表し、 Base と比較した Oracle の絶対的な改善を表します。 同様の現象は、H-Basic-Morality、H-Social-Morality、A-Professional-Morality という 3 つの道徳テストベンチマークでも観察されます。 OPO は、A-Professional-Morality のすべてのモデルのパフォーマンスを向上させ、H-Basic-Morality と H-Social-Morality のほとんどのモデルのスコアを向上させることができます。 表 6: H-Basic-Morality、H-Social-Morality、A-Professional-Morality の各大規模モデルの元の精度 (Base)、OPO を適用した後の精度 (OPO)、および OPO から取得した基準を複数選択問題の生成に使用した基準に置き換えた後の精度 (Oracle)。 は、Base と比較した OPO の絶対的な改善を表し、Base と比較した Oracle の絶対的な改善を表します。 同時に、研究者らは、異なる取得長さが OPO 法に与える影響についても調査しました。取得されたテキストの最大長は、それぞれ 200、500、1000、1500、2000 に設定されました。ほとんどのモデルは、さまざまなテスト ベンチマークで同様の傾向を示しました。取得長が長くなると、モデルのパフォーマンスは最初は向上し、その後低下しました。考えられる理由は、短いテキストは有用な情報を提供する一方、長い検索コンテンツはノイズを生み出すためです。 図 3: 取得長の変更が H 法則ベンチマークにおける OPO パフォーマンスに与える影響。 図 4: A-law ベンチマークにおける検索長の変更による OPO パフォーマンスへの影響。 図 5: H-Basic-Morality ベンチマークにおける検索長の変更による OPO パフォーマンスへの影響。 図 6: 検索長の変更が H-Social-Morality ベンチマークにおける OPO パフォーマンスに与える影響。 図 7: 検索長の変更が A-Professional-morality ベンチマークにおける OPO パフォーマンスに与える影響。 要約する要約すると、GAIR 研究チームは、オープンソース モデルとクローズド ソース モデルの両方に適用できる、トレーニングなしで値のリアルタイムの動的調整を実現する方法 OPO を提案しました。同時に、テストデータの漏洩の問題を軽減し、テストデータの量と範囲を拡大するために、研究者らは基準に基づいてテスト問題を自動的に生成する拡張可能な評価モジュールを導入しました。実験では、OPO が 5 つのテスト ベンチマークでさまざまな大規模モデルのパフォーマンスを大幅に向上できることが示されています。さらに、収集されたすべての法的および倫理的ガイドラインと、5 つのテスト ベンチマークで使用されたすべてのデータが公開されます。 |
>>: MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張
Mac ユーザーは、ついに、RTX を使用した独自の大型モデル チャットを持つ N カード プレーヤ...
国内企業の大物たちが次々と退職し、大学へ移ったり、起業したりしている。違うのは、量子コンピューティン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「タイムレイダース」を覚えていますか? 1つは1999年、もう1つは2018年のもので、わずか19年...
今後20年間で、人工知能やロボット、ドローン、自動運転車などの関連技術により、中国での雇用は約12%...
ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...
EmTech MIT では、専門家が、生成 AI モデルのオープンソース化の長所と短所を含め、企業で...
この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...
人工知能や機械学習などの自動化および機械技術の驚異的な成長は、間違いなく組織にまったく新しいレベルの...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
複雑な電子相互作用の大規模シミュレーションは、原子モデル化における最大の課題の 1 つです。古典的な...
知乎のホットな投稿によると、中国のトップAI研究者でUCLA教授の朱松春氏が清華大学オートメーション...
GPT-4 のリリースから半年も経たないうちに、GPT-5 がもうすぐ登場するのでしょうか?最近、...
[[280913]] Jiwei.comニュース(文/Jimmy)によると、北京軌道交通指揮センター...