大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿ったものにすることが特に重要になります。 人間のフィードバックに基づく強化学習 (RLHF) は、言語モデルの調整において非常に優れた結果を達成しており、事前トレーニング済みモデルに無害性や有用性などの理想的な品質を持たせることができ、複数の自然言語処理タスクで最先端の結果を達成しています。 しかし、RLHF は人間が提供する注釈結果に大きく依存しています。高品質のデータを取得するためのコストは高額で時間がかかりすぎるため、小規模な研究チームではトレーニング費用を負担できない可能性があります。 RLAIF(AIフィードバックに基づく強化学習)やコンテキスト蒸留など、手動ラベル付けを必要としない他のアライメント方法は、主にプリセットされたプロンプトテンプレートと既存のモデルを使用してトレーニングデータを自動的に生成し、言語モデルのアライメントで非常に優れた結果を達成しています。 最近、カリフォルニア大学バークレー校、Meta AI、カリフォルニア大学ロサンゼルス校の研究者らが共同で、RLAIF とコンテキスト蒸留の利点を組み合わせ、対照的な肯定的および否定的な手がかりを使用して生成された高品質および低品質の例を含む「シミュレートされた嗜好データ ペア」を使用して嗜好モデルをトレーニングする新しいテクノロジ、RLCD (コントラスト蒸留からの強化学習) を提案しました。 論文リンク: https://arxiv.org/pdf/2307.12950.pdf 7B および 30B スケールの実験結果から、RLCD は、3 つの異なるアライメント タスク (無害性、有用性、ストーリー アウトライン生成) において RLAIF およびコンテキスト蒸留ベースラインよりも優れていることがわかりました。 Constitutional AI と比較すると、RLCD は人間と GPT-4 の両方の評価で優れたパフォーマンスを発揮し、特に小規模モデル (7B サイズ) では無害性、有用性、ストーリーの要約において優れたパフォーマンスを発揮します。 田元東博士は、Meta Artificial Intelligence Research Institute の研究者兼研究マネージャーであり、囲碁 AI プロジェクトの責任者です。彼の研究対象には、深層強化学習とゲームにおけるその応用、および深層学習モデルの理論的分析が含まれます。彼は2005年に上海交通大学で学士号、2008年に修士号を取得し、2013年にカーネギーメロン大学ロボット研究所で博士号を取得しました。 彼は、2013 年の国際コンピュータ ビジョン会議 (ICCV) の Marr Prize Honorable Mentions および ICML2021 Outstanding Paper Honorable Mention Award にノミネートされました。 博士号を取得後、研究方向の選択、読書の蓄積、時間管理、勤務態度、収入、持続可能なキャリア開発の側面から博士課程での経験と洞察をまとめた「博士課程5年間のまとめ」シリーズを出版しました。 RLCDRLHF と同様に、RLCD は、ペアワイズ選好データ生成の開始点として、アラインメントされていない言語モデルと一連のキューから始まります。 各キュー p に対して、RLCD は 2 つのキュー p+ と p- (上図の緑とオレンジ) を生成します。これらのキューは、それぞれ関連する属性 (無害性や有用性など) を促進する方向と、関連する属性に反対する方向に変化します。 次に、p+ と p- を元の LLM に入力すると、対応する出力 o+ と o- が得られます。トレーニング ペア (o+、o-) を生成すると、モデルは、それ以上の事後スコアリングを行わずに、自動的に o+ を優先ペアとしてマークします。 最後に、標準的な RLHF プロセスに従って、シミュレートされたペアワイズ嗜好データで嗜好モデルをトレーニングし、嗜好モデルから報酬モデルを選択し、報酬モデルを使用して PPO を実行して元の LLM を調整します。 前面と背面のヒント 技術的な観点から見ると、既存の RLAIF ワークフローから開始すれば、RLCD を実装するのは非常に簡単です。主な難しさは、好みのペアを生成するために、RLCD の正と負の手がかり p+ と p- をどのように構築するかにあります。 研究者はプロンプトを選択するための 2 つの主な基準を特定しました。 1. p+ は p- よりも、望ましい特性 (無害性、有用性など) を具体化する出力を生成する可能性が高くなります。同様に、p- は反対の特性の方向へのシフトを明示的に促進できます。 2. p+ と p- の文字形式は、望ましい特性に関係のない予期しないバイアスが導入されないようにするために、できるだけ類似している必要があります。つまり、いくつかの単語のみが異なる必要があります。 直感的には、p+ と p- は 2 つの異なる分布を生成し、最初の基準は 2 つの分布が目的の特性において可能な限り異なることを保証し、2 番目の基準は直交軸において可能な限り異なることを保証しています。 経験的に、RLCD は、同様の手がかりを使用したベースラインと比較して、手がかり p+ と p- のコントラストを大幅に増幅できることがわかり、これは実験的に確認されました。 したがって、実際にp+とp-を設計する際には、最初の基準よりも2番目の基準に焦点を当てる方が価値があることが多く、p+とp-を作成するには括弧内の簡単な説明のみが必要であることが研究者によって発見されました。 実験結果実験タスク 研究者たちは、3 つのタスクについて 3 つの異なるプロンプト セットをテストしました。 1. 無害さは チャットには不快なテキストや社会的に受け入れられないテキストが頻繁に表示されるため、研究者は、そのような有害な状況でも社会的に受け入れられ、倫理的で、不快でない出力を生成するモデルを目指しました。 二次的な目標として、出力は「ありがとう」や「ごめんなさい」などの意味のない一般的な応答ではなく、会話を改善し、関連性を持たせる必要があります。 2. 役に立つプロンプト 人間は通常、会話の中で情報やアドバイスを求め、役立つ出力を生成することを目指します。 3. アウトラインプロンプト 人間がストーリーの前提を提示し、アウトラインを求める会話では、前提に対して、フォーマットが整った興味深いストーリーのアウトラインを書くことが目標となります。興味深さ、正しいフォーマット、前提との関連性が求められることに加え、モデルには長期的な計画を立てる能力も必要です。 研究者らはウェブ上の既成の前提 40,000 件を使用し、アシスタントの回答は自動的に「考えられる概要は次のとおりです」で始まり、モデルが正しい基本形式で出力するように促しました。 RLCD の肯定的および否定的なプロンプト 無害性タスクでは、研究者らはp+とp-を構築するための文脈フレーズのペアを16組作成した(使用されるたびに1組がランダムに抽出された)。これらのフレーズペアは、無害性タスクにRLAIFを実装したBaiら(2022b)が使用した16個のスコアリングキューに似ている。 有用性については、研究者は、それぞれ役に立つか役に立たないかのどちらかの回答を求めるフレーズのペアのみを使用しました。 研究者は、アウトラインのために、興味深さ、形式の正確さ、前提の関連性を対比するように設計された 3 つのフレーズペアを使用しました。 無害なタスクと有益なタスクについては、トレーニング信号を作成する際に、「Assistant:」ディレクティブのコロンの前の括弧内にコントラストの説明を配置することで、p+ と p- のリテラル形式を大まかに一致させました。 ベースラインモデル 1. LLaMA、つまり、アラインされていない LLaMA-7B ベースライン (RLCD およびその他のベースライン アラインされたものの初期 LLM と同じ) を直接使用して、健全性チェックとして出力を生成します。 2. RLAIF は、憲法 AI の原文に従って、まず AlpacaFarm を使用して再現され、次に原文と同じプロンプト テンプレートが無害性スコアに使用されました。有用性スコアと概要スコアについては、RLCD で使用されているプロンプトに可能な限り類似したプロンプトが使用されました。 3. Context-Dist は、RLCD のみで正のキュー p+ の出力 o+ に対して教師あり微調整を実行するコンテキスト蒸留ベースライン モデルです。 評価指標 各タスクでは、RLCD は各ベースライン モデルに対してペアで評価され、人間の注釈者が 200 個の例を比較して、1 (出力 A の方が優れている) から 8 (出力 B の方が優れている) までのスコアを付けました。 研究者らはまた、GPT-4 を使用して、プロンプトデザインの異なる 1,000 個の例に対してバイナリ評価を実行しました。 実験結果 どちらの評価方法においても、RLCD は比較対象のベースライン モデルよりも優れており、7B および 30B スケールでのデータ生成プロセスの有効性が検証されています。 人間による評価 GPT-4 評価 LLaMA-7B を優先データ シミュレーションに使用すると、他のモデルと比較して RLCD によってもたらされるパフォーマンスの向上が特に顕著になります。最も強力なベースライン RLAIF でも、モデル スケールが 30B のデータのシミュレーションでは RLCD に近づくことしかできず、モデル スケールが 7B のデータのシミュレーションではパフォーマンスが低下します。 30B モデル スケールでは、GPT-4 は場合によっては RLAIF30B を優先しますが、人間は常に RLCD が同等かそれ以上のパフォーマンスを発揮すると信じています。つまり、30B モデル スケールでは GPT-4 の評価と人間の評価結果がより乖離することになります。 RLCD とベースラインの違いも定性的に観察できます。 RLCD の影響 研究者らは、RLCD の優先データ生成が最も類似した従来の方法である RLAIF よりも好まれる主な理由の 1 つは、RLAIF が 2 つの出力 o1 と o2 を生成するため、多くの場合、関連する属性にほとんど違いがなく、「信号対雑音比」が低くなる可能性があることだと考えています。 経験則として、LLaMA-7B を使用して RLAIF データを生成する場合、ラベル極性の 60 パーセンタイルでは o2 が優先されます。 分類モデルは通常、決定境界に近いトレーニング例から恩恵を受けますが、RLAIF の問題は、これらの例が手動で注釈付けされていないため、非常にノイズが多くなる可能性があることです。正確に注釈付けできない場合は、使用を避けるのが最善です。 RLAIFと比較すると、RLCDによって構築された(o+、o-)は指定された属性が異なる可能性が高く、o+はo-よりも明らかに道徳的です。 RLCD の出力もノイズが多い場合がありますが、平均すると RLAIF の出力よりも識別力が高く、より正確なラベルが生成されます。 |
>>: ViTと競合するDeepMindは、スパースモデルからソフト混合エキスパートモデルに移行
マッキンゼーの「2022年世界産業用ロボット調査」によると、産業企業は世界的な労働力不足に対処するた...
[[312730]]以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満...
ここで、AI がビジネスとマーケティングの未来をどのように形作っていくのかを見てみましょう。有名な諺...
[[393143]]まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成するこ...
[[253842]]人工知能はすでにトレンドです。スマートホテル、スマートインターネットカフェ、自...
敵対的生成ネットワーク (GAN) は、非常に幅広い応用が期待できる非常に強力なタイプのニューラル ...
テクノロジーが進歩を左右するこの急速に変化する時代において、製造業界は大きな変化を遂げています。この...
最近、Microsoft は、Microsoft AI プラットフォームを使用してインテリジェントな...
最初の 10 個は、聖書からのトップ 10 アルゴリズムです。発起者からの説明: Proofs fr...
[[410767]] GitHub Copilot、DeepDev、IntelliCode、その他の...