生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが、業界の重要な課題となっています。 モデルの調整は重要ですが、現在の評価方法には制限があることが多く、開発者を混乱させることがよくあります。大規模なモデルはどの程度調整されているのでしょうか?これは、アライメント技術のさらなる発展を制限するだけでなく、技術の信頼性に対する国民の懸念も引き起こします。 このため、上海交通大学生成人工知能研究所は迅速に対応し、業界と一般大衆に、より透明で正確なモデル価値整合評価を提供することを目的とした新しい価値整合評価ツール「Auto-J」を立ち上げました。
現在、このプロジェクトでは、以下を含む多くのリソースをオープンソース化しています。
この推定ツールには次の利点があります。 1. 機能的な使用法
2. パフォーマンスのオーバーヘッド
ペアワイズ応答比較のランキング結果 コメント生成タスクのランキング結果 例注: このセクションで提供されている例は、元の英語のテキストから中国語に翻訳されています。 下の図 1 は、2 つの応答の比較を示しています。赤いフォントは、2 つの応答を著しく区別する内容を強調表示し、緑のフォントは、Auto-J による判断のうちユーザーの好みに一致する部分を強調表示しています。 下の図 2 は単一回答評価を示しており、緑色のフォントで Auto-J の判断の重要な部分が強調表示されています。 具体的な方法トレーニング データは通常、次のフロー図に従います。 図1: トレーニングデータ収集プロセスの概略図 シナリオの定義と参照評価基準: 図2: シナリオ定義と参考評価基準 より広範囲のさまざまな評価シナリオをサポートするために、Auto-J は 8 つのカテゴリ (要約、書き直し、コード、作成、試験問題、一般的なコミュニケーション、機能的なライティング、その他の NLP タスク) に属する 58 の異なるシナリオを定義します。 研究者は、各シナリオについて、そのようなシナリオにおける一般的な評価の角度を網羅した参考用の評価基準のセットを手作業で作成し、各基準には名前とテキストによる説明が含まれています。評価基準の構築は 2 層のツリー構造に従います。まず、共通の基本標準のセットがいくつか定義され (テキストとコードの一般的な標準など)、各シナリオの特定の標準は 1 つ以上の基本標準を継承し、さらにカスタマイズされた標準を追加します。上図の「計画」シナリオを例にとると、このシナリオの標準には、シナリオ固有のコンテンツと形式の標準、および継承された基本標準が含まれます。 さまざまなシナリオからのユーザークエリとさまざまなモデルからの応答を収集します。 Auto-J は、定義されたさまざまなシナリオで優れたパフォーマンスを発揮するように配置されているため、さまざまなシナリオで対応するデータを収集することが重要です。この目的のために、研究者はユーザークエリに対して一定数のシナリオカテゴリに手動でラベルを付け、これを使用して、クエリが属するシナリオを識別する分類器をトレーニングしました。この分類器の助けを借りて、ダウンサンプリングにより、多数の実際のユーザークエリとさまざまなモデル応答を含む複数のデータセット (Chatbot Arena Conversations データセットなど) から、よりバランスの取れたカテゴリを持つ 3,436 のペアサンプルと 960 の単一応答サンプルをトレーニングデータの入力として選択することに成功しました。ペアサンプルには、クエリ、クエリに対する 2 つの異なる応答、および人間が注釈を付けた好みのラベル (どちらの応答が優れているか、または同点か) が含まれていました。単一応答サンプルには、クエリと応答のみが含まれていました。 高品質な判断を収集する: 問い合わせや回答だけでなく、トレーニングデータの出力の一部として、質の高い評価テキスト、つまり「判断」を収集することがより重要です。研究者たちは、完全な判断を中間の推論プロセスと最終的な評価結果を含むものと定義した。ペア応答比較の場合、中間推論プロセスは 2 つの応答間の主な違いを識別して比較することであり、評価結果は 2 つの応答のうちより優れた応答 (または同点) を選択することです。単一応答サンプルの場合、中間推論プロセスは欠点の批評であり、評価結果は 1 ~ 10 の総合スコアです。 具体的な操作に関しては、必要な判断を生成するために GPT-4 を呼び出すことを選択します。各サンプルについて、対応するシナリオの評価基準が、判断を生成するための参照として GPT-4 に渡されます。さらに、一部のサンプルにシナリオ評価基準を追加すると、応答の特定の欠陥を発見する GPT-4 の能力が制限されることが観察されているため、研究者は、与えられた評価基準を超えて、可能な限り他の重要な要素を探索することも要求しています。最終的には、上記の 2 つの側面からの出力を統合して再フォーマットし、トレーニング データの出力として、より包括的で具体的かつ読みやすい判断を取得します。ペア応答比較データは、既存の人間の好みの注釈に基づいてさらに選別されます。 電車: 研究者らは 2 つの評価パラダイムのデータを組み合わせてモデルをトレーニングし、対応するプロンプト単語テンプレートを設定するだけで Auto-J が異なる評価パラダイム間をシームレスに切り替えることができるようになりました。また、コンテキスト蒸留に似た技術が使われており、トレーニングシーケンスを構築する際には、GPT-4が参照に使用しているシーン評価基準を削除し、出力時の監督信号のみを保持します。実際には、これにより Auto-J の一般化が効果的に強化され、応答の具体的な詳細を無視しながら出力の評価を評価基準の同義的な繰り返しに制限することが回避されることがわかります。同時に、ペア応答比較データ部分では、入力における2つの応答の出現順序を入れ替え、それに応じて出力判断テキストを書き換えるという単純なデータ拡張手法も採用されており、評価時のモデルの位置の好みを可能な限り排除しています。 実験と結果Auto-J がサポートする複数の機能の有効性を検証するために、さまざまなテスト ベンチマークが構築されています。 ペア応答比較タスクでは、評価基準は、人間の好みのラベルとの一貫性と、入力内の 2 つの応答の順序を入れ替える前後のモデル予測結果の一貫性です。 Auto-J は両方の指標において選択されたベースライン モデルを大幅に上回っており、GPT-4 に次ぐことがわかります。 表1と図3: 対反応比較課題の結果 単一返信コメント生成タスクでは、Auto-J によって生成されたコメントが他のモデルのコメントと 1 対 1 で比較されました。GPT-4 の自動比較に基づくか、人間による判断に基づくかにかかわらず、Auto-J によって生成されたコメントはほとんどのベースラインよりも大幅に優れており、GPT-4 よりもわずかに優れていることがわかります。 図4: 単一返信レビュー生成タスクにおけるAuto-Jのベースラインに対する勝率 研究者らは、報酬モデルとしての Auto-J の可能性も調査しました。報酬モデルの有効性をテストするために一般的に使用される Best-of-N 設定 (つまり、ベースモデルが複数の候補回答を生成し、報酬モデルが独自の出力に基づいて最適な応答を選択する) では、Auto-J によって提供される単一の応答スコアは、さまざまなベースライン モデル (GPT-4 スコアを参照) よりも優れた応答を選択できます。同時に、そのスコアは GPT-4 スコアと高い相関関係を示しています。 表2: 報酬モデルとしてのさまざまなモデルのパフォーマンス 最後に、開発者はシステム レベルでの Auto-J の評価パフォーマンスも調査しました。 AlpacaEval(GPT-4 で評価された大規模モデルの人気のリーダーボード)に送信されたオープンソース モデルは、Auto-J のワンショット スコアを使用して再ランク付けされました。 Auto-J に基づくランキング結果は、GPT-4 のランキング結果と高い相関関係にあることがわかります。 図5と表3: AlpacaEvalリーダーボードに提出されたオープンソースモデルのAuto-JとGPT-4の相関関係と特定のランキングデータ 要約と展望要約すると、GAIR 研究グループは、さまざまなシナリオでユーザークエリを解決する際のさまざまなモデルのパフォーマンスを評価するために、130 億のパラメータを持つ生成評価モデル Auto-J を開発し、普遍性、柔軟性、解釈可能性の課題に対処することを目指しています。実験により、そのパフォーマンスは多くのオープンソースおよびクローズドソース モデルよりも大幅に優れていることが示されました。また、モデルのトレーニングや複数のテストベンチマークで使用されたデータ、データ構築の過程で得られたシナリオ定義ファイルや参考評価基準、さまざまな種類のユーザークエリが属するシナリオを識別するために使用される分類子など、モデル以外のリソースも公開されます。 |
<<: パラメータとパフォーマンスがGoogle Minervaのほぼ半分に近づき、新たな数学モデルがオープンソース化されました。
>>: Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。
人工知能は世界的な流行語となり、ほぼすべての企業のデジタル変革計画に不可欠な要素となっています。 A...
人工知能とは、人間の行動や思考をシミュレートし、トレーニングを通じて特定の問題を解決できる機械によっ...
自動車業界のデジタル変革により、車両の構想、組み立て、運用の方法が再定義されています。 テクノロジー...
[[280560]]世界が急速に発展する中、専門家は生産性と仕事の効率性の向上に努めなければなりま...
AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...
人工知能(AI)は驚異的な進歩を遂げ、一般に応用可能な技術として社会に影響を与えています。しかし、初...
最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...
CES ではさまざまな新技術が注目を集めようと競い合っていたが、同じ場所で悲劇が起きた。自動運転モー...
Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...