AIを使ってAIを評価する上海交通大学の新しい大規模モデルは、いくつかのタスクでGPT-4を上回り、モデルデータはオープンソースです

大規模モデルのアライメントパフォーマンスを評価する最も効率的な方法は何ですか?

生成AIのトレンドでは、ビッグモデルの答えを人間の価値観（意図）と一致させることが非常に重要であり、業界ではこれをアライメントと呼ぶことが多いです。

「大きなモデルは自分で立ち上げましょう。」

これは上海交通大学の生成人工知能研究グループ（GAIR）が提案した最新のアイデアです。

しかし、現在の評価方法には、透明性の欠如や精度の低さといった問題が依然として残っています。

そこで研究者らは、現在の大規模モデルのアライメント効果を評価するために使用できる、130億のパラメータを持つ大規模モデルAuto-Jをオープンソース化しました。

2 つの大きなモデルの応答を同時に分析し、個別に評価して比較することができます。

個々の応答を評価することも可能。そして、このタスクにおけるそのパフォーマンスはGPT-4 を上回ります。

現在、このプロジェクトでは、以下を含む多くのリソースをオープンソース化しています。

Auto-J の 130 億パラメータモデル (使用状況、トレーニング、テストデータも GitHub で入手可能)。
関連するクエリシナリオの定義ドキュメント。
各シナリオごとに手作業で作成された参照評価基準。
ユーザークエリが属するシナリオなどを自動的に識別できる分類子。

大きなモデルを使って大きなモデルを導き、答えを出す

実際のタスクでは、Auto-J は 2 つの異なるモデルの応答のうち、より良い回答を指摘するだけでなく、複数の特定の次元からの判断と分析を行うこともできます。

同時に、十分ではないと思われる応答に対しては、改善の提案を行うこともできます。

注: このセクションで提供されている例は、元の英語のテキストから中国語に翻訳されています。

具体的には、ペア応答比較タスクと単一応答評価タスクにおける Auto-J のパフォーマンスを見てみましょう。

一対の応答の比較セクションで提示される質問は次のとおりです。

感謝祭のチケットを購入したことを家族に伝えるメールを作成中です。 11月22日に出発し、30日に出発する予定です。

実験では、GPT4ALL-13B-snoozy と Claude-1 の応答を比較しました。

Auto-J は、Claude-1 の応答の方が情報量が多く、魅力的で、パーソナライズされているため、優れていると判断しました。

同時に、目的、トーン、テキスト内容、パーソナライゼーション、情報の豊富さなどの側面から評価する具体的な分析プロセスも示し、各側面における 2 つの主要モデルの長所と短所を説明します。

単一回答評価タスクでは、次の質問をします。

グリルでサーモンを調理する最も良い方法は何ですか?

評価対象となる応答は次のとおりです。

グリルでサーモンを調理する最良の方法は、まずグリルを中強火に予熱し、オリーブオイルを塗り、塩とコショウを振りかけ、サーモンの皮を下にしてグリルに置くことです。サーモンを皮がカリカリになり、フォークで簡単に刺せるようになるまで、約5〜7分焼きます。サーモンを裏返し、さらに 3 ～ 4 分焼きます。お好みのサイドディッシュを添えてお召し上がりください。

Auto-J はこの回答に対して「 OK だが、いくつかの領域で深みと詳細が欠けている」とコメントしました。

例えば、具体的な調理温度や時間、サーモンの品質についての言及はありませんでした。

また、具体的な提案を行うことで、ユーザーに特定のグリル器具について質問したり、サーモンの調理経験について質問したりすることで、応答をよりパーソナライズすることができます。

50以上のシーンをサポート

パフォーマンスの面では、Auto-J は次の 2 つの点で優れたパフォーマンスを発揮します。

関数の使用法

実際のシナリオ（一般的な広告作成、電子メールの下書き、エッセイの洗練、コード生成など）で50 を超えるさまざまなユーザークエリをサポートし、さまざまなシナリオでさまざまな大規模モデルのアライメントパフォーマンスを評価します。

最も一般的な 2 つの評価パラダイム (ペア応答比較と単一応答評価)をシームレスに切り替えることができ、アライメント評価とモデルパフォーマンスをさらに最適化するための「報酬モデル」の両方で複数の目的に使用できます。

同時に、評価結果を裏付ける詳細かつ構造化された読みやすい自然言語コメントを出力することもできるため、評価結果の説明性と信頼性が向上し、開発者が評価プロセスに参加しやすくなり、価値整合プロセスにおける問題を迅速に特定しやすくなります。

パフォーマンスのオーバーヘッド

パフォーマンスと効率の面では、Auto-J の評価効果はGPT-4 に次ぐものであり、ChatGPT を含む多くのオープンソースまたはクローズドソースモデルよりも大幅に優れており、効率的な vllm 推論フレームワークの下で 1 分あたり100 を超えるサンプルを評価できます。

コスト面では、Auto-J は 130 億個のパラメータしか含まれていないため、32G V100 上で直接推論でき、量子化と圧縮後に 3090 などのコンシューマーグレードのグラフィックスカードに展開して使用できるため、LLM の評価コストが大幅に削減されます (現在主流のソリューションは、クローズドソースの大規模モデル (GPT-4 など) を使用して評価することですが、API を呼び出すこの評価方法は、多くの時間とコストがかかります)。

具体的な方法

トレーニングデータは通常、次のフロー図に従います。

△ トレーニングデータ収集プロセスの図

シナリオの定義と参照評価基準:

△シナリオ定義と参考評価基準

より広範囲のさまざまな評価シナリオをサポートするために、Auto-J は 58 の異なるシナリオを定義し、それらを 8 つのカテゴリ (要約、書き直し、コード、作成、試験問題、一般的なコミュニケーション、機能的なライティング、その他の NLP タスク) に分類します。

研究者は、各シナリオについて、そのようなシナリオにおける一般的な評価の角度を網羅した参考用の評価基準のセットを手作業で作成し、各基準には名前とテキストによる説明が含まれています。

評価基準の構築は 2 層のツリー構造に従います。まず、共通の基本標準のセットがいくつか定義され (テキストとコードの一般的な標準など)、各シナリオの特定の標準は 1 つ以上の基本標準を継承し、さらにカスタマイズされた標準を追加します。

上図の「計画」シナリオを例にとると、このシナリオの標準には、シナリオ固有のコンテンツと形式の標準、および継承された基本標準が含まれます。

さまざまなシナリオからのユーザークエリとさまざまなモデルからの応答を収集します。

Auto-J は、定義されたさまざまなシナリオで優れたパフォーマンスを発揮するように配置されているため、さまざまなシナリオで対応するデータを収集することが重要です。この目的のために、研究者はユーザークエリに対して一定数のシナリオカテゴリに手動でラベルを付け、これを使用して、クエリが属するシナリオを識別する分類器をトレーニングしました。

この分類器の助けを借りて、ダウンサンプリングにより、多数の実際のユーザークエリとさまざまなモデル応答を含む複数のデータセット (Chatbot Arena Conversations データセットなど) から、よりバランスの取れたカテゴリを持つ 3,436 のペアサンプルと 960 の単一応答サンプルをトレーニングデータの入力として選択することに成功しました。ペアサンプルには、クエリ、クエリに対する 2 つの異なる応答、および人間が注釈を付けた好みのラベル (どちらの応答が優れているか、または同点か) が含まれていました。単一応答サンプルには、クエリと応答のみが含まれていました。

高品質な判断力を収集:

問い合わせや回答だけでなく、トレーニングデータの出力の一部として、質の高い評価テキスト、つまり「判断」を収集することがより重要です。

研究者たちは、完全な判断を中間の推論プロセスと最終的な評価結果を含むものと定義した。ペア回答の比較の場合、中間推論プロセスは 2 つの回答間の主な違いを識別して比較することであり、評価結果は 2 つの回答のうちより優れた回答 (または同点) を選択することです。単一回答サンプルの場合、中間推論プロセスはその欠点の批評であり、評価結果は 1 ～ 10 の総合スコアです。

具体的な操作に関しては、必要な判断を生成するために GPT-4 を呼び出すことを選択します。

各サンプルについて、対応するシナリオの評価基準が、判断を生成するための参照として GPT-4 に渡されます。さらに、一部のサンプルにシナリオ評価基準を追加すると、応答の特定の欠陥を発見する GPT-4 の能力が制限されることが観察されているため、研究者は、与えられた評価基準を超えて、可能な限り他の重要な要素を探索することも要求しています。

最終的には、上記の 2 つの側面からの出力を統合して再フォーマットし、トレーニングデータの出力として、より包括的で具体的かつ読みやすい判断を取得します。ペア応答比較データは、既存の人間の好みの注釈に基づいてさらに選別されます。

電車：

研究者らは 2 つの評価パラダイムのデータを組み合わせてモデルをトレーニングし、対応するプロンプト単語テンプレートを設定するだけで Auto-J が異なる評価パラダイム間をシームレスに切り替えることができるようになりました。

また、コンテキスト蒸留に似た技術が使われており、トレーニングシーケンスを構築する際には、GPT-4が参照に使用しているシーン評価基準を削除し、出力時の監督信号のみを保持します。

実際には、これにより Auto-J の一般化が効果的に強化され、応答の特定の詳細を無視しながら出力の評価が評価基準の同義的な繰り返しに制限されることを回避できることがわかります。

同時に、ペア応答比較データ部分では、入力における2つの応答の出現順序を入れ替え、それに応じて出力判断テキストを書き換えるという単純なデータ拡張手法も採用されており、評価時のモデルの位置の好みを可能な限り排除しています。

実験と結果

Auto-J がサポートする複数の機能の有効性を検証するために、さまざまなテストベンチマークが構築されています。

ペア応答比較タスクでは、評価基準は、人間の好みのラベルとの一貫性と、入力内の 2 つの応答の順序を入れ替える前後のモデル予測結果の一貫性です。

Auto-J は両方の指標において選択されたベースラインモデルを大幅に上回っており、GPT-4 に次ぐことがわかります。

△一対一応答比較課題の結果

単一返信コメント生成タスクでは、Auto-J によって生成されたコメントを他のモデルのコメントと 1 対 1 で比較しました。GPT-4 に基づく自動比較であれ、人間の判断であれ、Auto-J によって生成されたコメントはほとんどのベースラインよりも大幅に優れており、GPT-4 よりもわずかに優れていることがわかります。

△単一返信レビュー生成タスクにおけるベースラインと比較したAuto-Jの勝率

研究者らは、報酬モデルとしての Auto-J の可能性も調査しました。

報酬モデルの有効性を検出するために一般的に使用される Best-of-N 設定 (つまり、ベースモデルが複数の候補回答を生成し、報酬モデルが独自の出力に基づいて最適な応答を選択する) では、Auto-J によって提供される単一の応答スコアは、さまざまなベースラインモデルよりも優れた応答を選択できます (GPT-4 スコアを参照として使用)。

同時に、そのスコアは GPT-4 スコアと高い相関関係を示しています。

△ 報酬モデルとしての異なるモデルのパフォーマンス

最後に、開発者はシステムレベルでの Auto-J の評価パフォーマンスも調査しました。

AlpacaEval（GPT-4 で評価された大規模モデルの人気のリーダーボード）に送信されたオープンソースモデルは、Auto-J のシングルショットスコアを使用して再ランク付けされました。

Auto-J に基づくランキング結果は、GPT-4 のランキング結果と高い相関関係にあることがわかります。

△AlpacaEvalランキングに提出されたオープンソースモデルのランキングにおけるAuto-JとGPT-4の相関関係と具体的なランキングデータ