モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

現在のモデルトレーニングパラダイムでは、嗜好データの取得と使用が不可欠な部分になっています。トレーニングでは、人間または AI のフィードバックに基づく強化学習 (RLHF/RLAIF) や直接的な嗜好最適化 (DPO) など、アライメント中のトレーニング最適化ターゲットとして嗜好データがよく使用されます。モデル評価では、タスクの複雑さと標準的な回答の欠如のため、人間のアノテーターの嗜好アノテーションや高性能な大規模モデル (LLM-as-a-Judge) が評価基準としてよく使用されます。

上述の嗜好データの応用は幅広い成功を収めているものの、嗜好そのものに関する研究が不十分であり、より信頼性の高い AI システムの構築を大きく妨げています。この目的のため、上海交通大学の生成人工知能研究所（GAIR）は、人間のユーザーと最大32の一般的な大規模言語モデルが示す好みを体系的かつ包括的に分析し、さまざまなソースからの好みデータがさまざまな定義済み属性（無害性、ユーモア、限界の認識など）で定量的にどのように構成されているかを理解するための新しい研究結果を発表しました。

実施された分析には次の特徴があります。

実際のアプリケーションに焦点を当てる: 調査で使用されるデータはすべて実際のユーザーモデルの会話から得られたもので、実際のアプリケーションでの好みをよりよく反映できます。
シナリオベースのモデリング: 異なるシナリオ (日常のコミュニケーションや創作など) に属するデータを個別にモデリングして分析することで、異なるシナリオ間の相互影響が回避され、結論がより明確で信頼性が高まります。
統合フレームワーク: 統合フレームワークは、大規模なモデルを使用して人間の好みを解析するために使用され、優れたスケーラビリティを備えています。

調査の結果、次のことがわかりました。

人間のユーザーは、モデルの応答のエラーに対してそれほど敏感ではなく、自分の限界を認めて回答を拒否することに明らかに嫌悪感を示し、自分の主観的な立場を支持する応答を好みました。 GPT-4-Turbo のような高度な大規模モデルでは、エラーがなく、明確に表現され、安全な応答が優先されます。
同様のサイズの大規模モデルは同様の好みを示し、大規模モデルの調整と微調整によって好みの構成はほとんど変化せず、表現された好みの強度のみが変化します。
嗜好に基づく評価は意図的に操作される可能性があります。テスト対象のモデルが評価者が好む属性で応答するように促すとスコアが向上しますが、最も人気のない属性を挿入するとスコアが低下します。

図 1: 「日常のコミュニケーション」シナリオにおける人間、GPT-4-Turbo、LLaMA-2-70B-Chat の嗜好分析結果。値が大きいほど属性に対する嗜好が高く、50 未満は属性に対する嫌悪を示します。

このプロジェクトにより、豊富なコンテンツとリソースが利用可能になりました。

インタラクティブデモ: すべての分析の視覚化と、論文では完全には提示されていないより詳細な結果が含まれており、定量分析用の新しいモデル設定のアップロードもサポートされています。
データセット: この調査で収集されたユーザーとモデルのペアの会話データが含まれています。これには、実際のユーザーと最大 32 個の大規模モデルからの好みのラベル、および定義された属性の詳細な注釈が含まれます。
コード: データの収集に使用される自動注釈フレームワークとその使用手順、および分析結果を視覚化するためのコードが提供されます。

論文: https://arxiv.org/abs/2402.11296
デモ: https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
コード: https://github.com/GAIR-NLP/Preference-Dissection
データセット: https://huggingface.co/datasets/GAIR/preference-dissection

方法の紹介

この研究では、ChatbotArena Conversations データセットの実際のアプリケーションから大量のユーザーとモデルのペアの会話データを収集しました。各サンプルポイントは、ユーザークエリと 2 つの異なるモデル応答で構成されます。研究者らはまず、これらのサンプルについて、人間のユーザーとさまざまな大規模モデルの嗜好ラベルを収集しました。人間のユーザーのラベルは、選択された元のデータセットにすでに含まれていましたが、選択されたオープンソースまたはクローズドソースの大規模モデル 32 個のラベルは、研究者によってさらに推測され、収集されました。

この研究では、まずGPT-4-Turboに基づく自動注釈フレームワークを構築し、すべてのモデル応答に29個の定義済み属性のスコアを注釈付けしました。次に、一対のスコアの比較結果に基づいて、各属性のサンプルポイントの「比較特徴」を取得できます。たとえば、応答Aの無害性スコアが応答Bの無害性スコアよりも高い場合、この属性の比較特徴は+ 1、そうでない場合は- 1、同じ場合は0になります。

構築された比較特徴と収集されたバイナリ嗜好ラベルを使用して、研究者はベイジアン線形回帰モデルを当てはめることによって、比較特徴と嗜好ラベル間のマッピング関係をモデル化できます。当てはめられたモデル内の各属性に対応するモデルの重みは、属性の全体的な嗜好への寄与と見なすことができます。

この研究では、さまざまなソースから嗜好ラベルを収集し、シナリオベースのモデリングを実行したため、各シナリオと各ソース（人間または特定の大規模モデル）ごとに、嗜好から属性への一連の定量的な分解結果を取得できます。

図2: 分析フレームワークの全体プロセスの概略図

結果を分析する

この研究ではまず、さまざまなシナリオで、人間のユーザーと GPT-4-Turbo で表される高性能な大規模モデルの最も好まれる属性と最も好まれない属性を 3 つ分析して比較しました。人間は GPT-4-Turbo に比べてエラーに対する感受性が著しく低く、限界を認めることを嫌がり、答えることを拒否することがわかります。さらに、人間は自分の主観的な立場に合った応答を明らかに好み、応答がクエリ内の潜在的なエラーを修正するかどうかは気にしません。対照的に、GPT-4-Turbo は、応答の正確性、無害性、明確さに重点を置いており、問い合わせの曖昧さを明確にすることに重点を置いています。

図3: さまざまなシナリオやクエリ満足度における人間とGPT-4-Turboの最も好まれる3つの属性と最も好まれない3つの属性

図 4: 軽度/中度/重度のエラーに対する人間と GPT-4-Turbo の感度。値が 50 に近いほど感度が低いことを示します。

さらに、この研究では、異なるマクロモデル間の選好要素の類似性を調査しました。大規模モデルを異なるグループに分割し、グループ内類似度とグループ間類似度をそれぞれ計算すると、パラメータ数（<14Bまたは>30B）に応じて分割した場合、グループ内類似度（0.83、0.88）がグループ間類似度（0.74）よりも大幅に高いことがわかります。一方、他の要因に応じて分割した場合は同様の現象は見られず、大規模モデルの好みは主にそのサイズによって決まり、トレーニング方法とは関係がないことがわかります。

図 5: パラメータ数によってランク付けされた、さまざまな大規模モデル (人間を含む) 間の好みの類似性。

一方、研究では、アライメントと微調整後の大規模モデルが表現する嗜好は事前トレーニング済みバージョンの嗜好とほぼ同じであり、嗜好表現の強度にのみ変化が生じ、つまり、アライメントされたモデルが出力する候補単語AとBに対応する2つの応答の確率差が大幅に増加することも判明しました。

図6: アライメント微調整前後の大規模モデルの選好の変化

最後に、この研究では、人間または大規模モデルの好みをさまざまな属性に定量的に分解することで、好みに基づく評価を意図的に操作できることがわかりました。現在普及している AlpacaEval 2.0 および MT-Bench データセットでは、非トレーニング (システム情報の設定) およびトレーニング (DPO) メソッドを通じて評価者 (人間または大規模モデル) の優先属性を注入するとスコアが大幅に向上しますが、好ましくない属性を注入するとスコアが低下します。

図7: 2つの嗜好ベースの評価データセット、MT-BenchとAlpacaEval 2.0を意図的に操作した結果

要約する

この研究では、人間と大規模モデルの好みの定量的分解の詳細な分析を提供します。研究チームは、人間は質問に直接答えることを好み、間違いに対してあまり敏感ではないのに対し、高性能な大規模モデルは正確性、明瞭性、無害性にもっと注意を払っていることを発見した。この研究では、モデルのサイズが嗜好要素に影響を与える重要な要因である一方、微調整はほとんど影響を与えないことも示されています。さらに、この研究では、評価者の嗜好要素が判明すると、現在のデータセットのいくつかは操作されやすいことが示され、嗜好に基づく評価の不十分さが浮き彫りになっています。研究チームは、将来のさらなる研究を支援するために、すべての研究リソースを公開しました。

<<: 2代目アメカ登場！よりリアルな表情で流暢に聴衆に話しかけ、数十の言語を話すことができる

>>: ControlNetの作者が新作を発表：数百万のデータを使ったトレーニング、レイヤー設計の先駆けとなるAI画像生成