現在のモデルトレーニングパラダイムでは、嗜好データの取得と使用が不可欠な部分になっています。トレーニングでは、人間または AI のフィードバックに基づく強化学習 (RLHF/RLAIF) や直接的な嗜好最適化 (DPO) など、アライメント中のトレーニング最適化ターゲットとして嗜好データがよく使用されます。モデル評価では、タスクの複雑さと標準的な回答の欠如のため、人間のアノテーターの嗜好アノテーションや高性能な大規模モデル (LLM-as-a-Judge) が評価基準としてよく使用されます。 上述の嗜好データの応用は幅広い成功を収めているものの、嗜好そのものに関する研究が不十分であり、より信頼性の高い AI システムの構築を大きく妨げています。この目的のため、上海交通大学の生成人工知能研究所(GAIR)は、人間のユーザーと最大32の一般的な大規模言語モデルが示す好みを体系的かつ包括的に分析し、さまざまなソースからの好みデータがさまざまな定義済み属性(無害性、ユーモア、限界の認識など)で定量的にどのように構成されているかを理解するための新しい研究結果を発表しました。 実施された分析には次の特徴があります。
調査の結果、次のことがわかりました。
図 1: 「日常のコミュニケーション」シナリオにおける人間、GPT-4-Turbo、LLaMA-2-70B-Chat の嗜好分析結果。値が大きいほど属性に対する嗜好が高く、50 未満は属性に対する嫌悪を示します。 このプロジェクトにより、豊富なコンテンツとリソースが利用可能になりました。
方法の紹介この研究では、ChatbotArena Conversations データセットの実際のアプリケーションから大量のユーザーとモデルのペアの会話データを収集しました。各サンプル ポイントは、ユーザー クエリと 2 つの異なるモデル応答で構成されます。研究者らはまず、これらのサンプルについて、人間のユーザーとさまざまな大規模モデルの嗜好ラベルを収集しました。人間のユーザーのラベルは、選択された元のデータセットにすでに含まれていましたが、選択されたオープンソースまたはクローズドソースの大規模モデル 32 個のラベルは、研究者によってさらに推測され、収集されました。 この研究では、まずGPT-4-Turboに基づく自動注釈フレームワークを構築し、すべてのモデル応答に29個の定義済み属性のスコアを注釈付けしました。次に、一対のスコアの比較結果に基づいて、各属性のサンプルポイントの「比較特徴」を取得できます。たとえば、応答Aの無害性スコアが応答Bの無害性スコアよりも高い場合、この属性の比較特徴は+ 1、そうでない場合は- 1、同じ場合は0になります。 構築された比較特徴と収集されたバイナリ嗜好ラベルを使用して、研究者はベイジアン線形回帰モデルを当てはめることによって、比較特徴と嗜好ラベル間のマッピング関係をモデル化できます。当てはめられたモデル内の各属性に対応するモデルの重みは、属性の全体的な嗜好への寄与と見なすことができます。 この研究では、さまざまなソースから嗜好ラベルを収集し、シナリオベースのモデリングを実行したため、各シナリオと各ソース(人間または特定の大規模モデル)ごとに、嗜好から属性への一連の定量的な分解結果を取得できます。 図2: 分析フレームワークの全体プロセスの概略図 結果を分析するこの研究ではまず、さまざまなシナリオで、人間のユーザーと GPT-4-Turbo で表される高性能な大規模モデルの最も好まれる属性と最も好まれない属性を 3 つ分析して比較しました。人間は GPT-4-Turbo に比べてエラーに対する感受性が著しく低く、限界を認めることを嫌がり、答えることを拒否することがわかります。さらに、人間は自分の主観的な立場に合った応答を明らかに好み、応答がクエリ内の潜在的なエラーを修正するかどうかは気にしません。対照的に、GPT-4-Turbo は、応答の正確性、無害性、明確さに重点を置いており、問い合わせの曖昧さを明確にすることに重点を置いています。 図3: さまざまなシナリオやクエリ満足度における人間とGPT-4-Turboの最も好まれる3つの属性と最も好まれない3つの属性 図 4: 軽度/中度/重度のエラーに対する人間と GPT-4-Turbo の感度。値が 50 に近いほど感度が低いことを示します。 さらに、この研究では、異なるマクロモデル間の選好要素の類似性を調査しました。大規模モデルを異なるグループに分割し、グループ内類似度とグループ間類似度をそれぞれ計算すると、パラメータ数(<14Bまたは>30B)に応じて分割した場合、グループ内類似度(0.83、0.88)がグループ間類似度(0.74)よりも大幅に高いことがわかります。一方、他の要因に応じて分割した場合は同様の現象は見られず、大規模モデルの好みは主にそのサイズによって決まり、トレーニング方法とは関係がないことがわかります。 図 5: パラメータ数によってランク付けされた、さまざまな大規模モデル (人間を含む) 間の好みの類似性。 一方、研究では、アライメントと微調整後の大規模モデルが表現する嗜好は事前トレーニング済みバージョンの嗜好とほぼ同じであり、嗜好表現の強度にのみ変化が生じ、つまり、アライメントされたモデルが出力する候補単語AとBに対応する2つの応答の確率差が大幅に増加することも判明しました。 図6: アライメント微調整前後の大規模モデルの選好の変化 最後に、この研究では、人間または大規模モデルの好みをさまざまな属性に定量的に分解することで、好みに基づく評価を意図的に操作できることがわかりました。現在普及している AlpacaEval 2.0 および MT-Bench データセットでは、非トレーニング (システム情報の設定) およびトレーニング (DPO) メソッドを通じて評価者 (人間または大規模モデル) の優先属性を注入するとスコアが大幅に向上しますが、好ましくない属性を注入するとスコアが低下します。 図7: 2つの嗜好ベースの評価データセット、MT-BenchとAlpacaEval 2.0を意図的に操作した結果 要約するこの研究では、人間と大規模モデルの好みの定量的分解の詳細な分析を提供します。研究チームは、人間は質問に直接答えることを好み、間違いに対してあまり敏感ではないのに対し、高性能な大規模モデルは正確性、明瞭性、無害性にもっと注意を払っていることを発見した。この研究では、モデルのサイズが嗜好要素に影響を与える重要な要因である一方、微調整はほとんど影響を与えないことも示されています。さらに、この研究では、評価者の嗜好要素が判明すると、現在のデータセットのいくつかは操作されやすいことが示され、嗜好に基づく評価の不十分さが浮き彫りになっています。研究チームは、将来のさらなる研究を支援するために、すべての研究リソースを公開しました。 |
<<: 2代目アメカ登場!よりリアルな表情で流暢に聴衆に話しかけ、数十の言語を話すことができる
>>: ControlNetの作者が新作を発表:数百万のデータを使ったトレーニング、レイヤー設計の先駆けとなるAI画像生成
人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...
[[438690]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...
最近、国連経済社会局は「世界人口見通し2022」を発表しました。この報告書によると、世界の人口は20...
ITホーム 12月7日、Metaは新しい独立したAI画像ジェネレーター「Imagine with ...
AIの助けを借りて、自分が会社の重役になれる日が来るとは思ってもいませんでした!同僚のクローゼットの...
「決して単純な切り抜きではありません。」 ControlNet の著者による最近の研究は大きな注目を...
[[383257]] 【グローバルネットワークドローンチャンネル記者 趙漢青】新型コロナウイルス感...
AI 戦略を導入する前に、企業はプライバシーを保護し、セキュリティ標準への準拠を確保するために新しい...
好きなアニメ小説のキャラクターとチャットしてみませんか?バーチャルコンパニオンが欲しいですか?あなた...
今年、AI大規模モデルの応用は爆発的な成長を遂げました。その中でも、LangChainやHaysta...
最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...
[[334267]]今日の技術コミュニティにおける人工知能の開発レベルについては、学界、産業界、メ...