微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、オープンソースドメイン (ChatGPT など) の AI アシスタントとして直接使用できないことがわかっています。したがって、これらの基本的な LLM を有用かつ無害な AI アシスタントにするために、研究者は命令チューニングと嗜好学習を使用してそれらを微調整することがよくあります。

まず、命令チューニングの定義を見てみましょう。これは、主に人間による注釈や GPT-4 などの独自の LLM から収集されたデータを使用する、教師あり微調整 (SFT) プロセスです。嗜好学習は、人間のフィードバックによる典型的な強化学習 (RLHF) であり、教師ありの微調整された LLM を継続的に調整して、人間の嗜好をさらに調整します。チューニングベースの調整により、LLM が大幅に改善され、印象的な機能が解き放たれ、AI アシスタントの構築には広範な微調整が重要であることが実証されます。

しかし、Meta AI らによる LIMA の研究では、表面アライメント仮説が提唱されました。モデルの知識と機能は事前トレーニング中にほぼ完全に学習されるのに対し、アライメントはユーザーと対話するときにサブ分布を選択する方法をモデルに教えるというものです。彼らは、わずか 1000 個のサンプルによる教師あり微調整で、高品質の整列モデルを生成できることを示しており、この仮説を間接的に裏付けるとともに、整列調整の効果が表面的なものである可能性を示唆しています。しかし、この仮説を裏付ける決定的かつ直接的な証拠はまだ十分に調査されていません。

これにより、研究者にとって重要な疑問が生じます。それは、アライメント調整によって基礎となる LLM の動作がどのように変化するかを分析することです。

最近の論文では、アレン人工知能研究所 (AI2) とワシントン大学の研究者が、ベース LLM とそのアライメントモデル (Llama-2 や Llama2-chat など) 間のトークン分布の変化を調べることで、アライメント調整の影響に関する包括的な分析を実施しました。ベース LLM とその調整および調整されたバージョンのデコードパフォーマンスは、ほとんどのトークン位置でほぼ同じであることがわかります。つまり、上位のトークンを共有しています。ほとんどの分布の変化には、談話マーカーやセキュリティ免責事項などの様式化されたトークンが伴います。

したがって、この証拠は、アライメントチューニングは主に AI アシスタントの言語スタイルを採用することを学習し、ユーザーのクエリに回答するために必要な知識は主に基礎となる LLM 自体から得られるという仮説を強く裏付けるものであると研究者らは考えています。

論文アドレス: https://arxiv.org/pdf/2312.01552.pdf
プロジェクトアドレス: https://allenai.github.io/re-align/

したがって、LLM を調整する役割を再考し、次の質問をします。SFT または RLHF を使用せずに、基礎となる LLM を効果的に調整するにはどうすればよいでしょうか。彼らは、シンプルでチューニング不要のアライメント手法 URIAL (Untuned LLMs with Restyled In-context ALignment) を導入しました。 URIAL は、基礎となる LLM のコンテキスト学習 (ICL) を最大限に活用して効果的なアライメントを実現します。必要なのは、一定の様式化されたサンプル 3 つとシステムヒント 1 つだけです。

これらは、さまざまなサンプルセットに対して、just-eval-instruct と呼ばれるきめ細かで解釈可能な評価を実行します。結果は、URIAL を使用した基本的な LLM のパフォーマンスが、SFT (Mistral-7b-Instruct) または SFT+RLHF アライメント (Llama-2-70b-chat) を使用した LLM と同等か、それよりも優れていることを示しています。ポリシーヒントアプローチと ICL を使用すると、チューニングフリーアプローチとチューニングベースアプローチ間のギャップを大幅に縮小できます。

この研究について、あるツイッターユーザーは「エンジニアの皆さんへ：彼らは全員戻ってきました」とコメントした。

画像出典: https://twitter.com/nameiswhatever/status/1731888047665623528

論文の第一著者であるビル・ユーチェン・リン氏はAI2の研究者である。同氏は、後ほどさらに最新情報を発表する予定だと述べた。

写真

トークン分配の変更を通じてモデルの謎を解明

この論文では、「微調整されていない LLM」と「ベース LLM」という用語を同じ意味で使用し、大規模なコーパスで事前トレーニングされ、その後に指示データを使用して微調整が行われない LLM を指します。このセクションの内容は次のように要約できます。

アライメントは少数のトークンにのみ影響します。基本 LLM とアライメントされた LLM のデコード動作はほとんどの位置で同じであり、同じ最上位のトークンを共有します。
アライメントには主に、「えーっと」「わかりました」「とにかく」などの口語や、接続詞、セキュリティ免責事項などの文体トークンが含まれますが、これらはトークン位置全体のごく一部を占めるにすぎません。
初期のトークンの場合、アライメントがより重要になります。ただし、ほとんどのポジションでは、アライメントモデルのトップランクのトークンは、ベースモデルの上位 5 つのトークン内に含まれます。
ベース LLM は指示に従うのに十分な知識を獲得しており、適切なコンテキストをプレフィックスとして与えられると、アラインメントされた LLM と非常によく似た動作をします。

図 2 に示すように、この論文では llama-2-7b と llama-2-7b-chat をベースモデルとアライメントモデルとして使用します。 1000 個のテストサンプルの結果は、微調整されていない LLM と調整された LLM が事前トレーニングからの同じ既存の知識を共有していることを示しています。たとえば、調整されていない LLM は、「Thank you for asked!」というコンテキストのみに基づいて、「The」で始まる応答を流暢に生成できます (下の図のテキストの先頭の最初の文を参照)。これらの結果は、微調整されていない LLM とトリガートークンを使用して高品質の回答を生成できることを示しています。

トークン配布が LLM に与える影響。図 3 は、すべて 7B レベルのパラメータを持つベース対アラインメント LLM の 3 つのペア (Llama-2 (Base) vs Llama-2-Chat (RLHF)、Llama-2 (Base) vs Vicuna7b-v1.5 (SFT)、および Mistral (Base) vs Mistral-Instruct (SFT)) を示しています。

これらのうち、「シフトトークン（However、cannot、Here、Toなど）」（下のボックスで表示）の割合は5％～7％と非常に低くなっています。これらのモデルは同様の「シフトトークン」を共有しています。この割合は一般化できると研究では考えられており、これは本稿のセクション4でも確認されています。

この論文では、well や transition words などの談話マーカーなどの一部のトークンは情報を伝えないものの、適切にフォーマットされた応答の構築に役立つことも指摘しています。さらに、セキュリティの質問や拒否に関連付けられたトークンは頻繁に変更されます。図 2 の右上部分と図 3 の下部のボックスは、これらの共通トークンを視覚的に表しています。

たとえば、トークンが「Thank」の場合、出力応答は次のように出力される可能性があります:「ご連絡いただきありがとうございます!」同様に、「Hello、Of (course)、Great (question)、Please」などのトークンも他の状況で使用できます。さらに、「ここには (いくつか)、(:)、1 (.) が含まれます」などの他のトークンも、回答に対して異なる情報を提供できます。「ただし、代わりに、申し訳ありません」などのトークン情報により、LLM が有害または不正確な情報を生成するのを防ぐことができます。トークン「Rem」は、「Remember」という単語を構成します。これは通常、要約文であり、最後にユーザーにいくつかの重要なポイントを思い出させます。

デコード中、トークンの分布シフトは時間の経過とともに減少します。図 4 では、3 つのメトリックを使用して、2 つの分布 Pbase と Palign の差が後ろの位置で小さくなることを示しています。

具体的には、KLダイバージェンス、ベースランク、ベース確率（baseprob）を使用して各位置での分布シフトの度合いを表し、1000サンプルの平均を報告します（セクション4.1）。

KL ダイバージェンスは時間の経過とともに減少しますが、ベース確率は時間の経過とともに増加することがわかります。どちらも、デコード後のポジションでは、前のポジションよりもトークン分布のシフトが少ないことを示しています。特に、トークンのベース確率は最終的に 1.0 に近づく可能性があります。驚くべきことに、t ≥ 5 の直後に、整列したトークンの平均ベースランクは 5 未満になります。これは、アライメントされたモデルによってデコードされた上位のトークンがベースモデルの上位 5 つに存在することを意味し、これもアライメントの微調整が表面的なものであるという仮定を裏付けています。

ベースラインメソッドとURIAL

上記の分析により、アライメントの微調整は基本的な LLM のごく一部にしか影響しないため、研究者はアライメントの微調整 (SFT および/または RLHF) の必要性を再考するようになります。

微調整なしでアライメントを実現できますか?プロンプト学習法とコンテキスト学習法は、基本的な LLM とどの程度一致できますか?

これらの疑問を探るために、私たちは強力でありながらシンプルなベースラインチューニング不要のアライメント方法である URIAL を提案します。

URIAL は、ICL サンプルのスタイル出力とコンテキストの調整を求めるシステムプロンプトの 2 つの部分で構成される共通 ICL の拡張として考えることができます。

文脈的指導学習のための出力の再設計。ベース LLM を人間の好みにより沿ったものにするために、図 5 に示すように、いくつかの再様式化されたサンプルをキュレートしました。

図 5 の 2 つのサンプルに加えて、ロールプレイとアドバイスを含むクエリも含まれていました。「あなたは容疑者を尋問する刑事です。権利を侵害せずに容疑者に自白させるにはどうすればよいでしょうか?」

観察によれば、ChatGPT や同様の高レベルな LLM はリスト構造を採用することが多く、これは大量の人間からのフィードバックに基づいて内部報酬モデルがトレーニングされた結果である可能性があります。

そのため、研究者は、まず問題を魅力的な物語で言い換え、次に適切な場合に詳細なポイントを列挙することで、出力を微調整しました。応答は、魅力的で物語的な口調を維持しながら、簡潔な要約段落で終わります。

実験的評価

最後に、研究者らは新しい方法の実験的評価を実施した。彼らはまず、1,000 個のサンプルを含む「just-eval-instruct」というデータセットを作成しました。

最初の 3 つのサブセットには 800 個のサンプルが含まれており、主に LLM の有用性を評価するために使用されます。最後の 2 つのサブセットには 200 個のサンプルが含まれており、主に LLM の無害性をテストするために使用されます。図 6 は just-eval-instruct の統計を示しています。全体として、AlpacaEval が 42%、LIMA が 30%、MT-Bench が 8%、セキュリティ中心の 2 つのデータセットがそれぞれ 10% を占めています。

実験では、Llama-2-7b、Llama-2-70bq、Mistral-7b という 3 つの主要な基本 LLM が使用されました。これら 3 つの LLM は、指示データや人間の好みデータを使用して調整されていません。 URIAL のアライメントパフォーマンスを SFT および RLHF と比較するために、研究者らはこれらの基本モデルに基づいて構築された 4 つのアライメントモデル (Vicuna-7b (v1.5)、Llama-2-7b-chatq、Llama-2-70b-chat、および Mistral-7b-Instruct) も選択しました。

これらのオープンソース LLM に加えて、OpenAI GPT の結果も含まれています (gpt-3.5-turbo および gpt-4)。推論を実行する際には、これらのモデルの作成者によって示唆された体系的なヒントが使用されました。

表 1 には、just-eval-instruct の各メソッドのスコアがリストされており、各側面は 1 ～ 5 のスケールでスコア付けされています。 URIAL は微調整不要のアライメントのパフォーマンスを大幅に向上させ、Llama-2-7b モデルの SFT/RLHF 結果に匹敵するレベルに到達しました。 URIAL が Mistral-7b-Instruct (SFT) や Llama-2-70b-chatq (RLHF) を上回っていることは注目に値します。

図 1 と 7 では、レーダーチャートを使用して、さまざまな角度からの主な方法の比較を視覚的に示しています。

研究者らは、基礎となる LLM が十分に訓練されている場合、アライメントにおける SFT と RLHF の重要性は、これまで考えられていたほど重要ではない可能性があると結論付けました。対照的に、チューニングを必要としない URIAL などの方法は、少なくとも上記の評価でカバーされているシナリオでは、最小限のコストで優れたパフォーマンスを実現できます。表 2 の手動評価結果はこの結論を裏付けています。

この論文では、オープンソースの LLM と ChatGPT のギャップについても言及されています。 AlpacaEval などの以前の評価では、各テストサンプルにラベルが設定されていなかったため、大規模な詳細な分析を実行することが困難でした。研究者らは、オープンソースの LLM が依然として複数のタスクとトピックにおいて OpenAI GPT に遅れをとっていることを観察しました。 GPT がほぼすべてのタスクとトピックにわたってより均等に機能していることは明らかです。 URIAL を含むオープンソース LLM は、コーディングや数学のタスク、STEM トピックではパフォーマンスが低下しますが、他のデータでのパフォーマンスは GPT に匹敵します。

研究の詳細については原著論文を参照してください。

<<: 「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速

>>: 生成 AI によってもたらされるセキュリティリスクをどう解決するか? Akamai が答えを持っています