RAG か微調整か?マイクロソフトは特定分野における大規模モデルアプリケーションの構築プロセスガイドを公開した

大規模な言語モデルアプリケーションを構築するときに、独自のデータとドメイン固有のデータを組み込む一般的なアプローチには、検索強化型生成と微調整の 2 つがあります。検索強化型生成では外部データを通じてヒントを増強し、微調整ではモデル自体に追加の知識を組み込みます。しかし、これら 2 つの方法の利点と欠点は十分に理解されていません。

この論文では、Microsoft の研究者が、特定のコンテキストと適応的な応答を必要とする業界 (農業) 向けの AI アシスタントの作成という新たな焦点を紹介しています。この論文では、高品質で業界固有の質問と回答を生成するための包括的な大規模言語モデルパイプラインを提案します。このアプローチには、幅広い農業トピックを網羅する関連文書を特定し、収集する体系的なプロセスが含まれます。これらのドキュメントは、基本的な GPT モデルを使用して、意味のある質問と回答のペアを生成するようにクリーンアップおよび構造化されます。生成された質問と回答のペアは、品質に基づいて評価および選別されます。

この論文の目的は、農業をケーススタディとして特定の業界にとって貴重な知識リソースを作成し、最終的には農業分野における法学修士号の発展に貢献することです。

論文アドレス: https://arxiv.org/pdf/2401.08406.pdf
論文タイトル: RAG vs 微調整: パイプライン、トレードオフ、農業に関するケーススタディ

この論文で提案されているプロセスは、AI アシスタントに期待される回答が関連する業界固有の要因に基づく必要がある業界の専門家や利害関係者のニーズを満たす、ドメイン固有の質問と回答を生成することを目的としています。

この記事は農業研究を扱っており、その特定の分野における答えを生み出すことが目的です。したがって、研究の出発点は農業データセットであり、これは質問と回答の生成、検索を拡張した生成、および微調整プロセスという3 つの主要コンポーネントに入力されます。質問と回答の生成では、農業データセットの情報に基づいて質問と回答のペアを作成し、検索拡張生成ではそれを知識ソースとして使用します。生成されたデータは精製され、複数のモデルを微調整するために使用され、その品質は提案された一連のメトリックを通じて評価されます。この包括的なアプローチを通じて、ビッグ言語モデルの力を活用して、農業業界やその他の利害関係者に利益をもたらします。

この論文は、農業分野における大規模言語モデルの理解にいくつかの特別な貢献をしており、以下のように要約できます。

1. LLM の包括的な評価: 農業関連の質問に答えるために、LlaMa2-13B、GPT-4、Vicuna などの大規模言語モデルの広範な評価を実施します。評価には、主要な農業生産国からのベンチマークデータセットが使用されました。この記事の分析では、GPT-4 は一貫して他のモデルよりも優れていますが、微調整と推論に関連するコストも考慮する必要があります。

2.検索技術と微調整がパフォーマンスに与える影響: この論文では、検索技術と微調整が LLM のパフォーマンスに与える影響を調査します。研究では、検索強化生成と微調整の両方が LLM のパフォーマンスを向上させる効果的な手法であることがわかりました。

3.さまざまな業界における LLM の潜在的な応用の影響: この論文は、LLM に RAG と微調整手法を適用するプロセスを確立する先駆的なステップであり、複数の業界間でのイノベーションとコラボレーションを促進します。

方法

この論文のセクション 2 では、データ取得プロセス、情報抽出プロセス、質問と回答の生成、モデルの微調整など、採用された方法論について詳しく説明します。この方法論は、下の図 1 に示すように、ドメイン固有のアシスタントを構築するために質問と回答のペアを生成および評価するように設計されたプロセスを中心に展開されます。

このプロセスはデータ取得から始まります。データ取得には、政府機関、科学知識データベースなどのさまざまな高品質リポジトリからデータを取得し、必要に応じて独自のデータを使用することが含まれます。

データの取得が完了したら、収集した文書から情報を抽出するプロセスが続行されます。この手順は、複雑で構造化されていない PDF ファイルを解析してその内容と構造を復元する必要があるため、非常に重要です。下の図 2 は、データセット内の PDF ファイルの例を示しています。

プロセスの次の要素は、質問と回答の生成です。ここでの目標は、抽出されたテキストの内容を正確に反映した、高品質で文脈に基づいた質問を生成することです。私たちのアプローチは、入力と出力の構造構成を制御するフレームワークを採用し、それによって言語モデルによって生成された応答の全体的な有効性を高めます。

このプロセスでは、定式化された質問に対する回答が生成されます。ここで採用されているアプローチは、検索と生成のメカニズムの機能を組み合わせて、検索強化生成を活用し、高品質の回答を作成します。

最後に、プロセスは Q&A を通じてモデルを微調整します。最適化プロセスでは、Low Rank Adjustment (LoRA) などの手法を使用して、科学文献の内容とコンテキストを包括的に理解し、さまざまな分野や業界にとって貴重なリソースにします。

データセット

この研究では、米国、ブラジル、インドの 3 つの主要な農作物生産国からの文脈的に関連のある質問と回答のデータセットを使用して、微調整され検索が強化された言語モデルを評価しました。この記事の場合、産業的背景として農業が用いられています。利用可能なデータは、規制文書、科学レポート、農業検査から知識データベースまで、形式と内容が多岐にわたります。

この記事は、米国農務省、州農業局、消費者サービス機関から公開されているオンライン文書、マニュアル、レポートから情報を収集したものです。

入手可能な文書には、作物および家畜の管理、病気およびベストプラクティス、品質保証および輸出規制、支援プログラムの詳細、保険および価格ガイドに関する連邦規制および政策情報が含まれます。収集されたデータは合計 23,000 を超える PDF ファイル、5,000 万を超えるトークンを含み、米国の 44 州をカバーしています。研究者らはこれらのファイルをダウンロードして前処理し、質問と回答の生成プロセスの入力として使用できるテキスト情報を抽出しました。

モデルのベンチマークと評価を行うために、200 万を超えるトークンを含む 573 個のファイルを含むワシントン州に関連する文書を使用しました。以下のリスト 5 は、これらのファイルの内容のサンプルを示しています。

メトリクス

このセクションの主な目的は、質問と回答の生成プロセスの品質評価、特に微調整と検索強化型生成方法の評価を導くことを目標とした包括的なメトリックのセットを確立することです。

メトリックを開発する際には、いくつかの重要な要素を考慮する必要があります。まず、質問の質に内在する主観性が大きな課題となります。

第二に、指標は問題の関連性、有用性、およびコンテキストへの依存性を考慮する必要があります。

第三に、生成された質問の多様性と新規性を評価する必要があります。強力な質問生成システムは、与えられたコンテンツのさまざまな側面をカバーする幅広い質問を生成できる必要があります。ただし、質問の独自性とコンテンツや他の生成された質問との類似性を評価する必要があるため、多様性と新規性を定量化することは困難な場合があります。

最後に、提供されたコンテンツに基づいて、適切な質問に答えられる必要があります。利用可能な情報を使用して質問に正確に答えることができるかどうかを評価します。そのためには、コンテンツに関する深い理解と、質問に答えるための関連情報を特定する能力が必要です。

これらのメトリックは、モデルによって提供される回答が質問に対する回答として正確で、関連性があり、効果的であることを保証する上で重要な役割を果たします。しかし、質問の品質を評価するために特別に設計された指標が大幅に不足しています。

この欠点を認識し、本論文では質問の品質を評価するために設計された指標の開発に焦点を当てています。質問は有意義な会話を促進し、有用な回答を生み出す上で重要な役割を果たすため、質の高い質問を確保することは質の高い回答を確保することと同じくらい重要です。

本論文で開発された指標は、この分野におけるこれまでの研究のギャップを埋め、質問の質を総合的に評価する手段を提供することを目的としており、質問応答生成の進歩に大きな影響を与えるでしょう。

問題の評価

この論文で問題を評価するために開発された指標は次のとおりです。

関連性
世界的な関連性
カバレッジ
重複
多様性
詳細レベル
流暢さ

回答評価

大規模な言語モデルは、長くて詳細で情報量が多く、会話的な応答を生成する傾向があるため、生成された回答を評価するのは困難です。

この記事では、AzureML モデル評価を使用して、次のメトリックを使用して生成された回答を実際の回答と比較します。

一貫性: 実際の状況とコンテキストに基づく予測の一貫性を比較します。
関連性: 回答が文脈の中で、質問の主な側面にどれだけ効果的に答えているかを測る指標。
信頼性: 回答がコンテキストに含まれる情報に論理的に適合するかどうかを定義し、回答の信頼性を判断するための整数スコアを提供します。

モデル評価

さまざまな微調整モデルを評価するために、この論文では GPT-4 を評価ツールとして使用します。 GPT-4 を使用して、実際のデータセットとして農業文書から約 270 の質問と回答のペアを生成しました。微調整されたモデルと検索強化された生成モデルごとに、これらの質問に対する回答が生成されます。

この論文では、いくつかの異なる指標を使用して LLM を評価します。

ガイドラインによる評価: 質問と回答と真実のペアごとに、GPT-4 に正しい回答に何を含めるべきかをリストした評価ガイドを生成するように指示します。次に、GPT-4 は、評価ガイドラインの基準に基づいて、各回答を 0 から 1 のスケールで採点するように求められます。次に例を示します。
簡潔さ: 簡潔な回答と長い回答に何が含まれるかを説明する評価尺度が作成されました。このスコアリング表、実際の状況の回答、LLM の回答に基づいて、GPT-4 にプロンプトが表示され、1 から 5 のスコアに基づいて評価するように求められました。
正確性: この記事では、完全な回答、部分的に正しい回答、または誤った回答に何が含まれるべきかを説明する採点基準を作成します。この採点表、実際の回答、および LLM の回答に基づいて、GPT-4 はプロンプトを表示し、正解、不正解、または部分的に正解のスコアを出すように求められます。

実験

私たちの実験はいくつかの独立した実験に分かれており、それぞれが質問と回答の生成と評価、検索を強化した生成、微調整の特定の側面に焦点を当てています。

これらの実験では、次の領域を調査します。

質問と回答の質
文脈的研究
モデルからメトリックへの計算
複合発電と個別発電
アブレーション研究の取得
微調整

質問と回答の質

この実験では、3 つの大規模言語モデル (GPT-3、GPT-3.5、GPT-4) によって生成された質問と回答のペアの品質を、さまざまなコンテキスト設定で評価します。品質評価は、関連性、対象範囲、重複、多様性など、複数の指標に基づいています。

文脈的研究

この実験では、さまざまなコンテキスト設定が質問と回答のペアを生成するモデルのパフォーマンスに与える影響を調査します。生成された質問と回答のペアを、コンテキストなし、コンテキスト、外部コンテキストの 3 つのコンテキスト設定で評価します。例を表12に示します。

コンテキストフリー設定では、GPT-4 は 3 つのモデルの中で最も高いカバレッジとサイズの手がかりを持ち、テキストのより多くの部分をカバーできることを示していますが、生成される質問はより長くなります。しかし、多様性、重複、関連性、流暢性については、3 つのモデルで同様の値が得られました。

コンテキストを含めると、GPT-3.5 は GPT-3 と比較してカバレッジがわずかに増加しますが、GPT-4 は最高のカバレッジを維持します。サイズプロンプトでは、GPT-4 が最大の値を持ち、より長い質問と回答を生成できることを示しています。

多様性と重複の点では、3 つのモデルのパフォーマンスは同様でした。関連性と流暢性に関しては、GPT-4 は他のモデルと比較してわずかな向上を示しています。

外部コンテキスト設定でも、同様の状況が発生します。

さらに、各モデルを見ると、コンテキストフリー設定は、平均カバレッジ、多様性、重複、関連性、流暢さの点で GPT-4 に最適なバランスを提供しているように見えますが、生成される質問と回答のペアは短くなります。コンテキスト設定により、質問と回答のペアが長くなり、サイズ以外の他のメトリックがわずかに減少します。外部コンテキスト設定では、最も長い質問と回答のペアが生成されますが、平均的な範囲は維持され、平均的な関連性と流暢さがわずかに向上します。

全体的に、GPT-4 の場合、コンテキストなしの設定は、平均カバレッジ、多様性、重複、関連性、流暢さの点で最適なバランスを提供するように見えますが、生成される回答は短くなります。コンテキスト設定により、プロンプトが長くなり、他の指標がわずかに減少しました。外部コンテキスト設定では、最も長い手がかりが生成されましたが、平均的なカバレッジが維持され、平均的な関連性と流暢性がわずかに増加しました。

したがって、これら 3 つの選択は、ミッションの具体的な要件によって決まります。プロンプトの長さを考慮しない場合は、関連性と流暢性のスコアが高いため、外部コンテキストが最適な選択肢となる可能性があります。

モデルからメトリックへの計算

この実験では、質問と回答のペアの品質を評価するために使用されるメトリックを計算する際の GPT-3.5 と GPT-4 のパフォーマンスを比較します。

全体的に、GPT-4 は生成された質問と回答のペアをより流暢で文脈的に現実的であると一般的に評価していますが、GPT-3.5 の評価よりも多様性と関連性が低くなっています。これらの洞察は、生成されたコンテンツの品質をさまざまなモデルがどのように認識し評価するかを理解するために重要です。

複合世代と個別世代

この実験では、質問と回答を別々に生成する場合と、質問と回答を組み合わせて生成する場合の長所と短所を調査し、トークンの使用効率の観点からの比較に焦点を当てています。

一般的に、質問のみを生成する方法は、範囲が広く多様性が低くなる一方で、複合生成方法は重複と関連性の点でスコアが高くなります。流暢さの点では、両方の方法のパフォーマンスは同様でした。したがって、これら 2 つのアプローチの選択は、タスクの特定の要件によって異なります。

より多くの情報をカバーし、多様性を維持することが目標である場合は、質問を生成するだけの方法が好まれます。ただし、ソースマテリアルとの重複度を高く維持する必要がある場合は、組み合わせ生成アプローチの方が適しています。

アブレーション研究の取得

この実験では、質問への回答中に追加のコンテキストを提供することで LLM の固有の知識を強化するアプローチである、検索強化生成の検索能力を評価します。

この論文では、取得されたフラグメントの数（つまり、トップk）が結果に与える影響を調査し、その結果を表16に示します。より多くのセグメントを考慮することにより、検索強化型生成では元の抜粋をより一貫して復元できるようになります。

モデルがさまざまな地理的状況や現象からの質問に対応できるようにするには、サポート文書のコーパスを拡張してさまざまなトピックをカバーする必要があります。考慮されるドキュメントが増えるにつれて、インデックスのサイズが増加すると予想されます。これにより、検索中に類似セグメント間の衝突の数が増加し、入力された質問に関連する情報を回復する能力が妨げられ、再現率が低下する可能性があります。

微調整

この実験では、微調整されたモデルと基本命令の微調整されたモデル間のパフォーマンスの違いを評価します。目標は、モデルが新しい知識を学習できるように微調整する可能性を理解することです。

ベースモデルとして、この論文ではオープンソースモデル Llama2-13B-chat と Vicuna-13B-v1.5-16k を評価します。これら 2 つのモデルは比較的小さく、計算とパフォーマンスの間の興味深いトレードオフを表しています。どちらのモデルも、異なるアプローチを使用して Llama2-13B を微調整したバージョンです。

Llama2-13B-chat は、教師あり微調整と強化学習によって微調整されました。 Vicuna-13B-v1.5-16k は、ShareGPT データセットの教師あり微調整によって命令が微調整されたバージョンです。さらに、この論文では、ベースとなる GPT-4 をより大規模で、より高価で、より強力な代替手段として評価しています。

モデルを微調整するために、Llama2-13B を農業データで直接微調整し、より一般的なタスク用に微調整された同様のモデルとそのパフォーマンスを比較します。この論文では、GPT-4 を微調整して、非常に大規模なモデルでも微調整が役立つかどうかを評価しています。ガイドラインによる評価結果を表18に示す。

回答の質を総合的に測定するために、本論文では正確さに加えて回答の簡潔さも評価しました。

表 21 に示すように、これらのモデルは必ずしも質問に対して完全な回答を提供するわけではありません。たとえば、一部の回答では土壌の流出が問題であると指摘されていたものの、空気の質については言及されていませんでした。

全体的に、参照回答に正確かつ簡潔に答える点で最もパフォーマンスの高いモデルは、Vicuna + Retrieval-augmented Generation、GPT-4 + Retrieval-augmented Generation、GPT-4 Fine-tuned、および GPT-4 Fine-tuned + Retrieval-augmented Generation です。これらのモデルは、正確性、シンプルさ、情報の深さをバランスよく組み合わせています。

知識の発見

この論文の研究目標は、応用研究にとって極めて重要な、GPT-4 が新しい知識を学習できるようにするための微調整の可能性を探ることです。

これをテストするために、50 州のうち少なくとも 3 州で類似している問題を選択しました。次に、埋め込みのコサイン類似度が計算され、そのような質問 1000 個のリストが特定されました。これらの質問はトレーニングセットから削除され、微調整と検索拡張生成による微調整を使用して、GPT-4 が異なる状態間の類似性に基づいて新しい知識を学習できるかどうかを評価しました。

詳しい実験結果については原著論文を参照してください。

<<:

>>: 真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。