Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

BARD や CHATGPT/GPT-4 などの大規模言語モデルの機能は誰の目にも明らかです。これらは、さまざまなトピックについてマルチターンの会話を実行できる多目的オープンドメインチャットボットとして設計されています。彼らは人々が多くのタスクを完了するのを手助けすることができますが、それは彼らが全能であるという意味ではありません。

「幻覚」と古い情報は、これらの大規模モデル応答の信頼性を低下させます。これは、企業の株価など、リアルタイムの情報更新が必要な分野では特に深刻です。

GPT-4と話すと、情報の更新が制限されていることに気づくだろう。

この現象は、パラメータにエンコードされた古い知識の存在に一部起因していると考えられます。人間によるフィードバックや知識増強タスクによる追加トレーニングによってこの問題を軽減することはできますが、このアプローチを一般化するのは容易ではありません。さらに、コンテキスト学習は、LLM のプロンプトにリアルタイムの知識を注入して条件を生成する魅力的な代替手段です。最近のいくつかの研究では、LLM を強化するために Web 検索結果の使用を検討し始めていますが、検索エンジンの出力を最大限に活用して LLM の事実性を向上させる方法はまだ不明です。

新しい論文で、Google、UMass Amherst、OpenAI の研究者らは、Perplexity と GPT-4 w/prompting が Google 検索よりも優れていることを発見しました。同時に、技術系以外の人々が検索クエリで他の LLM ではなく Perplexity を使用するケースが増えています。それで、Google 検索は本当に LLM に置き換えられるのでしょうか?

一部のネットユーザーは、LLMは簡単な質問ではより良い成績を収めたが、大規模モデルの「幻覚」問題については依然として慎重であり、Google検索を使用して大規模モデルの応答を検証したと述べた。

実際、研究者たちは、大規模モデルにおける知識が古くなる問題の解決にも取り組んでいます。次に、その結果を見てみましょう。

論文アドレス: https://arxiv.org/pdf/2310.03214.pdf

FRESHQAデータセット

この研究で、研究者らはまず、既存の LLM 生成コンテンツの事実性を評価するために、「FRESHQA」と呼ばれる新しい品質保証ベンチマークを作成しました。 FRESHQA には 600 個の自然な質問が含まれており、図 1 に示すように大まかに 4 つのカテゴリに分類されます。これらの質問はさまざまなトピックに及び、難易度もさまざまで、正しく回答するにはモデルが世界の最新の知識を「理解」する必要があります。

さらに、FRESHQA は動的です。つまり、一部の真実の回答は時間の経過とともに変化する可能性があり、特定のカテゴリに分類された質問は、後で再分類される可能性があります。たとえば、「マスク氏は現在の配偶者とどのくらい結婚していますか？」という質問は、現時点では誤った推論の質問ですが、マスク氏が将来再婚した場合、質問が分類されるカテゴリを変更する必要があるでしょう。

研究者らは、FRESHQA のデータ収集のために、NLP 研究者のグループ (著者とその同僚を含む) とオンラインのフリーランスライターを募集しました。 4 種類の質問のそれぞれにおいて、注釈者は 2 つの異なる難易度の質問を作成するよう求められました。1 つはワンホップで、質問に回答するために必要なすべての関連情報が明示的に記載されているため、追加の推論は必要ありません (例: Twitter の CEO は誰か)。もう 1 つはマルチホップで、質問に回答するために必要なすべての関連情報を収集するために、1 つ以上の追加の推論ステップが必要な質問です (例: 世界で最も高いビルの合計高さはどれくらいですか)。

私たちは、FRESHQA 上のさまざまな LLM のパフォーマンスを測定するために、質問といくつかの Q&A デモンストレーションを提示し、その応答をサンプリングし、その後、5 万件を超える判断を含むモデルの応答の事実上の正確性について人間による広範な評価を実施します。ここでは、各回答を評価するために 2 つのモードの評価手順が使用されます。「RELAXED」モードでは、主な回答が正しいかどうかのみを測定し、「STRICT」モードでは、回答内のすべてのステートメントが最新の事実であるかどうか (つまり、幻覚がないかどうか) を測定します。

この評価プロセスにより、古い LLM と新しい LLM の事実性が明らかになり、問題の種類の違いによるモデルの動作の違いが明らかになります。予想どおり、急速に変化する知識を伴う問題では、スケーリング曲線は平坦です。つまり、モデルのサイズを単純に増やしても、信頼できるパフォーマンスの向上にはつながりません。彼らは、誤った前提に関する質問でも同様の傾向を観察しました。ただし、一部の LLM では、「回答する前に、質問に有効な前提が含まれているかどうかを確認してください」と明示的に尋ねることで、誤った前提の質問を明らかにすることができます。

全体的に、FRESHQA は確かに現在の LLM にとっての課題であり、改善の余地が大いにあることを示しています。

検索エンジン強化言語モデルのヒント

上記の調査に触発されて、研究者らは、検索エンジンによって提供される正確で最新の情報を LLM 応答の基礎として使用することで、LLM の事実性を効果的に改善する方法をさらに研究しました。大規模 LLMS の急速な成長と知識の絶え間ない変化を考慮して、研究者は、LLM がプロンプトを通じて推論中に提供される知識に集中できるようにするコンテキスト学習方法を研究してきました。

その後、研究者らは、LLM 検索エンジン強化が FRESHQA に与える影響を評価し、シンプルな数ショットのヒント方法である FRESHPROMPT を提案しました。このアプローチでは、検索エンジン (Google 検索) から取得した最新の関連情報をプロンプトに組み込むことで、LLM の FRESHQA パフォーマンスが大幅に向上します。

下の図 3 は FRESHPROMPT の形式を示しています。

FRESHPROMPTメソッド

FRESHPROMPT アプローチは、テキストプロンプトを活用して、検索エンジンからのコンテキスト関連性の高い最新情報 (関連する質問への回答を含む) を事前トレーニング済みの LLM に導入し、取得した証拠について推論するようにモデルに教えます。

具体的には、質問 q が与えられた場合、研究者はまず q を文字通り使用して検索エンジン（ここでは Google 検索）にクエリを実行します。彼らは、回答ボックス、オーガニック検索結果、その他の有用な情報（ナレッジグラフ、クラウドソーシングされた QA プラットフォーム上の質問と回答など）、および検索ユーザーが尋ねた関連する質問を含むすべての検索結果を取得しました。例を以下の図 6 に示します。

研究者は、それぞれの結果について、関連するテキストスニペットxに加えて、ソースs（Wikipediaなど）、日付d、タイトルt、強調表示されたテキストhなどの他の情報を抽出し、取得したk個の証拠を含むリストE = {（s、d、t、x、h）}を作成しました。次に、証拠は共通形式に変換され (上の図 3 の左側を参照)、コンテキスト内学習を通じてモデルが調整されます。さらに、モデルが最近の結果に基づいて新しい証拠に焦点を当てるようにするために、プロンプト内の証拠 E を古いものから新しいものの順に並べ替えました。

モデルがタスクと予想される出力を理解できるように、研究者は入力プロンプトの冒頭で入力と出力の例のいくつかのショットのデモンストレーションを提供します。各デモンストレーションでは、まずモデルにサンプルの質問とその質問に対して取得した証拠のセットを提供し、次に証拠に対して一連の推論を実行して、最も関連性の高い最新の回答を見つけます (図 3 の右を参照)。

研究者たちはデモンストレーションに誤った前提を持つ質問の例をいくつか含めましたが、「回答する前に、質問に有効な前提が含まれているかどうかを確認してください」など、プロンプトで誤った前提を明示的にチェックすることも試みました。下の図 7 は実際のプロンプトを示しています。

実験のセットアップ

FRESHPROMPT 設定では、取得した証拠を入力プロンプトに統合することで、FRESHPROMPT を GPT-3.5 と GPT-4 に順次適用しました。これらの証拠には、自然な検索結果 0、検索ユーザー r による関連する質問、クラウドソーシングされた QA プラットフォームからの質問と回答 a、ナレッジグラフと回答ボックス (利用可能な場合) からのテキストスニペットが含まれます。モデルコンテキストの制限を考慮して、対応する日付に従って並べ替えた後、上位 n 個の証拠（プロンプトの最後に近いもの）のみを保持しました。

特に明記しない限り、GPT-3.5では(o, r, a, n,m) = (10, 2, 2, 5)、GPT-4では(o, r, a, n,m) = (10, 3, 3, 10)を使用しました。さらに、プロンプトの冒頭に m = 5 の質問と回答のデモンストレーションを含めました。

実験結果

FRESHPROMPT は FRESHQA の精度を大幅に向上させます。以下の表 1 に、STRICT モードでの具体的な数値を示します。ご覧のとおり、FRESHPROMP は、オリジナルの GPT-3.5 および GPT-4 と比較して、全般的に大幅な改善を実現しています。

その中で、GPT-4 + FRESHPROMPT は、GPT-4 と比較して、STRICT モードと RELAXED モードでそれぞれ 47% と 31.4% の絶対精度の向上を達成しました。 STRICT と RELAXED 間の絶対精度のギャップが 17.8% から 2.2% に減少したことからも、FRESHPROMP によって古い回答や幻覚的な回答の発生が大幅に減少することが分かります。

さらに、GPT-3.5 および GPT-4 に対する最も顕著な改善点は、最先端の知識を必要とする急速および緩やかに変化する問題のカテゴリにあります。つまり、古い知識に関する質問も FRESHPROMPT の恩恵を受けることになります。たとえば、STRICT モードでは、2022 年以前の有効な知識の前提を含む質問の場合、GPT-4 + FRESHPROMPT の精度は GPT-4 よりも 30.5% 高くなります。RELAXED モードでは、この数値は 9.9% になります。

さらに、FRESHPROMPT は誤った前提問題に関しても大きな進歩を遂げており、STRICT モードと RELAXED モードでの GPT-4 の精度はそれぞれ 37.1% と 8.1% 向上しました。

さらに、FRESHPROMPT では次の結果が示されました。

他の検索強化方法よりも大幅に優れています。
前提チェックは、誤った前提を持つ質問の正確性を高めますが、有効な前提を持つ質問の正確性を損ないます。
入力コンテキストの最後に、より最近の関連性の高い証拠を提供すると役立ちます。
自然な検索結果を超えて取得される追加情報により、さらなる利益が得られます。
より多くの証拠が取得されると、FRESHPROMPT がさらに改善されます。
長いプレゼンテーションは複雑な質問に答えるのに役立ちますが、錯覚も増大させます。

研究者らは、現在は質問ごとに 1 つの検索クエリしか実行していないため、質問を分解して複数の検索クエリを実行することで、さらなる改善が達成できる可能性があると述べています。さらに、FRESHQA は比較的簡単な英語の質問で構成されているため、多言語/クロスリンガル QA や長文 QA のコンテキストでどのように機能するかは不明です。最後に、FRESHPROMPT はコンテキスト内学習に依存しているため、新しい知識に基づいて基本 LLM を微調整するアプローチほど優れていない可能性があります。

より技術的な詳細については、元の論文を参照してください。

>>: 香港科技大学のタン・ピン氏のチームが3D生成における重要な問題を突破し、多頭モンスターの出現を防止