パーシー・リャンらによる新しい研究：新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない

生成型検索エンジンは、入力クエリとオンライン引用に対する応答を直接生成することで、ユーザーの情報ニーズを満たします (下の図 1 を参照)。既存の生成検索エンジンは急速にユーザー数を増やしており、Microsoft は「毎日のプレビューユーザーの約 3 分の 1 が Bing Chat を毎日使用している」と報告しており、Bing Chat はパブリックプレビューの最初の 1 か月で 4,500 万件のチャットを処理しました。

生成型検索エンジンは、人々がオンラインで情報を探す方法を変える可能性を秘めていますが、現在、大規模な言語モデルに基づいて生成型検索エンジンによって生成される応答は正確ではない可能性があります。しかし、これらのシステムの潜在性と急速な普及を考慮すると、これらのシステムを評価し、潜在的な限界をよりよく理解することが重要です。

生成型検索エンジンが信頼できるための前提条件は、検証可能性です。つまり、生成された外部世界のそれぞれの説明は、一連の関連する引用によって完全にサポートされる必要があり、それぞれの引用は、そこから生成された関連する説明をサポートする必要があります。検証可能性により、読者は生成された説明が引用元によってサポートされているかどうかを簡単に確認できます。

私たちは、一連の情報探索タスク（例：NaturalQuestions からのさまざまな種類の過去の Google ユーザークエリ、Reddit から動的に収集された自由形式の質問。例については表 1 を参照）に対する人間による評価を通じて、4 つの一般的な商用生成検索エンジン（Bing Chat、NeevaAI、perplexity.ai、YouChat）を監査しました。

研究者は、クエリと回答のペアごとに、人間による評価を使用して次の側面を測定しました。

1. 流暢さ（生成されたテキストが滑らかで一貫性があるかどうか）

2. 認識された有用性（生成された応答がクエリに役立つかどうか、十分な情報が含まれているかどうか）。

3. 引用再現率（外部世界に関する生成されたステートメントのうち、引用によって完全に裏付けられているものの割合）

4. 引用精度（関連する記述を裏付ける引用の割合）。

信頼できる生成検索エンジンは、高い引用再現率と精度を達成する必要があります。これは、生成する引用が包括的 (生成された各説明が引用によって十分に裏付けられている) かつ正確 (各引用が関連する説明をサポートしている) であることを示します。

研究者らは、既存の生成検索エンジンの応答は一般的に流暢性が高く、有用性もかなり認識されているものの、裏付けのない文を返したり、不正確な引用（引用再現率と精度が低い）を含んだりすることが多いことを発見しました。平均すると、生成された文の 51.5% のみが完全な引用サポート (引用再現率) を持ち、引用の 74.5% のみが関連する文をサポートします (引用精度)。

さらに、引用の想起と精度は流暢さや認識された有用性と逆相関しており、より役に立つと思われる回答は、裏付けとなる説明がないものや不正確な引用を含むものであることがよくありました。この信頼性の外観により、既存の生成検索エンジンがユーザーを誤解させる可能性が高まります。図 1 の例では、ジェイムズ・ウェッブ宇宙望遠鏡についての背景知識がほとんどないユーザーは、生成された応答がその説明をサポートしていないことを認識するのが難しい可能性があります。

研究者たちは、この逆相関は、生成型検索エンジンの一部が参照するウェブページを頻繁にコピーまたは書き換えることから生じると仮説を立てています。このようなシステムは高い引用再現率と精度を実現しますが、コピーされた文の一部はユーザーの質問や生成された応答の残りの部分とは無関係である可能性があり、その結果、応答の流暢性と認識される有用性指標が低下します。

流暢さ、実用性、検証可能性に関する人間による評価

流暢さと実用性の認識の測定

応答の流暢さを測定するために、研究者は注釈者にユーザーのクエリを示し、応答を生成し、「応答は流暢で首尾一貫していた」と主張した。また、注釈者には、回答に対する同意度を「全く同意しない」から「強く同意する」までの5段階リッカート尺度で評価するよう依頼した。同様の手順が知覚効用を測定するために使用され、受験者に「回答は質問に対する有用かつ有益な回答である」という文にどの程度同意するかを評価するよう求められました。

引用再現率の計算

引用再現率は、関連する引用によって完全に裏付けられ、検証する価値のある文の割合です (例については下の図 2 を参照)。したがって、引用再現率を計算するには次のものが必要です。

（１）回答書の中で検証する価値のある記述を特定する。

（２）検証に値する各記述が関連する引用によって十分に裏付けられているかどうかを評価する。

引用精度の計算

引用精度は、問題の声明を支持する生成されたすべての引用の割合です（図2の例を参照）。リコールとは異なり、引用精度の概念は、システムが正確に引用する能力を評価することです。生成されたステートメントがインターネット上のすべての Web ページを引用している場合、引用再現率は高くなる可能性がありますが、引用精度は低くなります (多くの記事が無関係であり、関連するステートメントをサポートしていないため)。回答rの引用精度を測定するために、研究者は、注釈者が各引用c_i,kが関連するステートメントs_iをサポートしているかどうかを判断するための次の3つの基準を提供しました（例については、図1の引用されたWebページを参照してください）。

完全に裏付けられています: 声明内のすべての情報は引用によって裏付けられています。
部分的に裏付けられている: 文中の一部の情報は引用によって裏付けられていますが、他の部分は裏付けられていません (例: 欠落している、または矛盾している)。
裏付けなし: 引用は文のどの部分も裏付けていません (例: 引用された Web ページはまったく無関係または矛盾しています)。

結果と分析

流暢さと実用性

生成型検索エンジンによって生成された応答のいくつかは、流暢で役立つように思えました。以下の表 3 は、各クエリ分布に対するこれらの検索エンジンの応答の流暢性を示しています。

表 4 に、それらの認識された有用性を示します。

引用再現率と精度

表 5 は、評価されたクエリ分布における生成検索エンジンの引用再現率に関するデータを示しています。

以下の表 6 は、評価されたクエリ分布における検索エンジンの引用精度に関する実験データです。

既存の生成型検索エンジンでは、引用を正しく引用できないことがよくあります。すべてのシステムを平均すると、生成された文のうち引用によって完全にサポートされていたのは 51.5% のみ (再現率)、関連する文を完全にサポートしていたのは引用の 74.5% のみ (精度) でした。生成された応答は有益で役立つように見えることが多いが、研究者は、すでに何百万人ものユーザーがおり、ユーザーの質問に答えるための主要なツールとして急速に普及しつつあるシステムにとって、これらの結果は受け入れられないと考えている。

さまざまな生成検索エンジン間で引用の再現率と精度を比較すると、引用の再現率と精度は大きく異なります。平均すると、perplexity.ai が最高の平均再現率 (68.7) を達成し、他の 3 つは最高の平均再現率 (67.6)、Bing Chat (58.7)、YouChat (11.1) を達成しました。

精度に関しては、Bing Chat が最高の精度 (89.5) を達成し、次いで perplexity.ai (72.7)、NeevaAI (72.0)、YouChat (63.6) となりました。

最も再現率の高いシステムと最も再現率の低いシステム (perplexity.ai 対 YouChat) の間には約 58% の差があり、最も精度の高いシステムと最も精度の低いシステム (Bing Chat 対 YouChat) の間には約 25% の差があることがわかります。

検索エンジン間で異なるクエリ分布の引用再現率を比較します。レビュークエリの分布を変更すると、引用精度を変更するよりも引用の再現率に影響するようです。たとえば、長い回答を含む NaturalQuestions クエリと非 NaturalQuestions クエリの引用再現率の差は、約 11% (それぞれ 58.5 対 47.8) です。同様に、短い回答のある NaturalQuestions クエリと短い回答のない NaturalQuestions クエリ間の引用再現率の差は、約 10% です (短い回答のあるクエリの場合は 63.4、長い回答のみのあるクエリの場合は 53.6、長い回答も短い回答もないクエリの場合は 53.4)。

研究者たちは、引用の想起は検索されたウェブページの関連性によって決まるという仮説を立てた。ユーザーのクエリに直接答える証拠が取得されない場合、システムは引用をサポートしないステートメントを生成するため、再現率が低下します。たとえば、自由形式の AllSouls エッセイの質問で評価した場合、生成検索エンジンは引用リコール (平均リコール 44.3) が低くなりました。これは、これらのクエリにはインターネット上で抽出可能な回答がないことが多いためです。

異なるクエリ分布の引用精度を比較すると、長い回答を含む NaturalQuestions クエリの精度は、非 NaturalQuestions 分布の精度よりも高くなります (76.1 対 72.3)。単一のクエリ分布の結果を調べると、生成検索エンジンは、段落回答タイプの NaturalQuestions クエリで評価されたときに最高の精度を達成します (短い回答がある場合は 81.5、長い回答のみがある場合は 78.7)。一方、引用精度は、AllSouls 自由記述エッセイ問題 (67.8) と davinci-debate クエリ (70.3) でシステムを評価したときに最も低くなります。 NaturalQuestions サブ分布を比較すると、短い回答のクエリの平均システム精度 (77.4) は、長い回答のみのクエリ (74.8) や長い回答のないクエリ (73.5) よりも高くなります。

手動評価の結果をまとめると、表7に評価対象システムの平均引用F_1が示されています。図3は、平均知覚効用と平均引用F_1の比較を示しています。

既存の検索エンジンシステムは、引用再現率、引用精度、および認識される有用性の間でさまざまなトレードオフを行います。

引用再現率と精度は、正確性、流暢さ、および認識される有用性と反比例する。

研究者たちは実験を通じて、既存の生成検索エンジンでは、引用再現率と精度が流暢性と認識される有用性に反比例することを発見しました。引用再現と精度、流暢性と知覚された有用性の間のピアソン相関係数を計算したところ、両者は強い負の相関関係にあり、特に精度はより強い傾向を示していることがわかりました（表8）。

たとえば、Bing Chat は最高の精度を達成しましたが、流暢性と認識される有用性は最も低かったです。対照的に、YouChat は再現率と精度が最も低かったものの、回答の流暢性と実用性の評価は最も高かった。

生成型検索エンジンは、参照先のウェブページのコンテンツをコピーしたり、わずかに書き換えたりすることが多い。

以下の表 9 は、生成されたステートメントと、それを裏付ける Web ページから抽出された証拠との類似性指標を示しています。検索エンジンによって作成されたステートメントが引用によって完全にまたは部分的に裏付けられている場合、そのステートメントは引用元の記事から直接コピーまたは言い換えられていることがよくあります。

<<: AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

>>: テスラのデータラベリングシステムを理解する