大きなモデルが常に「事実」を間違えた場合はどうすればよいでしょうか? 300以上の論文のレビューはこちら

ビッグモデルは事実の知識を習得する上で優れた能力と可能性を示していますが、ドメイン知識の欠如、リアルタイム知識の欠如、幻覚の可能性など、ビッグモデルの応用と信頼性を大きく制限するいくつかの問題がまだ残っています。ビッグモデルの事実性に関する最近の研究はいくつかありますが、ビッグモデルの事実性の定義、影響、評価、分析、強化について十分に検討した論文はまだありません。

ウェストレイク大学は、国内外の10の科学研究機関と共同で、大規模モデルの事実性に関するレビュー「大規模言語モデルの事実性に関する調査：知識、検索、ドメイン特異性」を発表しました。レビューでは、300以上の論文を調査し、事実性の定義と影響、大規模モデルの事実性の評価、大規模モデルの事実性のメカニズムとエラー生成の原理、大規模モデルの事実性の強化に焦点を当て、大規模モデルの事実性の詳細なレビューと概要を提供しました。このレビューの目的は、学界や産業界の研究者や開発者が大規模モデルの現実をより深く理解し、知識と信頼性を高めることです。

論文リンク: https://arxiv.org/pdf/2310.07521.pdf
オープンソースリンク: https://github.com/wangcunxiang/LLM-Factuality-Survey
著者の所属: ウェストレイク大学、パデュー大学、復旦大学、イェール大学、マイクロソフトリサーチアジアなど。

1. はじめに

知識の習得は常に人工知能システムの開発における基本的な追求でした。歴史的に、McCarthy (1963) と Newell (1976) の独創的な研究は、AI システムにおける知識表現と推論の重要性を強調しました。たとえば、Cyc プロジェクトは、AI システムに世界についての包括的な理解を提供することを目的に、常識的な知識をエンコードするという野心的な旅に乗り出しました。同時に、ミラー (1990) の WordNet プロジェクトなどの取り組みでは、単語間の意味関係を捉えた語彙データベースを作成し、AI システムが人間の言語のニュアンスを理解できるようにしようとしました。

GPT-4 などの大規模言語モデル (LLM) の出現は、特に知識の習得と応用において驚異的な能力と可能性を示したことから、学界と産業界における大きな進歩と見なされています。

LLM を知識の担い手として活用する利点は多岐にわたります。まず、専門的な知識ベースの構築と維持に必要なオーバーヘッドとコストを削減します。さらに、LLM は知識の処理と活用に対してより柔軟なアプローチを提供し、文脈を考慮した推論と新しい情報やプロンプトへの適応能力を可能にします。

しかし、LLM の比類のない力にもかかわらず、虚偽または誤解を招くコンテンツを生み出す可能性があるという懸念があります。さらに、特定のドメイン知識やリアルタイムの事実知識の欠如も、大規模モデルの使用を大幅に制限します。よくある例としては、LLM に有名人について質問すると、LLM が持っている情報に基づいて回答が生成されることがありますが、その情報は古くなっていたり間違っていたりする可能性があります。もしその人が最近、転職や賞の受賞など、キャリアに重要な変化を経験していて、その情報が LLM のトレーニングデータに含まれていない場合、生成される回答は現実に遅れをとることになります。同様に、トレーニングデータに不正確な情報 (誕生日の誤りや死亡日の誤報告など) が含まれている場合、それらのエラーも再現される可能性があります。

著者らは、LLM における事実性に関する研究の包括的な概要を提供することを目的とし、1) 事実性の問題の定義とその影響、2) 事実性を評価する手法とその定量的評価、3) LLM における事実性の基本的なメカニズムの分析と事実上の誤りの根本原因の特定、および 4) LLM の事実性を高める方法という 4 つの主要な側面を掘り下げています。

著者らは、LLM の使用を、ChatGPT などの外部知識のない LLM と、BingChat などの検索強化 LLM の 2 つの主な設定に分類しています。

この調査の完全な構造を下の図に示します。

II. 事実上の問題

著者が大規模モデルの事実性について語るとき、彼らは大規模言語モデルが常識、世界知識、ドメイン事実知識を含む事実情報と一致するコンテンツを生成する能力について言及しています。この事実情報のソースは、辞書、Wikipedia、またはさまざまな分野の教科書である可能性があります。著者は上記の表で、LLM における事実に関する質問のさまざまな例を示しています。たとえば、LLM では、医学や法律などの特定の分野における事実に関する知識が不足している可能性があります。さらに、LLM は、最終更新後に発生した事実を認識していない可能性があります。 LLM が関連事実を把握しているにもかかわらず、正しい答えを推論できないケースもあります。場合によっては、以前に学習した事実を忘れたり、思い出せなくなったりすることもあります。

事実性の問題は、幻覚、古い情報、ドメイン特異性など、大規模言語モデルの分野におけるいくつかのホットなトピックと密接に関連しています。本質的に、これらのトピックはすべて同じ問題に対処しています。それは、LLM が、空想から作成されたコンテンツ、古い情報、またはドメイン固有の知識が不足しているコンテンツを生成する可能性があるということです。したがって、著者はこれら 3 つのトピックすべてが事実の問題の範疇に入ると考えています。

ただし、これらのトピックは関連しているものの、それぞれに独自の焦点があることに注意することが重要です。

幻覚と LLM の両方における事実性の問題は、生成されたコンテンツの正確性と信頼性に関係していますが、それらは異なる側面を扱っています。幻覚は主に、根拠のない、または不合理な内容を生成する LLM を中心に発生します。 GPT4 技術レポートの定義と幻覚関連の研究から、著者は幻覚を「何らかのソースに対応しない無意味または非現実的なコンテンツを生成する」モデルの傾向として理解しています。これは、モデル学習、事実知識の獲得と活用を重視する事実問題とは異なります。具体的な比較は次の表に示されています。

一方、古い情報は、以前は正確だった情報が最近の知識に置き換えられた状況、または新しい、存在しない出来事が発生した状況に焦点を当てています。最後に、ドメイン特異性は、特定の専門知識を必要とするコンテンツの生成を重視します。これらの違いにもかかわらず、3 つのトピックはすべて、LLM におけるより広範な事実上の課題に対するより深い理解に貢献します。

このレビューでは、次の 2 つの設定に焦点を当てます。

1. 標準 LLM: LLM を直接使用して回答やチャットを行います。
2. 検索強化型 LLM: 検索強化型 LLM の生成。

3. 事実評価

この章では、大規模モデルの事実性、ベンチマーク、評価方法、およびドメイン固有の事実評価の評価メトリックに焦点を当てます。

事実評価指標:

著者らは、NLG で一般的に使用されるいくつかの自動評価メトリックを紹介し、特に事実に基づくメトリックを検討します。

この記事では、これらの指標を次のカテゴリに分類します。

（１）ルールに基づく評価指標
（２）ニューラルネットワークに基づく評価指標
（３）人間による評価指標
（４）大規模モデルの評価指標

事実に基づくベンチマーク:

著者は、大規模モデルの実際の評価のためのベンチマークと、そのタスクの種類、データセット、評価指標、およびそれに対する現在の代表的な大規模モデルのパフォーマンスを紹介します。具体的な内容は次の表のとおりです。

事実に基づく評価方法:

著者らは、新しい評価ベンチマークを導入せずに大規模モデルの事実性を評価する研究を紹介し、代わりに評価手法や測定基準を開拓した研究、または LLM の事実性の評価に独自の洞察を提供した研究に焦点を当てています。

著者は、次の図に示すように、タスク、データセット、指標、人間による評価の有無、評価対象の大規模モデル、および各作業の粒度を紹介しています。

同時に、モデルの事実性を高めるためのいくつかの研究でも、従来のタスクデータセットが使用されています。著者は、次の表に示すように、これらの研究の評価方法とデータセットも含めます。

特定の分野における事実の評価:

特定の分野における事実評価のベンチマーク。表には、対応する研究で評価されたドメイン、タスク、データセット、および LLM が示されています。

4. 事実分析

この章では、大規模モデルの事実性の内部メカニズムと、大規模モデルが事実上の誤りを生み出す理由に焦点を当てます。

具体的には、大規模モデルの事実性の内部メカニズムの分析には、大規模モデルが事実知識を保存、処理し、事実コンテンツを生成するメカニズム、特に知識の保存、知識の整合性と認識、文脈の影響と知識の衝突の分析が含まれます。事実エラーの原因は、ドメイン知識の欠如、古い情報、不完全な記憶、忘却、推論エラーを含むモデルレベル、不十分な情報、破壊的な情報、モデルが受け入れない情報、関連情報の誤解を含む検索レベル、スノーボール効果、誤ったデコード、表示エラーを含む推論レベルの3つのレベルに分けられます。

5. 事実性の強化

この章では、スタンドアロン大規模モデル (LLM) や検索拡張大規模モデル (検索拡張 LLM) への応用を含む大規模モデルの事実性を強化する方法に焦点を当て、ドメイン知識強化大規模モデル (ドメイン事実性強化 LLM) についても詳細に説明します。

独立した大規模モデルの生成に焦点を当てる場合、拡張戦略はおおよそ 3 つのカテゴリに分けられます。

1. 教師なしコーパスから事実の知識を獲得する: これには、事前トレーニング中にトレーニングデータを最適化すること (たとえば、重複を削除したり、有益な単語を強調したりすること) が含まれます。
2. 教師ありデータから事実の知識を取得する: このカテゴリの例には、ラベル付きデータを使用した微調整、知識グラフなどの構造化された知識からの統合、モデルパラメータの微調整に重点を置いた教師あり微調整戦略が含まれます。
3. 生成中にモデルから事実の知識を最適に抽出する: このカテゴリは、マルチエージェントや革新的なプロンプトなどの方法、およびファクトコアサンプリングなどの新しいデコード方法を含む、モデルが事実の知識を出力できるようにします。

検索強化のための大規模モデル生成に焦点を当てる場合、強化戦略はおおまかに次の 3 つのカテゴリに分けられます。

1. インタラクティブな検索と生成: 検索システムは関連情報を取得するように設計されていますが、正確または包括的なデータを取得できない場合があります。さらに、LLM は識別が困難であったり、取得したコンテンツによって誤解を招いたりする可能性もあります。インタラクティブな検索メカニズムを実装すると、LLM はより優れたコンテンツを生成できるようになります。関連する作業には、Chain-of-Thoughts 推論の中間ステップを検索に適用することや、LLM ベースのエージェントフレームワークを使用して LLM が外部の知識 API と対話し、LLM によって生成された事実上のエラーを修正するためのフィードバックを提供できるようにすることが含まれます。
2. LLM を検索生成に適応させる: LLM で検索情報のみを使用すると、必ずしも事実に関する質問に答える能力が向上するわけではありません。これは、モデルが検索されたデータに適応できないことが原因である可能性があります。いくつかの適応戦略は、大規模モデルが取得したデータをより有効に活用するのに役立ちます。具体的には、著者らはプロンプトベースの方法、SFT ベースの方法、RLHF ベースの方法の 3 種類の方法を検討しました。これらの方法により、検索の精度が向上し、LLM が検索ソースを引用できるようになります。
3. 他の知識ベースからの検索: このカテゴリには、モデルの事実的知識を強化するために外部パラメータメモリまたは知識グラフから検索する方法が含まれます。

著者は、次の図に示すように、評価データセット、指標、ベースライン効果、およびその方法を使用した後の効果など、効果を実証するためにいくつかの事実に基づく強化方法を選択しました。

ドメインの事実性が強化された大規模モデル:

著者らは、特定のドメインについて事実性が強化された LLM をリストアップしています。医療・健康（H）、金融（F）、法律・法務（L）、地球科学・環境（G）、教育（E）、食品検査（FT）、住宅改修（HR）など、さまざまな分野をカバーしています。特定の分野における LLM の実際の適用シナリオと著者による以前の拡張方法の分類に基づいて、一般的に使用されるいくつかの拡張手法をまとめました。

1. 継続的な事前トレーニング: ドメイン固有のデータを使用して、事前トレーニング済みの言語モデルを継続的に更新および微調整する方法。このプロセスにより、モデルが特定のドメインまたは分野内で最新の状態に保たれ、関連性が維持されます。通常は一般的な言語モデルである初期の事前トレーニング済みモデルから開始し、その後、ドメイン固有のテキストまたはデータを使用して微調整します。新しい情報が出てくると、進化する知識領域に適応するためにモデルをさらに微調整することができます。継続的な事前トレーニングは、テクノロジーや医療などの急速に変化する分野において AI モデルの精度と関連性を維持するための強力な方法です。
2. 継続的 SFT: AI モデルの事実性を高めるもう 1 つの戦略。このアプローチでは、ドメイン固有のラベル付きまたは注釈付きデータを使用してモデルを微調整します。この微調整プロセスにより、モデルはドメインのニュアンスや特殊性を学習して適応できるようになり、正確で文脈的に関連のある情報を提供する能力が向上します。これは、法務データベース、医療記録、財務レポートなど、ドメイン固有のラベル付きデータが時間の経過とともに利用可能になる場合に特に役立ちます。
3. 最初からトレーニングする: 最小限の事前知識または事前トレーニングで学習プロセスを開始します。このアプローチは、白紙の状態から機械学習モデルを学習させるようなものです。既存の知識を活用できないかもしれませんが、限られた関連データしか利用できないまったく新しいドメインやタスクに取り組む場合には、ゼロからトレーニングすることが有利になる場合があります。これにより、モデルはゼロから理解を構築できるようになりますが、かなりの計算リソースと時間が必要になる場合があります。
4. 外部知識: 言語モデルの内部知識を外部ソースからの情報で補強します。このアプローチにより、モデルはデータベース、Web サイト、またはその他の構造化データリポジトリにアクセスして、事実を検証したり、ユーザーのクエリに応じて追加情報を収集したりできるようになります。外部の知識を取り入れることで、モデルはファクトチェック機能を強化し、特に動的または急速に変化する情報を扱う場合に、より正確で文脈に適した回答を提供できます。

ドメイン固有の大規模モデルごとに、著者はドメイン、モデル名、評価タスク、データセット、およびそれぞれの拡張方法を次の表に示すようにリストします。

VI. 結論

この調査では、大規模言語モデル (LLM) における事実性の問題の複雑な状況を体系的に調査します。まず、著者は事実性の概念を定義し、次にそのより広範な意味合いについて説明します。その後、著者らは、ベンチマーク、評価指標、特定の評価研究、およびドメイン固有の評価を含む事実に基づく評価のセクションに進みます。次に著者は、大規模モデルの事実性の内部メカニズムを詳細に調査しました。著者らは、純粋なビッグモデルと検索強化型ビッグモデルの両方に対する事実拡張手法について説明し、ドメイン固有の知識で拡張されたビッグモデルに焦点を当てています。

このレビューで詳述されている多くの進歩にもかかわらず、いくつかの困難な課題が残っています。自然言語の本質的な複雑さのため、事実性の評価は依然として複雑な問題です。さらに、大規模なモデルが事実の知識を保存、更新し、事実のコンテンツを生成するコアプロセスはまだ完全には明らかにされていません。継続的なトレーニングや検索などの事実拡張技術には将来性があるものの、依然として限界があります。

将来的には、現実に忠実な大規模モデルの探求は、課題と機会の両方をもたらします。今後の研究では、大規模モデルのニューラルアーキテクチャに関する理解が深まり、より堅牢な評価指標が開発され、拡張技術が革新される可能性があります。大規模モデルがデジタルエコシステムにますます統合されるようになるにつれて、その事実上の信頼性を確保することが引き続き重要になり、AI コミュニティだけでなくそれ以外の分野にも影響を及ぼします。

<<:

>>: