オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さにより、必然的に古い情報や誤った情報が含まれるようになり、出力品質に大きな課題が生じます。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも幻覚の一種です。大規模モデルにおける生成幻覚の問題をどのように検出し、効果的に軽減するかは、学界では常に注目されている話題です。

最近、Amazon 上海 AI 研究所は、きめ細かい大規模モデル幻覚検出ツールである BSChecker をリリースしました。このツールには、次の重要な機能が含まれています。

きめ細かい幻覚検出フレームワークは、大規模なモデル出力テキストに対して 3 段階の幻覚検出を実行します。
幻覚検出ベンチマークテストセットには、ユーザーのさまざまなニーズを満たす 3 つのタスクシナリオが含まれています。
2 つのベンチマークリーダーボード。現在、15 の主要な主流モデルの幻覚検出結果をカバーしています。

さらに、BSChecker の作者らは、Gemini の打ち上げ直後に自動検出錯視テストも実施しました。

幻覚検出フレームワークの概略図

プロジェクトアドレス: https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
リーダーボードアドレス: https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術的なハイライト

より細かい粒度: 従来の段落レベルまたは文レベルの分析方法とは異なり、BSChecker は大規模なモデルの出力テキストを知識トリプルに分解します。このようなきめ細かい検出により、個々の知識の真正性を検証できるだけでなく、さらに正確な分析を行う可能性も得られます。

通常、幻覚検出の最小単位をクレームと呼びます。これまでの研究では、出力テキスト内の文をステートメントとして使用するもの（SelfCheckGPT）や、出力テキストから短い節をステートメントとして抽出するモデルを使用するもの（FActScore、FACTOOL）があります。 BSChecker は、クレームを表現するために知識トリプルの使用を検討します。これは、トリプルを使用して事実と知識単位をカプセル化するナレッジグラフからヒントを得たアイデアです。知識トリプルは、(主語、述語、目的語) の構造を採用して、出力テキストにきめ細かい情報を取得します。次の例は、文とそれに対応する細粒度トリプル表現を示しています。

ウー・ジンは映画『戦狼』で主人公のレン・フェンを演じた。

三元ラベルモード: 出力テキスト全体を幻覚の有無の 2 つのカテゴリラベルに分類する従来の幻覚検出方法とは異なり、BSChecker は出力テキスト内の各ステートメントに対して幻覚の検出と分類を実行します。このようにして、出力テキストと対応する参照テキストの関係を次のように視覚化できます。

図中の出力テキストと参照テキストの交差部分は直接検証できる部分であり、文が参照テキストによってサポートされているかどうかに応じて、含意（図中の緑色のチェック✅）と矛盾（図中の赤色の十字❌）の2つのカテゴリに分けられます。ただし、実際のアプリケーションでは、参照テキストがすべての主張を検証するのに十分な証拠を常に提供するとは限りません。この場合、これらのステートメントの真実性を評価するには追加の参照テキスト (オレンジ色の疑問符) が必要であり、このようなステートメントを中立と呼びます。

これら 3 つのカテゴリは、ファクトチェックの分野におけるサポート、反論、情報不足の概念と密接に関連しており、自然言語推論 (NLI) にも応用されています。 BSChecker は、この 3 値ラベル付けモデルを使用して従来の 2 値分類ラベルを置き換え、出力テキストと参照テキストの関係をより正確に表現できるようにします。

より広い範囲をカバー: BSChecker は、大規模モデルに入力されるコンテキストの量と質に応じて、コンテキストなし (自由形式の質問応答タスクなど)、ノイズの多いコンテキスト (検索強化生成タスクなど)、正確なコンテキスト (テキスト要約、情報抽出タスクなど) の 3 つの異なるシナリオを設定します。

3つのシナリオの比較の概略図

これら 3 つのシナリオに基づいて、著者らは各シナリオにつき 100 例、合計 300 例からなるベンチマークデータセットを構築しました。これらの例は、次の表にリストされているデータソースからランダムに抽出されます。

BSCheckerワークフロー

BSChecker には、クレーム抽出器 E、幻覚検出器 C、および集約ルール τ の 3 つの構成可能なモジュールに分割されたモジュール式ワークフローがあります。これら 3 つのモジュールは互いに分離されており、一部のモジュールを強化することでフレームワーク全体を拡張および改善できます。

BSCheckerワークフロー図

2 つの主なモジュールは次のとおりです。

大規模モデルに基づくクレーム抽出器: 著者らは、大規模モデルがクレームトリプレットの抽出に適していることを発見しました。現在のバージョンでは、クレーム抽出器として GPT-4 と Claude 2 を使用しています。
手動またはモデルベースの幻覚検出器: 指定されたクレームトリプルと参照テキストに対して、注釈者は以下の図に示すようにそれに応じて注釈を付けることができます。注釈ツールも近日中にリリースされる予定です。モデルベースの幻覚検出器については、後続の自動評価リーダーボードセクションで紹介します。

コンテキストフリーシナリオにおける評価プロセス

手動評価結果

BSChecker には現在、GPT-4、Claude 2、LLaMA 2 などの 7 つの主流の大規模モデルを網羅した、きめ細かい手動注釈が付いた 2,100 個の大規模モデル出力テキストが含まれています。この結果に基づいて、著者はインタラクティブなランキングリストを作成しました。下の図を参照してください。手動評価ランキングリストには、2 つのインタラクティブオプションが含まれています: 1) 上記の 3 つのタスクシナリオと、3 つのシナリオの平均結果 (上部のオプション)。2) 評価指標 (左側の [ランキング基準] オプション)。次の図は、含意順位に基づいたランキングリストを示しています。

手動評価の結果に基づいて、著者らは以下の発見をしました。

事実に基づいた正確なテキストを出力するには、文脈情報が重要となる。

平均すると、コンテキストなしからノイズの多いコンテキスト、正確なコンテキストへと移行すると、矛盾する評価の割合は 21% から 11%、さらに 5% に減少します。

信頼性の点では、最新の商用クローズドソースのビッグモデルは、ほとんどのオープンソースのビッグモデルよりも強力です。

Claude 2、GPT-4、GPT-3.5-Turbo などの最新の商用大規模モデルは、ほとんどのオープンソース大規模モデルよりも幻覚を少なく生成します。具体的には、商用の大規模モデルは、正確なコンテキストシナリオで優れたパフォーマンスを発揮します。たとえば、GPT-4 はこのシーンではほとんど幻覚を示しませんでした (矛盾 0.9%、中立 1.2%)。 LLaMA 2 70B は、特にコンテキストが提供されている場合、リーダーボード上の商用大規模モデルの結果に近い値を示します。

GPTシリーズの大型モデルのリアリティは着実に向上している

GPT-4 は GPT-3.5 よりも優れており、InstructGPT よりもはるかに優れています。著者は、関連文献からいくつかの考えられる説明を見つけてまとめました。詳細については、コードリポジトリの README を参照してください。実験の 1 つでは、同じテキストを GPT-4 に入力し、それを解釈するように要求しました。これは、修正された検索拡張生成 (RAG) シナリオです。興味深いことに、GPT-4 は、信頼性の点で InstructGPT が GPT-3.5 よりも優れていると主張することで明らかな間違いを犯しています。

最新の商用モデルであっても、コンテキストフリーのシナリオは依然として困難である。

GPT-4 と Claude 2 はオープンソースの大規模モデルよりも大幅に優れていますが、GPT4 では依然として 10% を超えるエラーがあり、これは無視できないエラー率です。 Claude 2 は比較的保守的で、エラー (矛盾など) は少なくなりますが、検証できない出力テキストが多くなる傾向があります。

自動評価ランキング

人間による注釈は、大規模なモデルの幻覚に関する洞察を提供するのに役立ちますが、より大規模なモデルを評価するには拡張性がありません。 BSChecker フレームワークでは、モデルベースの幻覚検出器をプラグインすることができ、著者らは、大規模モデルと自然言語推論 (NLI) モデルが適切な選択であると考えています。コマンドラインから簡単に構成できるため、完全に自動化されたエンドツーエンドの幻覚検出フレームワークが実現します。

次のアニメーションは、GPT-4 をステートメント抽出器および幻覚検出器として取得したランキングを示しています。著者らは現在、リーダーボード上の 15 個の大規模モデルを評価しています。ユーザーはツールを使用して、自分の検出結果を簡単にリーダーボードに掲載できます。

自動幻覚検出フレームワークはどのように機能しますか?

著者らは、ケンドールのタウを使用して、自動ランキングと人間が評価したランキング間の一貫性を測定します。具体的には、2 つのランク間の p 値 (信頼度を示す) と tau 値 (相関関係を示す) を返す scipy.stats.kendalltau を使用しました。以下のヒートマップは、クレーム抽出器 (列)、幻覚検出器 (行)、およびタスクシナリオ (水平バー) のさまざまな組み合わせの結果を示しており、高い信頼性 (p 値 < 0.05) を持つ組み合わせを示しています。興味深いことに、これらの信頼性の高い項目は高い相関関係も示しました (tau>0.3)。たとえば、コンテキストフリーのシナリオで矛盾率でランク付けするには、ユーザーは GPT-4 クレーム抽出器と GPT-4 または NLI 幻覚検出器を使用できます。正確なコンテキストシナリオで含意率でランク付けするには、ユーザーは Claude 2 クレーム抽出器と GPT4 幻覚検出器を使用できます。

彼らはBSCheckerの自動検出フレームワークを使用してGemini上の幻覚を検出し、GPT-4をステートメント抽出器および幻覚検出器として使用し、文脈のないシナリオにおける矛盾の割合に応じてそれらをランク付けしました（上記の推奨設定と一致しています）。結果はGeminiレポートの実験結果と一致していました。さらに、合計 118 個の文トリプレットを含む出力テキストのうち 10 個に手動で注釈を付けました。注釈の結果、自動検出と手動注釈の一貫性は 90.7% に達しました。

BSCheckerの使い方

BSChecker は現在 GitHub リポジトリで利用可能であり、pip 経由でインストールできます。使用方法については、README のクイックスタートセクションを参照してください。 BSChecker を使用して知識トリプルを抽出し、トリプルレベルで幻覚を検出し、カスタムの大規模モデルを評価する方法についての詳細な手順が記載されています。さらに、ユーザーはカスタマイズした評価結果を自動評価リーダーボードに追加して、他の結果と比較することができます。

協力の招待：BSCheckerの開発を共同で推進

著者らは、幻覚のきめ細かな検出と正確な位置特定が、効果的な幻覚軽減への第一歩であると考えています。 BSChecker にはまだ改善の余地が多く残されており、皆様のオープンソースへの貢献への参加を心よりお待ちしています。考えられる方向は次のとおりです:

オープンソースのクレーム抽出器と幻覚検出器: 現在、最高のパフォーマンスを発揮する構成では、クローズドソースの商用大規模モデルを使用しています。著者らは、現在のバージョンに自然言語推論ベースの幻覚検出器も組み込んでいます。高速化はされていますが、長いドキュメントを処理する場合、依然として大きなパフォーマンスのギャップがあります。
誤ったメモリトレーシング: コンテキストフリーのシナリオでは、検索エンジンを使用して最新の参照を見つけるのは非常に粗雑な解決策です。しかし理想的には、大規模モデルのトレーニングデータに戻って、問題のあるメモリを遡る必要があります。
トリプル抽出の最適化: トリプルは簡潔ですが、より複雑なセマンティクスを処理するのは困難です。これらはテキストのサンプルでもあるため、テキストの完全な意味を網羅することはできず、文脈のニュアンスを処理することもできません。
幻覚検出のための証拠のローカライズ: トリプルをテキストにマッピングするのは簡単ではない場合があります。たとえば、複数ステップの推論を扱う場合は課題があります。
人間による評価結果の調整: 複雑な環境、特に複雑なコンテキストにおける検出器と人間の評価者との間のギャップを縮小します。
拡張されたタスク範囲: 大規模なモデルは、さまざまなタスクやシナリオで使用されます。リソースの制限により、この調査では一部の領域が限定的にカバーされています。たとえば、現在のベンチマークセットでは、要約タスクをカバーする例は 6 つだけです。
リアリズムと有用性のバランス: BSChecker は現在、幻覚の量のみを評価しますが、著者がいくつかの大規模モデルで観察したように、現実的だが役に立たないテキストを生成することで幻覚を操作できます。したがって、BSChecker では有益性に関する評価基準を導入することが重要になるかもしれません。

著者は、フィードバックがある場合は、いつでも GitHub の問題を通じて連絡できると述べています。

<<: HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

>>: