オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さにより、必然的に古い情報や誤った情報が含まれるようになり、出力品質に大きな課題が生じます。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも幻覚の一種です。大規模モデルにおける生成幻覚の問題をどのように検出し、効果的に軽減するかは、学界では常に注目されている話題です。

最近、Amazon 上海 AI 研究所は、きめ細かい大規模モデル幻覚検出ツールである BSChecker をリリースしました。このツールには、次の重要な機能が含まれています。

  • きめ細かい幻覚検出フレームワークは、大規模なモデル出力テキストに対して 3 段階の幻覚検出を実行します。
  • 幻覚検出ベンチマーク テスト セットには、ユーザーのさまざまなニーズを満たす 3 つのタスク シナリオが含まれています。
  • 2 つのベンチマーク リーダーボード。現在、15 の主要な主流モデルの幻覚検出結果をカバーしています。

さらに、BSChecker の作者らは、Gemini の打ち上げ直後に自動検出錯視テストも実施しました。

幻覚検出フレームワークの概略図

  • プロジェクトアドレス: https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
  • リーダーボードアドレス: https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術的なハイライト

より細かい粒度: 従来の段落レベルまたは文レベルの分析方法とは異なり、BSChecker は大規模なモデルの出力テキストを知識トリプルに分解します。このようなきめ細かい検出により、個々の知識の真正性を検証できるだけでなく、さらに正確な分析を行う可能性も得られます。

通常、幻覚検出の最小単位をクレームと呼びます。これまでの研究では、出力テキスト内の文をステートメントとして使用するもの(SelfCheckGPT)や、出力テキストから短い節をステートメントとして抽出するモデルを使用するもの(FActScore、FACTOOL)があります。 BSChecker は、クレームを表現するために知識トリプルの使用を検討します。これは、トリプルを使用して事実と知識単位をカプセル化するナレッジ グラフからヒントを得たアイデアです。知識トリプルは、(主語、述語、目的語) の構造を採用して、出力テキストにきめ細かい情報を取得します。次の例は、文とそれに対応する細粒度トリプル表現を示しています。

ウー・ジンは映画『戦狼』で主人公のレン・フェンを演じた。

三元ラベル モード: 出力テキスト全体を幻覚の有無の 2 つのカテゴリ ラベルに分類する従来の幻覚検出方法とは異なり、BSChecker は出力テキスト内の各ステートメントに対して幻覚の検出と分類を実行します。このようにして、出力テキストと対応する参照テキストの関係を次のように視覚化できます。


図中の出力テキストと参照テキストの交差部分は直接検証できる部分であり、文が参照テキストによってサポートされているかどうかに応じて、含意(図中の緑色のチェック✅)と矛盾(図中の赤色の十字❌)の2つのカテゴリに分けられます。ただし、実際のアプリケーションでは、参照テキストがすべての主張を検証するのに十分な証拠を常に提供するとは限りません。この場合、これらのステートメントの真実性を評価するには追加の参照テキスト (オレンジ色の疑問符) が必要であり、このようなステートメントを中立と呼びます。

これら 3 つのカテゴリは、ファクト チェックの分野におけるサポート、反論、情報不足の概念と密接に関連しており、自然言語推論 (NLI) にも応用されています。 BSChecker は、この 3 値ラベル付けモデルを使用して従来の 2 値分類ラベルを置き換え、出力テキストと参照テキストの関係をより正確に表現できるようにします。

より広い範囲をカバー: BSChecker は、大規模モデルに入力されるコンテキストの量と質に応じて、コンテキストなし (自由形式の質問応答タスクなど)、ノイズの多いコンテキスト (検索強化生成タスクなど)、正確なコンテキスト (テキスト要約、情報抽出タスクなど) の 3 つの異なるシナリオを設定します。

3つのシナリオの比較の概略図

これら 3 つのシナリオに基づいて、著者らは各シナリオにつき 100 例、合計 300 例からなるベンチマーク データセットを構築しました。これらの例は、次の表にリストされているデータ ソースからランダムに抽出されます。

BSCheckerワークフロー

BSChecker には、クレーム抽出器 E、幻覚検出器 C、および集約ルール τ の​​ 3 つの構成可能なモジュールに分割されたモジュール式ワークフローがあります。これら 3 つのモジュールは互いに分離されており、一部のモジュールを強化することでフレームワーク全体を拡張および改善できます。

BSCheckerワークフロー図

2 つの主なモジュールは次のとおりです。

  • 大規模モデルに基づくクレーム抽出器: 著者らは、大規模モデルがクレームトリプレットの抽出に適していることを発見しました。現在のバージョンでは、クレーム抽出器として GPT-4 と Claude 2 を使用しています。
  • 手動またはモデルベースの幻覚検出器: 指定されたクレームトリプルと参照テキストに対して、注釈者は以下の図に示すようにそれに応じて注釈を付けることができます。注釈ツールも近日中にリリースされる予定です。モデルベースの幻覚検出器については、後続の自動評価リーダーボード セクションで紹介します。

コンテキストフリーシナリオにおける評価プロセス

手動評価結果

BSChecker には現在、GPT-4、Claude 2、LLaMA 2 などの 7 つの主流の大規模モデルを網羅した、きめ細かい手動注釈が付いた 2,100 個の大規模モデル出力テキストが含まれています。この結果に基づいて、著者はインタラクティブなランキングリストを作成しました。下の図を参照してください。手動評価ランキング リストには、2 つのインタラクティブ オプションが含まれています: 1) 上記の 3 つのタスク シナリオと、3 つのシナリオの平均結果 (上部のオプション)。2) 評価指標 (左側の [ランキング基準] オプション)。次の図は、含意順位に基づいたランキングリストを示しています。

手動評価の結果に基づいて、著者らは以下の発見をしました。

事実に基づいた正確なテキストを出力するには、文脈情報が重要となる。

平均すると、コンテキストなしからノイズの多いコンテキスト、正確なコンテキストへと移行すると、矛盾する評価の割合は 21% から 11%、さらに 5% に減少します。

信頼性の点では、最新の商用クローズドソースのビッグモデルは、ほとんどのオープンソースのビッグモデルよりも強力です。

Claude 2、GPT-4、GPT-3.5-Turbo などの最新の商用大規模モデルは、ほとんどのオープンソース大規模モデルよりも幻覚を少なく生成します。具体的には、商用の大規模モデルは、正確なコンテキスト シナリオで優れたパフォーマンスを発揮します。たとえば、GPT-4 はこのシーンではほとんど幻覚を示しませんでした (矛盾 0.9%、中立 1.2%)。 LLaMA 2 70B は、特にコンテキストが提供されている場合、リーダーボード上の商用大規模モデルの結果に近い値を示します。

GPTシリーズの大型モデルのリアリティは着実に向上している

GPT-4 は GPT-3.5 よりも優れており、InstructGPT よりもはるかに優れています。著者は、関連文献からいくつかの考えられる説明を見つけてまとめました。詳細については、コード リポジトリの README を参照してください。実験の 1 つでは、同じテキストを GPT-4 に入力し、それを解釈するように要求しました。これは、修正された検索拡張生成 (RAG) シナリオです。興味深いことに、GPT-4 は、信頼性の点で InstructGPT が GPT-3.5 よりも優れていると主張することで明らかな間違いを犯しています。

最新の商用モデルであっても、コンテキストフリーのシナリオは依然として困難である。

GPT-4 と Claude 2 はオープンソースの大規模モデルよりも大幅に優れていますが、GPT4 では依然として 10% を超えるエラーがあり、これは無視できないエラー率です。 Claude 2 は比較的保守的で、エラー (矛盾など) は少なくなりますが、検証できない出力テキストが多くなる傾向があります。


自動評価ランキング

人間による注釈は、大規模なモデルの幻覚に関する洞察を提供するのに役立ちますが、より大規模なモデルを評価するには拡張性がありません。 BSChecker フレームワークでは、モデルベースの幻覚検出器をプラグインすることができ、著者らは、大規模モデルと自然言語推論 (NLI) モデルが適切な選択であると考えています。コマンドラインから簡単に構成できるため、完全に自動化されたエンドツーエンドの幻覚検出フレームワークが実現します。

次のアニメーションは、GPT-4 をステートメント抽出器および幻覚検出器として取得したランキングを示しています。著者らは現在、リーダーボード上の 15 個の大規模モデルを評価しています。ユーザーはツールを使用して、自分の検出結果を簡単にリーダーボードに掲載できます。

自動幻覚検出フレームワークはどのように機能しますか?

著者らは、ケンドールのタウを使用して、自動ランキングと人間が評価したランキング間の一貫性を測定します。具体的には、2 つのランク間の p 値 (信頼度を示す) と tau 値 (相関関係を示す) を返す scipy.stats.kendalltau を使用しました。以下のヒートマップは、クレーム抽出器 (列)、幻覚検出器 (行)、およびタスク シナリオ (水平バー) のさまざまな組み合わせの結果を示しており、高い信頼性 (p 値 < 0.05) を持つ組み合わせを示しています。興味深いことに、これらの信頼性の高い項目は高い相関関係も示しました (tau>0.3)。たとえば、コンテキストフリーのシナリオで矛盾率でランク付けするには、ユーザーは GPT-4 クレーム抽出器と GPT-4 または NLI 幻覚検出器を使用できます。正確なコンテキスト シナリオで含意率でランク付けするには、ユーザーは Claude 2 クレーム抽出器と GPT4 幻覚検出器を使用できます。

彼らはBSCheckerの自動検出フレームワークを使用してGemini上の幻覚を検出し、GPT-4をステートメント抽出器および幻覚検出器として使用し、文脈のないシナリオにおける矛盾の割合に応じてそれらをランク付けしました(上記の推奨設定と一致しています)。結果はGeminiレポートの実験結果と一致していました。さらに、合計 118 個の文トリプレットを含む出力テキストのうち 10 個に手動で注釈を付けました。注釈の結果、自動検出と手動注釈の一貫性は 90.7% に達しました。

BSCheckerの使い方

BSChecker は現在 GitHub リポジトリで利用可能であり、pip 経由でインストールできます。使用方法については、README のクイック スタート セクションを参照してください。 BSChecker を使用して知識トリプルを抽出し、トリプル レベルで幻覚を検出し、カスタムの大規模モデルを評価する方法についての詳細な手順が記載されています。さらに、ユーザーはカスタマイズした評価結果を自動評価リーダーボードに追加して、他の結果と比較することができます。

協力の招待:BSCheckerの開発を共同で推進

著者らは、幻覚のきめ細かな検出と正確な位置特定が、効果的な幻覚軽減への第一歩であると考えています。 BSChecker にはまだ改善の余地が多く残されており、皆様のオープンソースへの貢献への参加を心よりお待ちしています。考えられる方向は次のとおりです:

  • オープンソースのクレーム抽出器と幻覚検出器: 現在、最高のパフォーマンスを発揮する構成では、クローズドソースの商用大規模モデルを使用しています。著者らは、現在のバージョンに自然言語推論ベースの幻覚検出器も組み込んでいます。高速化はされていますが、長いドキュメントを処理する場合、依然として大きなパフォーマンスのギャップがあります。
  • 誤ったメモリ トレーシング: コンテキストフリーのシナリオでは、検索エンジンを使用して最新の参照を見つけるのは非常に粗雑な解決策です。しかし理想的には、大規模モデルのトレーニング データに戻って、問題のあるメモリを遡る必要があります。
  • トリプル抽出の最適化: トリプルは簡潔ですが、より複雑なセマンティクスを処理するのは困難です。これらはテキストのサンプルでもあるため、テキストの完全な意味を網羅することはできず、文脈のニュアンスを処理することもできません。
  • 幻覚検出のための証拠のローカライズ: トリプルをテキストにマッピングするのは簡単ではない場合があります。たとえば、複数ステップの推論を扱う場合は課題があります。
  • 人間による評価結果の調整: 複雑な環境、特に複雑なコンテキストにおける検出器と人間の評価者との間のギャップを縮小します。
  • 拡張されたタスク範囲: 大規模なモデルは、さまざまなタスクやシナリオで使用されます。リソースの制限により、この調査では一部の領域が限定的にカバーされています。たとえば、現在のベンチマーク セットでは、要約タスクをカバーする例は 6 つだけです。
  • リアリズムと有用性のバランス: BSChecker は現在、幻覚の量のみを評価しますが、著者がいくつかの大規模モデルで観察したように、現実的だが役に立たないテキストを生成することで幻覚を操作できます。したがって、BSChecker では有益性に関する評価基準を導入することが重要になるかもしれません。

著者は、フィードバックがある場合は、いつでも GitHub の問題を通じて連絡できると述べています。

<<:  HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

>>: 

ブログ    

推薦する

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

[[240152]]人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...

人工知能と自然言語処理技術

人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...

...

コンピュータビジョンのための 9 つのオープンソース データセット

[[420140]] [51CTO.com クイック翻訳]オープンソースデータセットを使用してトレー...

...

高性能 LLM 推論フレームワークの設計と実装

1. 大規模言語モデル推論の概要従来の CNN モデル推論とは異なり、大規模言語モデルの推論は通常、...

人気の機械学習プログラミング言語、フレームワーク、ツール14選

[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...

Kafka のバイナリ検索アルゴリズムの改善

[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...

機械学習愛好家必読ガイド

[[273182]]このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからな...

旅行を恥ずかしがる必要はありません。国内の観光地がAIを導入し、スマートな旅行の新たなシナリオを実現

旅行に出かけることは、祖国の美しい川や山を鑑賞し、「詩と遠い場所」を追求することです。 AIの助けに...

...

...