大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さにより、必然的に古い情報や誤った情報が含まれるようになり、出力品質に大きな課題が生じます。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも幻覚の一種です。大規模モデルにおける生成幻覚の問題をどのように検出し、効果的に軽減するかは、学界では常に注目されている話題です。 最近、Amazon 上海 AI 研究所は、きめ細かい大規模モデル幻覚検出ツールである BSChecker をリリースしました。このツールには、次の重要な機能が含まれています。
さらに、BSChecker の作者らは、Gemini の打ち上げ直後に自動検出錯視テストも実施しました。 幻覚検出フレームワークの概略図
技術的なハイライトより細かい粒度: 従来の段落レベルまたは文レベルの分析方法とは異なり、BSChecker は大規模なモデルの出力テキストを知識トリプルに分解します。このようなきめ細かい検出により、個々の知識の真正性を検証できるだけでなく、さらに正確な分析を行う可能性も得られます。 通常、幻覚検出の最小単位をクレームと呼びます。これまでの研究では、出力テキスト内の文をステートメントとして使用するもの(SelfCheckGPT)や、出力テキストから短い節をステートメントとして抽出するモデルを使用するもの(FActScore、FACTOOL)があります。 BSChecker は、クレームを表現するために知識トリプルの使用を検討します。これは、トリプルを使用して事実と知識単位をカプセル化するナレッジ グラフからヒントを得たアイデアです。知識トリプルは、(主語、述語、目的語) の構造を採用して、出力テキストにきめ細かい情報を取得します。次の例は、文とそれに対応する細粒度トリプル表現を示しています。 ウー・ジンは映画『戦狼』で主人公のレン・フェンを演じた。 三元ラベル モード: 出力テキスト全体を幻覚の有無の 2 つのカテゴリ ラベルに分類する従来の幻覚検出方法とは異なり、BSChecker は出力テキスト内の各ステートメントに対して幻覚の検出と分類を実行します。このようにして、出力テキストと対応する参照テキストの関係を次のように視覚化できます。 図中の出力テキストと参照テキストの交差部分は直接検証できる部分であり、文が参照テキストによってサポートされているかどうかに応じて、含意(図中の緑色のチェック✅)と矛盾(図中の赤色の十字❌)の2つのカテゴリに分けられます。ただし、実際のアプリケーションでは、参照テキストがすべての主張を検証するのに十分な証拠を常に提供するとは限りません。この場合、これらのステートメントの真実性を評価するには追加の参照テキスト (オレンジ色の疑問符) が必要であり、このようなステートメントを中立と呼びます。 これら 3 つのカテゴリは、ファクト チェックの分野におけるサポート、反論、情報不足の概念と密接に関連しており、自然言語推論 (NLI) にも応用されています。 BSChecker は、この 3 値ラベル付けモデルを使用して従来の 2 値分類ラベルを置き換え、出力テキストと参照テキストの関係をより正確に表現できるようにします。 より広い範囲をカバー: BSChecker は、大規模モデルに入力されるコンテキストの量と質に応じて、コンテキストなし (自由形式の質問応答タスクなど)、ノイズの多いコンテキスト (検索強化生成タスクなど)、正確なコンテキスト (テキスト要約、情報抽出タスクなど) の 3 つの異なるシナリオを設定します。 3つのシナリオの比較の概略図 これら 3 つのシナリオに基づいて、著者らは各シナリオにつき 100 例、合計 300 例からなるベンチマーク データセットを構築しました。これらの例は、次の表にリストされているデータ ソースからランダムに抽出されます。 BSCheckerワークフローBSChecker には、クレーム抽出器 E、幻覚検出器 C、および集約ルール τ の 3 つの構成可能なモジュールに分割されたモジュール式ワークフローがあります。これら 3 つのモジュールは互いに分離されており、一部のモジュールを強化することでフレームワーク全体を拡張および改善できます。 BSCheckerワークフロー図 2 つの主なモジュールは次のとおりです。
コンテキストフリーシナリオにおける評価プロセス 手動評価結果BSChecker には現在、GPT-4、Claude 2、LLaMA 2 などの 7 つの主流の大規模モデルを網羅した、きめ細かい手動注釈が付いた 2,100 個の大規模モデル出力テキストが含まれています。この結果に基づいて、著者はインタラクティブなランキングリストを作成しました。下の図を参照してください。手動評価ランキング リストには、2 つのインタラクティブ オプションが含まれています: 1) 上記の 3 つのタスク シナリオと、3 つのシナリオの平均結果 (上部のオプション)。2) 評価指標 (左側の [ランキング基準] オプション)。次の図は、含意順位に基づいたランキングリストを示しています。 手動評価の結果に基づいて、著者らは以下の発見をしました。 事実に基づいた正確なテキストを出力するには、文脈情報が重要となる。 平均すると、コンテキストなしからノイズの多いコンテキスト、正確なコンテキストへと移行すると、矛盾する評価の割合は 21% から 11%、さらに 5% に減少します。 信頼性の点では、最新の商用クローズドソースのビッグモデルは、ほとんどのオープンソースのビッグモデルよりも強力です。 Claude 2、GPT-4、GPT-3.5-Turbo などの最新の商用大規模モデルは、ほとんどのオープンソース大規模モデルよりも幻覚を少なく生成します。具体的には、商用の大規模モデルは、正確なコンテキスト シナリオで優れたパフォーマンスを発揮します。たとえば、GPT-4 はこのシーンではほとんど幻覚を示しませんでした (矛盾 0.9%、中立 1.2%)。 LLaMA 2 70B は、特にコンテキストが提供されている場合、リーダーボード上の商用大規模モデルの結果に近い値を示します。 GPTシリーズの大型モデルのリアリティは着実に向上している GPT-4 は GPT-3.5 よりも優れており、InstructGPT よりもはるかに優れています。著者は、関連文献からいくつかの考えられる説明を見つけてまとめました。詳細については、コード リポジトリの README を参照してください。実験の 1 つでは、同じテキストを GPT-4 に入力し、それを解釈するように要求しました。これは、修正された検索拡張生成 (RAG) シナリオです。興味深いことに、GPT-4 は、信頼性の点で InstructGPT が GPT-3.5 よりも優れていると主張することで明らかな間違いを犯しています。 最新の商用モデルであっても、コンテキストフリーのシナリオは依然として困難である。 GPT-4 と Claude 2 はオープンソースの大規模モデルよりも大幅に優れていますが、GPT4 では依然として 10% を超えるエラーがあり、これは無視できないエラー率です。 Claude 2 は比較的保守的で、エラー (矛盾など) は少なくなりますが、検証できない出力テキストが多くなる傾向があります。 自動評価ランキング人間による注釈は、大規模なモデルの幻覚に関する洞察を提供するのに役立ちますが、より大規模なモデルを評価するには拡張性がありません。 BSChecker フレームワークでは、モデルベースの幻覚検出器をプラグインすることができ、著者らは、大規模モデルと自然言語推論 (NLI) モデルが適切な選択であると考えています。コマンドラインから簡単に構成できるため、完全に自動化されたエンドツーエンドの幻覚検出フレームワークが実現します。 次のアニメーションは、GPT-4 をステートメント抽出器および幻覚検出器として取得したランキングを示しています。著者らは現在、リーダーボード上の 15 個の大規模モデルを評価しています。ユーザーはツールを使用して、自分の検出結果を簡単にリーダーボードに掲載できます。 自動幻覚検出フレームワークはどのように機能しますか? 著者らは、ケンドールのタウを使用して、自動ランキングと人間が評価したランキング間の一貫性を測定します。具体的には、2 つのランク間の p 値 (信頼度を示す) と tau 値 (相関関係を示す) を返す scipy.stats.kendalltau を使用しました。以下のヒートマップは、クレーム抽出器 (列)、幻覚検出器 (行)、およびタスク シナリオ (水平バー) のさまざまな組み合わせの結果を示しており、高い信頼性 (p 値 < 0.05) を持つ組み合わせを示しています。興味深いことに、これらの信頼性の高い項目は高い相関関係も示しました (tau>0.3)。たとえば、コンテキストフリーのシナリオで矛盾率でランク付けするには、ユーザーは GPT-4 クレーム抽出器と GPT-4 または NLI 幻覚検出器を使用できます。正確なコンテキスト シナリオで含意率でランク付けするには、ユーザーは Claude 2 クレーム抽出器と GPT4 幻覚検出器を使用できます。 彼らはBSCheckerの自動検出フレームワークを使用してGemini上の幻覚を検出し、GPT-4をステートメント抽出器および幻覚検出器として使用し、文脈のないシナリオにおける矛盾の割合に応じてそれらをランク付けしました(上記の推奨設定と一致しています)。結果はGeminiレポートの実験結果と一致していました。さらに、合計 118 個の文トリプレットを含む出力テキストのうち 10 個に手動で注釈を付けました。注釈の結果、自動検出と手動注釈の一貫性は 90.7% に達しました。 BSCheckerの使い方BSChecker は現在 GitHub リポジトリで利用可能であり、pip 経由でインストールできます。使用方法については、README のクイック スタート セクションを参照してください。 BSChecker を使用して知識トリプルを抽出し、トリプル レベルで幻覚を検出し、カスタムの大規模モデルを評価する方法についての詳細な手順が記載されています。さらに、ユーザーはカスタマイズした評価結果を自動評価リーダーボードに追加して、他の結果と比較することができます。 協力の招待:BSCheckerの開発を共同で推進著者らは、幻覚のきめ細かな検出と正確な位置特定が、効果的な幻覚軽減への第一歩であると考えています。 BSChecker にはまだ改善の余地が多く残されており、皆様のオープンソースへの貢献への参加を心よりお待ちしています。考えられる方向は次のとおりです:
著者は、フィードバックがある場合は、いつでも GitHub の問題を通じて連絡できると述べています。 |
<<: HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク
[[240152]]人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意...
Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...
ヒントン氏は、AI はすでに感情を持っているか、あるいは将来感情を持つようになると信じている。その後...
人工知能技術の発展に伴い、コンピューターを使って外国の文書を翻訳するなど、私たちの生活の多くのアプリ...
[[420140]] [51CTO.com クイック翻訳]オープンソースデータセットを使用してトレー...
導入参照ビデオ オブジェクト セグメンテーション (RVOS) は、参照テキストに基づいてビデオ シ...
1. 大規模言語モデル推論の概要従来の CNN モデル推論とは異なり、大規模言語モデルの推論は通常、...
[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...
[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...
[[273182]]このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからな...
旅行に出かけることは、祖国の美しい川や山を鑑賞し、「詩と遠い場所」を追求することです。 AIの助けに...