大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジュアル API は、その優れた結果が賞賛されたが、幻覚の問題があるとして批判された。

錯覚は常に、大規模モデルの致命的な欠陥でした。データ セットの複雑さにより、古くて誤った情報が存在することは避けられず、出力の品質が厳しくテストされることになります。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも一種の錯覚です。しかし、幻覚は解決不可能な問題ではありません。開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造とトレーニング方法を最適化することで、幻覚の問題をある程度軽減できます。

人気の大型モデルが多数ありますが、幻覚の緩和にはどの程度効果があるのでしょうか?その違いをわかりやすく比較したランキングがこちらです。

このランキングは、AIに重点を置いたVectaraプラットフォームによって公開されています。ランキングは2023年11月1日に更新された。Vectara社は、モデルが更新されるにつれて幻覚評価を継続的に追跡していくと述べた。

プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard

このランキングを決定するために、Vectara はさまざまなオープンソース データセットを使用して要約モデルに関する事実の一貫性の研究を実施し、LLM 出力内の幻覚を検出するモデルをトレーニングしました。彼らは最先端のモデルを使用し、パブリック API を介して各 LLM に 1,000 件の短い文書を入力、文書に記載されている事実のみを使用して各文書を要約するように依頼しました。これら 1000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみであり、残りの文書はコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 Vectara は、これらの 831 件の文書を使用して、各モデルの全体的な精度と幻覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されたコンテンツには違法または安全でないコンテンツは含まれていませんでしたが、その中のトリガーワードは特定のコンテンツフィルターをトリガーするのに十分でした。これらの文書は主に CNN/Daily Mail コーパスからのものです。

Vectara は全体的な事実の正確性ではなく、要約の正確性を評価することに注意することが重要です。これにより、提供された情報に対するモデルの応答を比較できます。つまり、出力サマリーがソース ファイルと「事実上一貫している」かどうかが評価されます。各 LLM がどのようなデータでトレーニングされたかは不明であるため、特定の問題に対する幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同じかそれ以上の大きさのモデルをトレーニングする必要があります。そのため、Vectara は要約タスクにおける幻覚率を調べることを選択しました。これは、そのような類推がモデルの全体的な現実性を判断するための優れた基礎となるためです。

幻覚検出モデルのアドレス: https://huggingface.co/vectara/hallucination_evaluation_model

さらに、LLM は、Bing Chat や Google Chat の統合など、ユーザーのクエリに回答するための RAG (Retrieval Augmented Generation) パイプラインでますます使用されるようになっています。 RAG システムでは、モデルは検索結果のアグリゲータとして展開されるため、このリーダーボードは、RAG システムで使用された場合のモデルの精度を示す優れた指標でもあります。

GPT-4 の一貫した優れたパフォーマンスを考えると、幻覚の発生率が最も低かったのは驚くことではないようです。しかし、一部のネットユーザーは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明した。

LLaMA 2 は GPT-4 と GPT-3.5 に厳密に従っており、パフォーマンスが向上しています。しかし、Google の大規模モデルのパフォーマンスは満足できるレベルには程遠い。一部のネットユーザーは、Google BARD は間違った回答を隠すために「まだトレーニング中です」という言葉をよく使っていると述べている。

このようなランキングリストがあれば、さまざまなモデルの長所と短所をより直感的に判断できます。数日前、 OpenAIはGPT-4 Turboをリリースし、一部のネットユーザーはすぐにランキングを更新することを提案しました。

次のランキングがどうなるか、大きな変化があるかどうかは、待って見なければなりません。

<<:  OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか?清華大学などがProAgentをリリース

>>: 

ブログ    
ブログ    
ブログ    

推薦する

業界丨2020年のインテリジェントウェーブを理解するには、BaiduとGoogleのAIの足跡から始める

2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...

シェア | Meituanのディープラーニングシステムのエンジニアリング実践

背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...

人工知能を活用して機密情報を保護する 5 つの方法

研究者たちは、人工知能技術が機密情報のセキュリティを確保するための非常に優れたツールであることを発見...

セマンティックAIとデータ管理の5つのトレンド

1. グラフデータベースとナレッジグラフが2022年に主流になる グラフ データベースが 2022 ...

PaddlePaddle と TensorFlow の比較分析

この記事では主に、フレームワークの概要、システム アーキテクチャ、プログラミング モデル、分散アーキ...

サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジ コンピューティング デバイス、モバイル デバイス、PC ...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

自然言語処理(NLP)はソーシャルエンジニアリング攻撃の解決に役立ちます

新しいツールは、件名や URL に基づいてソーシャル エンジニアリング攻撃を検出するのではなく、テキ...

...

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える:革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...

ディープラーニングによる物体検出モデルの包括的なレビュー: 高速 R-CNN、R-FCN、SSD

[[204169]] Faster R-CNN、R-FCN、SSD は、最も人気があり、広く使用さ...

小さくても素晴らしい、ミニプログラムのデビュー

[51CTO.comより引用] 2017年1月9日にWeChatミニプログラムが正式リリースされて以...

Python を使用したソーシャル メディア感情分析の入門

[[265146]]自然言語処理の基礎を学び、2 つの便利な Python パッケージを調べます。自...

2020年に人工知能を変える8つのトレンド

人工知能は長い間、架空の物語、SF、さらには映画にも登場してきました。人々の目には、これは技術的な魔...

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...