大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジュアル API は、その優れた結果が賞賛されたが、幻覚の問題があるとして批判された。

錯覚は常に、大規模モデルの致命的な欠陥でした。データ セットの複雑さにより、古くて誤った情報が存在することは避けられず、出力の品質が厳しくテストされることになります。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも一種の錯覚です。しかし、幻覚は解決不可能な問題ではありません。開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造とトレーニング方法を最適化することで、幻覚の問題をある程度軽減できます。

人気の大型モデルが多数ありますが、幻覚の緩和にはどの程度効果があるのでしょうか?その違いをわかりやすく比較したランキングがこちらです。

このランキングは、AIに重点を置いたVectaraプラットフォームによって公開されています。ランキングは2023年11月1日に更新された。Vectara社は、モデルが更新されるにつれて幻覚評価を継続的に追跡していくと述べた。

プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard

このランキングを決定するために、Vectara はさまざまなオープンソース データセットを使用して要約モデルに関する事実の一貫性の研究を実施し、LLM 出力内の幻覚を検出するモデルをトレーニングしました。彼らは最先端のモデルを使用し、パブリック API を介して各 LLM に 1,000 件の短い文書を入力、文書に記載されている事実のみを使用して各文書を要約するように依頼しました。これら 1000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみであり、残りの文書はコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 Vectara は、これらの 831 件の文書を使用して、各モデルの全体的な精度と幻覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されたコンテンツには違法または安全でないコンテンツは含まれていませんでしたが、その中のトリガーワードは特定のコンテンツフィルターをトリガーするのに十分でした。これらの文書は主に CNN/Daily Mail コーパスからのものです。

Vectara は全体的な事実の正確性ではなく、要約の正確性を評価することに注意することが重要です。これにより、提供された情報に対するモデルの応答を比較できます。つまり、出力サマリーがソース ファイルと「事実上一貫している」かどうかが評価されます。各 LLM がどのようなデータでトレーニングされたかは不明であるため、特定の問題に対する幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同じかそれ以上の大きさのモデルをトレーニングする必要があります。そのため、Vectara は要約タスクにおける幻覚率を調べることを選択しました。これは、そのような類推がモデルの全体的な現実性を判断するための優れた基礎となるためです。

幻覚検出モデルのアドレス: https://huggingface.co/vectara/hallucination_evaluation_model

さらに、LLM は、Bing Chat や Google Chat の統合など、ユーザーのクエリに回答するための RAG (Retrieval Augmented Generation) パイプラインでますます使用されるようになっています。 RAG システムでは、モデルは検索結果のアグリゲータとして展開されるため、このリーダーボードは、RAG システムで使用された場合のモデルの精度を示す優れた指標でもあります。

GPT-4 の一貫した優れたパフォーマンスを考えると、幻覚の発生率が最も低かったのは驚くことではないようです。しかし、一部のネットユーザーは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明した。

LLaMA 2 は GPT-4 と GPT-3.5 に厳密に従っており、パフォーマンスが向上しています。しかし、Google の大規模モデルのパフォーマンスは満足できるレベルには程遠い。一部のネットユーザーは、Google BARD は間違った回答を隠すために「まだトレーニング中です」という言葉をよく使っていると述べている。

このようなランキングリストがあれば、さまざまなモデルの長所と短所をより直感的に判断できます。数日前、 OpenAIはGPT-4 Turboをリリースし、一部のネットユーザーはすぐにランキングを更新することを提案しました。

次のランキングがどうなるか、大きな変化があるかどうかは、待って見なければなりません。

<<:  OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか?清華大学などがProAgentをリリース

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

グレートウルフホテルはAIを活用してゲストの体験とレビューを理解する

現在、ホテルやエンターテインメント業界のチェーンは、ゲストの体験やレビューをスキャンして理解するため...

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

翻訳者|朱 仙中レビュー | Chonglou導入信頼性の高いモデル評価はMLOP と LLMop ...

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

2020年初頭、突如発生した疫病により、多くの工場が「人手が足りない」状況に直面した。しかし、ロボ...

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。写...

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...

切り抜きや着色を超えて、人工知能がデザインに及ぼす影響をご覧ください

人工知能の時代では、ARデザインとスマートハードウェアデザインが徐々に発展しています。デザイン改革で...

「怠け者の経済」は、消費者向け家電製品のインテリジェント制御を主流に促進するでしょうか?

 新たな住宅消費トレンドが出現[[342344]] 90年代以降の世代である荘さんは、仕事から帰宅...

ディープラーニングの父が懸念:データ漏洩、AI兵器、批判の欠如

[[254553]]マーティン・フォードは2015年に出版した『ロボットの台頭』で大きな話題を呼びま...

AIサークルが爆発した!マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

ビッグデータダイジェスト制作AIサークルが爆発した! Microsoft が立ち上げた LONGNE...

1つの命令を使用してGPT-3.5またはLlama 2を微調整する方法

ChatGPT や Llama 2 などの大規模言語モデル (LLM) は、さまざまなタスクでの汎用...

...

単純なアルゴリズム問題からO(1)が何を意味するかを説明する

[[396914]]今日、クラスメートがファングループでアルゴリズムに関する質問をしました。対話のト...

人工知能は医療現場の診断や治療の決定に役立つ

必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...

TypeScript 実践アルゴリズムシリーズ (XII): Map と HashMap の実装

この記事では、辞書とハッシュテーブルの実装のアイデアを詳しく説明し、TypeScript を使用して...