大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジュアル API は、その優れた結果が賞賛されたが、幻覚の問題があるとして批判された。

錯覚は常に、大規模モデルの致命的な欠陥でした。データ セットの複雑さにより、古くて誤った情報が存在することは避けられず、出力の品質が厳しくテストされることになります。情報が多すぎると、大規模なモデルに偏りが生じる可能性があり、これも一種の錯覚です。しかし、幻覚は解決不可能な問題ではありません。開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造とトレーニング方法を最適化することで、幻覚の問題をある程度軽減できます。

人気の大型モデルが多数ありますが、幻覚の緩和にはどの程度効果があるのでしょうか?その違いをわかりやすく比較したランキングがこちらです。

このランキングは、AIに重点を置いたVectaraプラットフォームによって公開されています。ランキングは2023年11月1日に更新された。Vectara社は、モデルが更新されるにつれて幻覚評価を継続的に追跡していくと述べた。

プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard

このランキングを決定するために、Vectara はさまざまなオープンソース データセットを使用して要約モデルに関する事実の一貫性の研究を実施し、LLM 出力内の幻覚を検出するモデルをトレーニングしました。彼らは最先端のモデルを使用し、パブリック API を介して各 LLM に 1,000 件の短い文書を入力、文書に記載されている事実のみを使用して各文書を要約するように依頼しました。これら 1000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみであり、残りの文書はコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 Vectara は、これらの 831 件の文書を使用して、各モデルの全体的な精度と幻覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されたコンテンツには違法または安全でないコンテンツは含まれていませんでしたが、その中のトリガーワードは特定のコンテンツフィルターをトリガーするのに十分でした。これらの文書は主に CNN/Daily Mail コーパスからのものです。

Vectara は全体的な事実の正確性ではなく、要約の正確性を評価することに注意することが重要です。これにより、提供された情報に対するモデルの応答を比較できます。つまり、出力サマリーがソース ファイルと「事実上一貫している」かどうかが評価されます。各 LLM がどのようなデータでトレーニングされたかは不明であるため、特定の問題に対する幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同じかそれ以上の大きさのモデルをトレーニングする必要があります。そのため、Vectara は要約タスクにおける幻覚率を調べることを選択しました。これは、そのような類推がモデルの全体的な現実性を判断するための優れた基礎となるためです。

幻覚検出モデルのアドレス: https://huggingface.co/vectara/hallucination_evaluation_model

さらに、LLM は、Bing Chat や Google Chat の統合など、ユーザーのクエリに回答するための RAG (Retrieval Augmented Generation) パイプラインでますます使用されるようになっています。 RAG システムでは、モデルは検索結果のアグリゲータとして展開されるため、このリーダーボードは、RAG システムで使用された場合のモデルの精度を示す優れた指標でもあります。

GPT-4 の一貫した優れたパフォーマンスを考えると、幻覚の発生率が最も低かったのは驚くことではないようです。しかし、一部のネットユーザーは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明した。

LLaMA 2 は GPT-4 と GPT-3.5 に厳密に従っており、パフォーマンスが向上しています。しかし、Google の大規模モデルのパフォーマンスは満足できるレベルには程遠い。一部のネットユーザーは、Google BARD は間違った回答を隠すために「まだトレーニング中です」という言葉をよく使っていると述べている。

このようなランキングリストがあれば、さまざまなモデルの長所と短所をより直感的に判断できます。数日前、 OpenAIはGPT-4 Turboをリリースし、一部のネットユーザーはすぐにランキングを更新することを提案しました。

次のランキングがどうなるか、大きな変化があるかどうかは、待って見なければなりません。

<<:  OpenAIによって普及したエージェントはどのようにして人材を解放するのでしょうか?清華大学などがProAgentをリリース

>>: 

ブログ    

推薦する

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...

人工知能は社会統治の近代化を効果的に促進できる

現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...

今日の生活における人工知能(AI)の実際的な意義

人工知能について言えば、ほとんどの人がまだ混乱していると思います。それは何なのか?何に使われるのか?...

独立サイトへのアクセス数が10万を超えました。YidiantianxiaのKreadoAIのサポートにより、海外のウィッグ市場でこのように活躍できることがわかりました。

近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...

...

ワイヤレス「心のコミュニケーション」!崔鉄軍院士は、柔軟で非侵襲的な新しい脳コンピューターインターフェースメタサーフェスの開発を主導している。

近年、コーディング メタサーフェスにより、従来の受動デバイスでは静的であったり非常に制限されていた電...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

...

AIとIoTがサプライチェーンにもたらす効果

サプライ チェーン管理は経済の生命線であり、コストを最適化し、無駄を最小限に抑えながら、適切な製品を...

顔認識:最高裁は規則に従うよう求めている

近年、顔認識技術は急速に発展し、入場時の顔スキャンや支払い時の顔スキャンに広く使用され、私たちの日常...

CNN が RNN に取って代わる?シーケンスモデリングで再帰ネットワークが不要になったとき

過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

RSA-PSSアルゴリズムを一緒に学びましょう

[[400577]] AS(5): RSA-PSSアルゴリズムの紹介2018 年にリリースされた T...

効率的なコーディングのための 5 つの IntelliJ IDEA プラグイン

人工知能(AI)は現在、将来のトレンドと発展の方向性として広く認識されています。 AI がすべての仕...

...