GPT-4 がビッグモデル幻覚ランキングで優勝、NVIDIA の科学者が偽物と激しく戦う! ChatGPTのメタ版作者が抗議のため長文の記事を投稿

GPT-4 がビッグモデル幻覚ランキングで優勝、NVIDIA の科学者が偽物と激しく戦う! ChatGPTのメタ版作者が抗議のため長文の記事を投稿

大型モデルにおける幻覚の問題は、業界ではよく話題になります。

最近、Vectara という組織が GitHub 上で大規模なモデル幻覚リーダーボードを立ち上げました。

結果によると、GPT-4 は短いドキュメントの要約に最も優れているのに対し、Google Palm の 2 つのモデルは最下位です。

そのうちGPT-4は正解率が97.0%、幻覚率が3.0%、回答率が100.0%でした。最下位となったPalm Chat 2は、正解率が72.8%、誤答率が27.2%、回答率が88.8%だった。

プロジェクトアドレス: https://github.com/vectara/hallucination-leaderboard

このリストは発表されるとすぐにインターネット上で広まりました。しかし、業界の多くの人々から疑問も生じました。

Nvidiaの上級科学者ジム・ファン氏は、このリストは多くの点で問題があると述べた。

まず、要約と原文の事実上の一貫性のみを評価し、要約自体の品質は評価しません。第二に、幻覚を評価するために使用される LLM のパフォーマンスについては説明されていません。

ルカン氏は、ジム・ファン氏のツイートをリツイートしただけでなく、他にも不満を言うべき「不公平」な点があった。

1年前のこの時期、Meta の科学研究モデル Galactica は、幻覚の問題により店頭から撤去されるまで、オンラインになってからわずか 3 日しか経っていませんでした。数日後、ChatGPT は世界的に大ヒットとなり、LeCun 氏は 1 年間そのことに憤慨していました。

同時に、1年間の沈黙の後、ギャラクティカ論文の第一著者ロス・テイラーもこの瞬間に衝撃を受けた。彼は不満を表明する長い要約を書き、本当に傷ついたと語った。

ギャラクティカは貪欲なツイッターの暴徒によって殺されました!

ギャラクティカの悲劇:涙の告発

2日後にはギャラクティカの死から1周年になります。

シャロン・ゴールドマンは海外メディアVenturebeatに「Metaはギャラクティカから何を学んだのか?」と題する記事を掲載した。 ChatGPT より 2 週間早く作成されたこのモデルが失敗する運命にある理由。

ルカン氏は厳粛な表情でその記事を転送し、次の一行をタイプしたが、その一語一語に涙がこみ上げていた。

Galactica は、Meta が科学者向けに作成したモデルです。ChatGPT の数週間前にリリースされましたが、3 日後にオフラインになりました。それは貪欲なTwitterの暴徒によって殺害された。

この「壮大なモデルの幻想」が科学出版システムを破壊するだろうと凶悪犯たちは主張している。その結果、科学者にとって非常に役立つツールが彼らによって破壊されてしまったのです。

AI倫理を装った誤解を招くような激しい批判は裏目に出る可能性がある。

ルカンはとても悲しかったが、彼の古くからの敵であるマーカスが飛び出してきて火に油を注いだ。

1年前、Meta はレッドチームの作業を一切行わずに、無責任に Galactica を立ち上げました。科学界が介入し、欠陥を指摘した。

現在、Meta の LeCun 氏は、彼のチームが無視したレッド チームの作業を「殺人」とまで表現しています。これは驚きだ。

ギャラクティカのゲームも発売され、この物語を1年間心に秘めていたと語っていました…

テイラー氏は、ギャラクティカは科学文献と研究パラダイムに基づいて訓練された基礎モデルであると述べた。当時、その性能は同じ分野で非常に優れており、PaLM や Chinchilla よりも優れており、計算量はそれぞれ 10 倍と 2 倍削減されました。

Galactica のチームはわずか 8 人で構成されており、他の LLM チームよりも桁違いに少ないです。ギャラクティカの発売時に、チームは多忙を極めたため状況認識を失い、レビューされていない基本モデルをリリースしました。

1 年前にデモがリリースされたとき、チームは、人々が LLM を使用していた科学的クエリの分布を理解し、それが命令のチューニングと RLHF に役立つことを期待していました。当時、彼らは善意に基づいた仮定を立てていました。それは、すべてのモデルをオープンソース化し、デモに幻覚に関する免責事項を記載して、人々がギャラクティカの用途を想像できるようにするというものでした。

その結果、すべてが制御不能になってしまいました。

彼らはすべての人に無料のツールを提供したかったのですが、ジャーナリストは科学文献の外でギャラクティカを利用して、モデルの錯覚の不合理性と害悪を大げさに宣伝しました。

チームが犯したもう一つのミスは、ウェブサイトが製品であると人々に誤解させてしまったことです。実際、チームはビジョンを Web サイトに掲載し、基本モデルのデモを公開しただけです。Galactica は決して製品ではありません。

HuggingFace に 1 年間掲載されていますが、何ら害はありません。明らかに、反ギャラクティカ感情は愚かだ。

それにもかかわらず、テイラーさんは、もう一度チャンスがあれば同じ選択をするだろうと語った。たとえ後悔しても、何もしないよりはましです。でも、本当に心が痛いんです!

一部のネットユーザーは、そんなに謝る必要はない、ギャラクティカは明らかにネットいじめを受けたのだ、と言っている。考えてみれば、ChatGPT は Galactica と同じくらい愚かです。ギャラクティカに関してネットユーザーが広めた恐怖は明らかに過剰だ。

ルカン氏は著者が書いた記事を転送し、次のように述べた。

オープンソース コミュニティのモットーは、「早期リリース、頻繁なリリース」です。しかし、AIに関しては、「はい、ただしTwitterの群衆によるAIの破滅に関するばかげた予測は無視する覚悟が必要です」と付け加えてください。

「ネットセレブ」LLM幻覚評価法

そういえば、この「ネットセレブ」大模型錯視レビューはどうやって作られたのでしょうか?

記事アドレス: https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/

大規模モデルの錯覚を評価するために、Vectara は要約モデルの事実の一貫性を調査しました。

具体的には、この分野では、抽象的な要約(つまり、元の資料の言い換え)における事実上の矛盾を検出するためのモデルをトレーニングする方法を研究します。

現在、事実の一貫性を評価するための主要なデータセットは、SummaC と TRUE の 2 つです。

これに基づいて、Vectara は、要約がソース ドキュメントの事実と一致する (または一致しない) かどうかを分類するバイナリ分類器として、小規模な言語モデル (1 億 8,400 万のパラメーター) を微調整しました。

その後、Vectara は独自の「幻覚評価モデル」を 2 つの SummaC モデル、TrueTeacher モデル、AlignScore モデルと比較して評価しました。

TRUE データセット メトリックは、11 個の TRUE データセットのうち 9 個で計算されます。 TRUE サマリー データセットは、TrueTeacher 論文で選択された 5 つのデータセットのサブセットです。

SummaC ベンチマーク スコアについては、SummaC データセットのテスト分割を使用し、SummaC 検証データセットの各データセットのしきい値を調整してバランスのとれた精度を独自に計算しました。

このデータセットでは AlignScore の著者らが主張するスコアを再現できなかったため、著者らのモデルをダウンロードし、sci-kit learn バランス精度メトリックと sci-kit learn AUC スコア メトリックを使用して、すべてのモデルのスコアを自分で計算しました。

幻覚の発生率に基づいて LLM を比較するために、研究者は「cnn_dailymail」コーパス(ニュース記事のセットを含む)からさまざまな長さの約 1,000 件の文書を選択し、テスト対象の LLM に、ソース資料から逸脱することなく(つまり、追加情報を追加せずに)これらの文書の要約を提供するように依頼しました。

これらの要約と幻覚評価モデルを使用して、最終的に各モデルの幻覚スコアを計算し、この LLM リーダーボードを構築しました。

要約を生成するときに使用されるヒントは次のとおりです。

あなたはデータを使用して質問に答えるチャットボットです。提供された文章のテキストのみに基づいて回答する必要があります。「次の文章について、説明されている主要な情報を網羅した簡潔な要約を提供してください。」という質問が出されます。<文章>

あなたはデータを活用して質問に答えるチャットボットです。提供された文章のテキストに厳密に従って質問に答える必要があります。回答すべき質問は、「提示された中核的な情報を網羅した次の段落の簡潔な要約を述べてください。<段落>」です。

ここで、<PASSAGE> は要約を生成する必要がある記事を示します。

Vectara が提供するモデルは非常に正確ですが、あくまでもモデルに過ぎず、幻覚を 100% の精度で分類することはできないことに注意することが重要です。

上記の表で、「正確度」は正しく要約された文書の割合(事実誤認や追加なし)を指し、「幻覚率」は正確度を 100 から引いた値であり、「回答率」は LLM によって要約された文書の割合です。

モデルが独自のルールに基づいて回答を提供することを拒否することがあるからです。公平な比較を確実にするために、最終的な精度の数値は、各モデルの概要が提供されているドキュメントに対してのみ計算されました。

データから、Vectara は興味深い結論を導き出しました。回答率が低いモデルは、幻覚率が比較的高いようです。 - おそらく、コンテンツを正しく拒否する能力は、要約を正しく提供する能力と関係があると思われます。なぜなら、実際には、テストでは不適切なコンテンツは提供されなかったからです。

もう 1 つの観察結果は、PaLM モデルによって応答の長さが大きく異なることです。PaLM-Chat (chat-bison-001) は非常に冗長で、ソース ファイルに含まれていない多くの追加情報を追加することがよくあります。

対照的に、PaLM ベース モデル (text-bison-001) は非常に簡潔で、PaLM-Chat よりも幻覚率がはるかに低くなっています。

この点に関して、Vectara は 2 つの PaLM モデルの違いを説明するためにいくつかの具体的な例を示しました。

説明のために、ここではいくつかの短い文書を選択しましたが、データセット内のソーステキストのほとんどははるかに長いです。

元の段落

植物は土曜日の朝、アシュボーン近郊の倉庫を捜索中に発見された。警察によると、植物は「精巧な栽培ハウス」の中にあったという。現場で40代後半の男が逮捕された。

植物は土曜日の朝、アシュボーン近郊の倉庫の捜索中に発見された。警察によれば、彼らは「精巧な栽培ハウス」に住んでいたという。 40代の男が現場で逮捕された。

PaLM によって生成された要約

警察は、アシュボーン近郊の倉庫で推定10万ポンド相当の大麻の植物が発見されたことを受けて、40代後半の男を逮捕した。

警察はアシュボーン近郊の倉庫で約10万ポンド相当の大麻を発見し、40代の男を逮捕した。

PaLM はこの記事がマリファナの栽培に関するものであると推測し、その価格まで推定していることがわかりますが、どちらもソース テキストには記載されていません。

元の段落

Veeru Devgan は、インドのボリウッドのスタントおよびアクション振付師、映画監督です。

Veeru Devgan は、インド出身のボリウッドのスタントマンおよびアクション振付師であり、映画監督でもあります。

PaLM Chat が生成したスニペット

ヴィール・デーヴガンは、ボリウッドのインド人スタント兼アクション振付師、映画監督です。俳優のアジャイ・デーヴガンと監督のアニル・デーヴガンの父です。インド映画界最大のヒット作を含む100本以上の映画に出演しています。革新的でエキサイティングなアクションシーンで知られ、業界で最も人気のアクション振付師の1人となっています。また、映画監督としても成功しており、「Phool Aur Kaante」や「​​Zakhm」など、ヒット映画を数本監督しています。

Veeru Devgan は、インドのボリウッドのスタントおよびアクション振付師、映画監督です。彼は俳優のアジャイ・デーヴガンと監督のアニル・デーヴガンの父親です。彼はインド映画界最大のヒット作を含む100本以上の映画に出演しています。彼は革新的でスリリングなアクションシーンで知られ、業界で最も人気のあるアクション振付師の一人となっています。彼は映画監督としても成功しており、「Phool Aur Kaante」や「​​Zakhm」など数々のヒット映画を監督しています。

Vectara は、PaLM-Chat はソース テキストに厳密に従うように指示されているにもかかわらず、元のテキストに多くの追加の詳細を追加していると考えています。

さらに、追加されたテキストには、デーヴガンは「ザクム」の監督ではない、ヴィール・デーヴガンはアニル・デーヴガンの父親ではなく兄弟であるといった幻想も含まれていた。

さらに、モデルはいくつかの関係性を反転させることもあります。たとえば、ボクサーのマニー・パッキャオに関する記事では、原文ではマーク・ウォールバーグがパッキャオのファンの一人であると書かれていますが、LLM ではマニーがウォールバーグのファンであると書かれています。

上司は疑問を呈した

ネット上で話題になっているこの LLM イリュージョン ベンチマークについて、Nvidia の上級研究科学者 Jim Fan 氏は「非常に不正確」だと述べ、次のようにコメントしています。

最近、LLM 錯覚ベンチマークがオンラインで話題となり、人々は表のスクリーンショットに基づいて結論を急ぎました。

しかし、この評価にはいくつかの点で問題があります。実際、些細なベースラインによって錯覚が 0% になる可能性があります。

たとえば、この研究では、抄録と原文の「事実の一貫性」のみを評価しており、抄録自体の質は評価していない。しかし、記事から数文をコピーしただけのモデルでも、100% の事実の一貫性を実現でき、錯覚はまったく生じません。

これは、よく知られている「有用性とセキュリティ」のトレードオフに似ています。 100% 安全なモデルは、すべてのリクエストに対して「申し訳ありませんが、お手伝いできません」と応答します。しかし、それは意味がありません。

さらに、この評価では、幻覚が発生したかどうかを判断するために別の LLM「判定者」に依存していますが、著者は、(1) LLM 判定者がどのようにプロンプ​​トを提供するか、(2) LLM がどのように詳細にエラーを捕捉して判定するかについて詳細に説明していません。

それは単に「正しいか間違っているか」という二者択一の答えを吐き出すだけでしょうか?それとも、より詳細な推論を行って、どの事実が幻想であるかを説明し、次に理由を説明してルールを述べるべきでしょうか?

それは人間とどの程度一致しているのでしょうか、また、いつ一致していないのでしょうか? 「幻覚」はどのように定義されますか?

たとえば、モデルに無関係だが真実である事実が注入されたとします。記事には「パリ」としか書かれていないが、模型には「フランスの首都パリ」と書かれている。これは幻覚でしょうか?

実際、研究では、要約の精度が高いモデルの方が言い換えや精緻化が進む傾向があるため、そのモデルが不利になる可能性さえあります。質の悪い LLM は単純に盗作をするため、この基準に従って採点しやすくなります。

これは、GPT-4 を使用して数学の問題の解答を採点し、「GPT-4 は MIT の学部生と同等である」という目を引く結論に達した、MIT の撤回された論文を思い出させます。

結論を急ぐ前に、必ず評価契約書を読んでください。これは、LLM タスクやその他の ML システム全般に当てはまります。

対策: 検索拡張生成 (RAG)

では、どうすればビッグモデルの幻想を打ち破ることができるのでしょうか?

RAG の使用により、LLM 問題解決のパラダイムが、以前の「クローズドブック」から「オープンブック」に直接変化しました。

具体的には、クローズドブック応答システム(ChatGPT など)では、LLM は事前トレーニングを通じて獲得した知識を使用してのみ回答を生成できます。この場合、LLM 自体が知識の源となります。

RAG システムでは、LLM の役割は知識源から情報取得者に変わります。つまり、LLM はまず知識ベースで元の質問を照会し、さらに分析して要約した後、簡潔な言語で回答を提供します。

LLM によって提供される回答は検索システムで提供される情報に基づいているため、この方法により LLM の幻覚問題が大幅に改善されます。

ChatGPT などの大規模な言語モデルが最初にリリースされた当時、人々はその「ナンセンス」な性質に興味を抱きました。

今日、LLM が示す並外れた能力は、彼らにあらゆる分野や人々の生活に浸透する機会を与え、私たちは彼らの「正確さ」を頼りにし始めています。

今日、LLM の「幻想」の問題をどのように捉え、対処すればよいのでしょうか?

大規模なモデルが幻覚を生み出すという主張に関して、人工知能のゴッドファーザーであるヒントンはかつてこう言った。

「これが人間の記憶の姿です。私の考えでは、捏造と真実を語ることの間に境界はありません。真実を語ることは、正しく捏造することです。この観点からすると、ChatGPTの捏造能力は欠陥ですが、人間のような知性の兆候でもあります。」

<<:  1分で10日間の世界の天気を予測します! Google DeepMindの新しいAI天気予報がScienceに掲載され、業界のSOTAを圧倒

>>:  Agent4Recが登場!大規模なモデルエージェントは、実際のユーザーインタラクション動作をシミュレートする推奨システムシミュレーターを構成します。

ブログ    
ブログ    
ブログ    

推薦する

FP8 を使用して大規模モデルをトレーニングするとどれくらい良いのでしょうか? Microsoft: BF16 より 64% 高速、メモリは 42% 削減

大規模言語モデル (LLM) には、これまでにない言語理解および生成機能が備わっていますが、これらの...

...

チームメイトが機械の場合: CISO が AI について尋ねるべき 8 つの質問

AI は、私たちが行うほぼすべての方法を変えています。私たちが行くところすべてで、かつては人間が行っ...

心臓血管画像診断における人工知能の応用の進歩

人工知能(AI)は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

Google内部関係者、Bardチャットボットの有用性に疑問

10月12日、ブルームバーグは昨夜、グーグルとDiscordが共同で自社のAIチャットボット「Bar...

...

...

AIがサイバーセキュリティに革命を起こす: フィッシング攻撃の防止

テクノロジーが私たちの日常生活を支配する時代において、サイバー脅威はますます巧妙かつ危険なものになっ...

...

AIが新たな成長エンジンに。アマゾン ウェブ サービスの技術的手法に耳を傾けてみよう

AI は数年前にテクノロジーの世界で人気を博しましたが、今では何千もの業界で革新と徹底的な応用が行わ...

AIを活用してデジタル資産管理ワークフローを効率化する方法

[[412045]]人工知能は、マーケティングテクノロジーを含むあらゆる業界の状況を変えています。マ...

...

北京大学光華管理学院 周連:人工知能は中間所得層にどのような影響を与えるのでしょうか?

オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...