ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために使用されます。ニュース記事、ソース コード、多言語テキストなど、さまざまなコンテンツに使用できます。

大規模モデル (LLM) の出現により、特定のデータセットを微調整する従来の方法は適用できなくなりました。

LLM は抄録作成にどれほど効果があるのだろうかと疑問に思わずにはいられません。

この疑問に答えるために、北京大学の研究者たちは論文「要約は(ほぼ)死んだ」の中で詳細な議論を行った。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一ニュース、複数ニュース、対話、ソースコード、および言語間の要約) における LLM のパフォーマンスを評価しました。

LLM によって生成された要約、人間が書いた要約、および微調整されたモデルによって生成された要約を定量的および定性的に比較した結果、LLM によって生成された要約が人間の評価者に著しく好まれることが判明しました。

次に、過去 3 年間に ACL、EMNLP、NAACL、COLING で公開された要約方法に関する論文 100 件をサンプリングして調査したところ、論文の約 70% の主な貢献は要約方法を提案し、標準データセットでその有効性を検証することであることがわかりました。したがって、この記事では「要約は(ほぼ)死んだ」と述べています。

それにもかかわらず、研究者らは、より高品質の参照データセットや評価方法の改善の必要性など、この分野にはまだ課題が残っていると述べている。

論文アドレス: https://arxiv.org/pdf/2309.09558.pdf

方法と結果

この研究では最新のデータを使用して、それぞれ 50 個のサンプルで構成されるデータセットを構築しました。

例えば、単一ニュース、複数ニュース、会話の要約タスクを実行する場合、本論文で採用されている方法は、CNN/DailyMail や Multi-News で使用されるデータセット構築方法をシミュレートします。クロスリンガル要約タスクの場合、その戦略はZhuらによって提案された方法と一致しています。コード要約タスクに関しては、本論文ではBahramiらが提案した方法を採用しています。

データセットが構築されたら、次のステップは方法です。具体的には、この論文では、単一のニュースタスクには BART と T5 を使用し、複数のニュースタスクには Pegasus と BART を使用し、対話タスクには T5 と BART を使用し、言語間タスクには MT5 と MBART を使用し、ソースコードタスクには Codet5 を使用します。

この実験では、さまざまな要約の全体的な品質を比較するために人間の評価者を採用しました。結果は図 1 に示されています。LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約と微調整されたモデルによって生成された要約の両方よりも一貫して優れています。

このことから、従来完璧であると想定されてきた人間が書いた要約よりも、なぜ LLM が優れているのかという疑問が生じます。さらに、予備的な観察によれば、LLM によって生成された要約は、高度な流暢性と一貫性を示していることが示されています。

さらに、人間と LLM が生成した要約文における幻覚の問題を特定するために注釈者を募集しました。結果を表 1 に示します。GPT-4 によって生成された要約と比較すると、手動で作成された要約には、同じかそれ以上の幻覚の数が表示されています。複数のニュースやコードの要約などの特定のタスクでは、人間が書いた要約は事実の一貫性が著しく低いことが示されています。

手書きの要約とGPT-4で生成された要約における幻覚の割合を表2に示します。

この論文では、手書きの参考文献要約の問題点は流暢さに欠けることであることも判明しました。図 2 (a) に示すように、手動で作成された参考文献の要約では情報が不完全になることがあります。図 2 (b) では、手書きの参考文献の要約の一部が幻覚化されています。

また、微調整されたモデルによって生成された要約は固定された厳密な長さになる傾向があるのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整されたモデルによって生成された要約ではトピックのカバレッジが低くなりますが、LLM では要約を生成するときにすべてのトピックをキャプチャできます。

図 4 に示すように、大規模モデルに対する人間の好みのスコアは 50% を超えており、人々がその要約を強く好んでいることを示し、テキスト要約における LLM の能力を強調しています。

<<: 

>>:  IEEE: ディープフェイク技術のより深い理解

ブログ    
ブログ    
ブログ    

推薦する

トリソララン人は救われた!ディープラーニングは三体問題を解決する

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

トランスワープテクノロジーの孫元浩氏が「中国の人工知能起業家30人」の一人に選出

2020 年は特別な年であり、World Innovators Meet (WIM) の 6 年目と...

AI への移行: 6 月の AI 資金調達活動の概要

情報化時代において、人工知能は急速に社会の変化と発展を推進しています。世界中の研究機関、企業、大学が...

仮想誘拐:人工知能がランサムウェア詐欺を助長

もしあなたの配偶者や子供があなたに泣きながら電話をかけてきて、誘拐されたと告げたら、あなたは冷静で慎...

GPT-4 は生物兵器を作成できません! OpenAIの最新の実験では、大規模モデルはほぼ0であることが証明されている

GPT-4 は生物兵器の開発を加速させるでしょうか? AIが世界を支配することを心配する前に、人類は...

Google DeepMindは、新しいAIモデルGeminiを開発中であることを明らかにし、「GPT-4よりも強力」であると主張している。

6月28日、先月のGoogle I/O開発者会議で、Googleは開発中の大規模言語モデル「Gem...

伝染病警報!人工知能は何をするのでしょうか?

中国で新型コロナウイルスの感染が初めて確認されたのは2019年12月19日。感染源については、これま...

ついに誰かが説明可能な機械学習を明らかにした

[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...

通信事業者のRPAロボット活用事例紹介

国際・国内電話サービス、インターネット事業、通信ネットワーク資源・設備サービスなどを主力事業とする米...

テレンス・タオは数学の問題を解くために大規模なモデルを使用しています。コードの生成とLaTeXの数式の編集は非常に便利です。

過去数か月間、数学者のテレンス・タオ氏は、ChatGPT を使用して数学の問題を解くのに何度も試み、...

...

AI によってビデオの偽造が容易になるのでしょうか?

ああ、あの時のビデオテープが本当にあればよかったのに!ジェームズ・コミー氏は6月8日、上院情報委員会...

Appleは自動車製造を諦めてAIに目を向けたが、Li Xiang氏はこう答えた。「その通りだ!」その背後にある真実は人々に深く考えさせる

この2日間で大きなニュースがありました。Appleが自動車の製造をやめると発表したのです。このニュー...

...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...