ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために使用されます。ニュース記事、ソース コード、多言語テキストなど、さまざまなコンテンツに使用できます。

大規模モデル (LLM) の出現により、特定のデータセットを微調整する従来の方法は適用できなくなりました。

LLM は抄録作成にどれほど効果があるのだろうかと疑問に思わずにはいられません。

この疑問に答えるために、北京大学の研究者たちは論文「要約は(ほぼ)死んだ」の中で詳細な議論を行った。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一ニュース、複数ニュース、対話、ソースコード、および言語間の要約) における LLM のパフォーマンスを評価しました。

LLM によって生成された要約、人間が書いた要約、および微調整されたモデルによって生成された要約を定量的および定性的に比較した結果、LLM によって生成された要約が人間の評価者に著しく好まれることが判明しました。

次に、過去 3 年間に ACL、EMNLP、NAACL、COLING で公開された要約方法に関する論文 100 件をサンプリングして調査したところ、論文の約 70% の主な貢献は要約方法を提案し、標準データセットでその有効性を検証することであることがわかりました。したがって、この記事では「要約は(ほぼ)死んだ」と述べています。

それにもかかわらず、研究者らは、より高品質の参照データセットや評価方法の改善の必要性など、この分野にはまだ課題が残っていると述べている。

論文アドレス: https://arxiv.org/pdf/2309.09558.pdf

方法と結果

この研究では最新のデータを使用して、それぞれ 50 個のサンプルで構成されるデータセットを構築しました。

例えば、単一ニュース、複数ニュース、会話の要約タスクを実行する場合、本論文で採用されている方法は、CNN/DailyMail や Multi-News で使用されるデータセット構築方法をシミュレートします。クロスリンガル要約タスクの場合、その戦略はZhuらによって提案された方法と一致しています。コード要約タスクに関しては、本論文ではBahramiらが提案した方法を採用しています。

データセットが構築されたら、次のステップは方法です。具体的には、この論文では、単一のニュースタスクには BART と T5 を使用し、複数のニュースタスクには Pegasus と BART を使用し、対話タスクには T5 と BART を使用し、言語間タスクには MT5 と MBART を使用し、ソースコードタスクには Codet5 を使用します。

この実験では、さまざまな要約の全体的な品質を比較するために人間の評価者を採用しました。結果は図 1 に示されています。LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約と微調整されたモデルによって生成された要約の両方よりも一貫して優れています。

このことから、従来完璧であると想定されてきた人間が書いた要約よりも、なぜ LLM が優れているのかという疑問が生じます。さらに、予備的な観察によれば、LLM によって生成された要約は、高度な流暢性と一貫性を示していることが示されています。

さらに、人間と LLM が生成した要約文における幻覚の問題を特定するために注釈者を募集しました。結果を表 1 に示します。GPT-4 によって生成された要約と比較すると、手動で作成された要約には、同じかそれ以上の幻覚の数が表示されています。複数のニュースやコードの要約などの特定のタスクでは、人間が書いた要約は事実の一貫性が著しく低いことが示されています。

手書きの要約とGPT-4で生成された要約における幻覚の割合を表2に示します。

この論文では、手書きの参考文献要約の問題点は流暢さに欠けることであることも判明しました。図 2 (a) に示すように、手動で作成された参考文献の要約では情報が不完全になることがあります。図 2 (b) では、手書きの参考文献の要約の一部が幻覚化されています。

また、微調整されたモデルによって生成された要約は固定された厳密な長さになる傾向があるのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整されたモデルによって生成された要約ではトピックのカバレッジが低くなりますが、LLM では要約を生成するときにすべてのトピックをキャプチャできます。

図 4 に示すように、大規模モデルに対する人間の好みのスコアは 50% を超えており、人々がその要約を強く好んでいることを示し、テキスト要約における LLM の能力を強調しています。

<<: 

>>:  IEEE: ディープフェイク技術のより深い理解

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

事例 | 人工知能はヘルスケアの未来をどう変えるのか?

人工知能はこれらすべてを変え、私たちにとって物事をより簡単にしてくれます。 それは、私たちが交流し、...

「認知の輪」を解読する:AIと人間の究極の戦い

今日は週末なので、深遠な話をするふりをして話をしましょう。現在、人工知能について議論する場合、ほとん...

BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機...

...

...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレートするため、人間は製造バ...

...

デジタル時代のパフォーマンス管理:現実と未来

デジタルパフォーマンス管理の変革デジタル目標設定パフォーマンス計画は、企業の繁栄戦略と業務を結び付け...

...

大規模言語モデルとAIコードジェネレータの台頭

翻訳者 |李睿レビュー | Chonglouこの記事の著者であるMartin Heller は、 W...

AI、新たなアリババとテンセント

インターネット時代の恩恵が徐々に薄れていくにつれ、プレイヤーは次の発展のトレンドを求めて模索と実践を...

人工知能を開発するには何が必要ですか?

独自の人工知能システムを構築するにはどうすればよいでしょうか?多くのことと同様に、答えは「それは状況...

2019年世界人工知能製品応用博覧会は今年5月に蘇州で開催される。

2019年グローバルスマート博覧会は今年5月9日から11日まで蘇州工業園区で開催される予定だ。蘇州...

知能ロボット連携システムとその主要技術

ロボットの知能化に向けた開発において、マルチロボット協働システムは包括的な技術統合プラットフォームで...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

[[240152]]人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意...