ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために使用されます。ニュース記事、ソースコード、多言語テキストなど、さまざまなコンテンツに使用できます。

大規模モデル (LLM) の出現により、特定のデータセットを微調整する従来の方法は適用できなくなりました。

LLM は抄録作成にどれほど効果があるのだろうかと疑問に思わずにはいられません。

この疑問に答えるために、北京大学の研究者たちは論文「要約は（ほぼ）死んだ」の中で詳細な議論を行った。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一ニュース、複数ニュース、対話、ソースコード、および言語間の要約) における LLM のパフォーマンスを評価しました。

LLM によって生成された要約、人間が書いた要約、および微調整されたモデルによって生成された要約を定量的および定性的に比較した結果、LLM によって生成された要約が人間の評価者に著しく好まれることが判明しました。

次に、過去 3 年間に ACL、EMNLP、NAACL、COLING で公開された要約方法に関する論文 100 件をサンプリングして調査したところ、論文の約 70% の主な貢献は要約方法を提案し、標準データセットでその有効性を検証することであることがわかりました。したがって、この記事では「要約は（ほぼ）死んだ」と述べています。

それにもかかわらず、研究者らは、より高品質の参照データセットや評価方法の改善の必要性など、この分野にはまだ課題が残っていると述べている。

論文アドレス: https://arxiv.org/pdf/2309.09558.pdf

方法と結果

この研究では最新のデータを使用して、それぞれ 50 個のサンプルで構成されるデータセットを構築しました。

例えば、単一ニュース、複数ニュース、会話の要約タスクを実行する場合、本論文で採用されている方法は、CNN/DailyMail や Multi-News で使用されるデータセット構築方法をシミュレートします。クロスリンガル要約タスクの場合、その戦略はZhuらによって提案された方法と一致しています。コード要約タスクに関しては、本論文ではBahramiらが提案した方法を採用しています。

データセットが構築されたら、次のステップは方法です。具体的には、この論文では、単一のニュースタスクには BART と T5 を使用し、複数のニュースタスクには Pegasus と BART を使用し、対話タスクには T5 と BART を使用し、言語間タスクには MT5 と MBART を使用し、ソースコードタスクには Codet5 を使用します。

この実験では、さまざまな要約の全体的な品質を比較するために人間の評価者を採用しました。結果は図 1 に示されています。LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約と微調整されたモデルによって生成された要約の両方よりも一貫して優れています。

このことから、従来完璧であると想定されてきた人間が書いた要約よりも、なぜ LLM が優れているのかという疑問が生じます。さらに、予備的な観察によれば、LLM によって生成された要約は、高度な流暢性と一貫性を示していることが示されています。

さらに、人間と LLM が生成した要約文における幻覚の問題を特定するために注釈者を募集しました。結果を表 1 に示します。GPT-4 によって生成された要約と比較すると、手動で作成された要約には、同じかそれ以上の幻覚の数が表示されています。複数のニュースやコードの要約などの特定のタスクでは、人間が書いた要約は事実の一貫性が著しく低いことが示されています。

手書きの要約とGPT-4で生成された要約における幻覚の割合を表2に示します。

この論文では、手書きの参考文献要約の問題点は流暢さに欠けることであることも判明しました。図 2 (a) に示すように、手動で作成された参考文献の要約では情報が不完全になることがあります。図 2 (b) では、手書きの参考文献の要約の一部が幻覚化されています。

また、微調整されたモデルによって生成された要約は固定された厳密な長さになる傾向があるのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整されたモデルによって生成された要約ではトピックのカバレッジが低くなりますが、LLM では要約を生成するときにすべてのトピックをキャプチャできます。

図 4 に示すように、大規模モデルに対する人間の好みのスコアは 50% を超えており、人々がその要約を強く好んでいることを示し、テキスト要約における LLM の能力を強調しています。

<<:

>>: IEEE: ディープフェイク技術のより深い理解