GPT-4 を使用してテキスト要約を直接生成しないでください。 MIT、コロンビア大学などが新たな「密度チェーン」のヒントを発表：エンティティ密度が要約の質の鍵

ChatGPTのリリース後、テキスト生成技術は急速に発展し、特に標準的な回答がない「テキスト要約」タスクでは、多数のNLPタスクが完全に征服されるというジレンマに直面しています。

しかし、要約に「適切な量の情報」をどのように含めるかは依然として困難です。優れた要約は、エンティティが密集して理解しにくいものではなく、詳細でエンティティ中心である必要があります。

情報量と理解しやすさのトレードオフをより深く理解するために、MIT、コロンビア大学などの研究者は、GPT-4によって生成されたエンティティスパース要約を反復的に最適化し、要約テキストの長さを増やすことなく、欠落している重要なエンティティを徐々に追加できる新しい「Chain of Dense」プロンプトを提案しました。

論文リンク: https://arxiv.org/pdf/2309.04269.pdf

オープンソースデータ: https://huggingface.co/datasets/griffin/chain_of_density

実験結果から、CoD によって生成された要約は、通常のプロンプトによって生成された GPT-4 要約よりも抽象的であり、融合が多く、リードバイアスが少ないことがわかります。

CNN DailyMail の記事 100 件を対象にした人間の好みに関する調査では、人間は、手動で作成された要約のエンティティ密度に似た、より密度の高いエンティティを持つ要約結果を選択する傾向があることも判明しました。

研究者らは、注釈付きの CoD 抄録 500 件と注釈なしの抄録データ 5,000 件をオープンソース化しました。

テキスト要約の反復的な改善

プロンプト

タスクの目標は、GPT-4 を使用して、テキストの長さを制御しながら、「情報密度の異なるレベル」の要約セットを生成することです。

研究者らは、初期の要約を生成し、徐々にエンティティの密度を高めていくための Chain of Density (CoD) ヒントを提案しました。

具体的には、一定回数の反復処理で、ソーステキスト内の一意かつ顕著なエンティティのセットが識別され、テキストの長さを増やすことなく以前の要約に統合されます。

最初に生成された要約はエンティティがまばらで、1 ～ 3 個の初期エンティティのみに焦点を当てています。カバーされるエンティティの数を増やしながら同じテキストの長さを維持するには、以前の要約から意味のあるコンテンツを削除するのではなく、抽象化、融合、および圧縮を明示的に推奨する必要があります。

研究者は、エンティティの種類を指定する代わりに、欠落しているエンティティを次のように定義しました。

関連性:メインストーリーに関連している。

具体的:説明的だが簡潔 (5 語以下)。

新規:以前の要約には記載されていない。

忠実:原文に存在する;

どこでも:記事内のどこにでも表示できます。

データ選択に関しては、研究者は CNN/DailyMail の要約テストセットから 100 件の記事をランダムに選択して、CoD 要約を生成しました。

次に、CoD 要約統計は、手動で記述された箇条書き形式の参考文献要約や、「記事の非常に短い要約を記述してください。70 語を超えないようにしてください」という一般的なプロンプトに基づいて GPT-4 によって生成された要約と比較されます。

予想されるトークンの長さは、CoD ダイジェストのトークンの長さと一致するように設定されます。

統計結果

直接的な統計指標

NLTK を使用してトークンの数をカウントし、Spacy2 を使用して一意のエンティティの数を測定し、エンティティ密度比を計算しました。

CoD ヒントは、要約を生成するための予想されるトークンの数を大幅に制限します。2 番目のステップから始めて、長い初期要約から不要な単語を徐々に削除すると、テキストの長さが平均で 5 トークン (72 から 67) 減少することがわかります。

エンティティ密度も増加し、最初は 0.089 で、これは人間と GPT-4 の結果 (それぞれ 0.151 と 0.122) よりも低かったが、5 ステップ後には密度は 0.167 に増加した。

間接的な統計指標

抽出密度 (つまり、抽出されたセグメントの平均長さの 2 乗) は、テキストの抽象度を測定するために使用され、CoD が進むにつれて抽象度が増加すると予想されます。

「ソーステキストと整合された要約文の数」は概念融合の指標として使用され、整合アルゴリズムは「相対 ROUGE ゲイン」を使用して、追加された文によって相対 ROUGE ゲインが改善されなくなるまで、ソース文をターゲット文と整合させます。予想される融合は徐々に増加するはずです。

「ソーステキスト内の要約コンテンツの位置」をコンテンツ分布指標として使用し、具体的な測定方法は、すべての整列されたソース文の平均ランキングです。CoD要約は、最初は明らかなリードバイアスを示し、その後、記事の中間と最後から徐々にエンティティを導入し始めることが予想されます。

統計結果も予想結果の正しさを検証しました。書き直しのプロセスとともに抽象度が徐々に高まり、統合率が上がり、要約が記事の途中と最後の内容に組み込まれ始めました。

さらに、すべての CoD サマリーは、手動で記述されたものやベースラインモデルによって生成されたものよりも抽象的です。

実験結果

CoD 要約のトレードオフをより深く理解するために、好みに基づく人間研究と GPT-4 による評価に基づく評価を実施しました。

人間の嗜好評価

研究者たちは、人口密度の全体的な評価に対する密集化の影響を評価することに焦点を当てました。

具体的には、100件の記事を入力すると、「5ステップ×100＝合計500件」の要約が得られます。要約結果は4人の注釈者にランダムに表示され、原文の忠実度（Essence）、明瞭度（Clarity）、正確性（Accuracy）、目的（Purpose）、簡潔さ（Concise）、スタイル（Style）に基づいて要約が評価されます。

投票結果から判断すると、2 番目の CoD ステップが最も高い評価を受けました。平均密度の以前の実験結果と組み合わせると、人間はエンティティ密度が約 15% のテキスト要約を選択する傾向が強いことが大まかに推測できます。これは、GPT-4 によって生成された要約 (エンティティ密度 0.122) よりも大幅に高い値です。

自動評価指標

最近の研究では、GPT-4 の評価と人間の評価結果の相関関係が非常に高く、一部のラベリングタスクではクラウドソーシングの作業者よりも優れたパフォーマンスを発揮する可能性があることが実証されています。

研究者らは、手動評価の補足として、GPT-4 を使用して、情報価値、品質、一貫性、帰属、全体の 5 つの側面から CoD 要約 (1 ～ 5) を評価することを提案しました。

使用されるコマンドテンプレートは次のとおりです。

記事: {{Article}}
まとめ：
{{Dimension}} に関して、要約を評価してください (1 = 最悪、5 = 最高)。
{{意味}}

各指標の定義は次のとおりです。

情報量:情報量の多い要約は、記事内の重要な情報を捉え、それを正確かつ簡潔に提示します。（有益な要約は記事内の重要な情報を捉え、正確かつ簡潔に提示します。）

品質:高品質の要約は理解しやすいです。（質の高い要約は、理解しやすく、理解しやすいものです。）

一貫性:一貫性のある要約は、適切に構造化され、整理されています。 (首尾一貫した要約は、適切に構成され、整理されています。)

帰属:要約内のすべての情報は記事に完全に帰属していますか? （すべての情報は

要約は記事に完全に帰属するものですか？

一般的な推奨事項:優れた要約は、記事の主なアイデアを簡潔かつ論理的かつ首尾一貫した方法で伝える必要があります。（良い要約とは、記事の主なアイデアを簡潔かつ論理的かつ首尾一貫した形で伝えるものであるべきです。）

実験結果によると、高密度化は情報コンテンツと相関していますが、スコアはステップ 4 (4.74) でピークに達し、品質と一貫性はより速く低下し、すべての要約はソース記事に帰属するものとみなされ、全体的なスコアはより高密度で情報量の多い要約になる傾向があり、ステップ 4 で最高スコアになります。平均すると、最初の CoD ステップと最後の CoD ステップが最も不評でしたが、真ん中の 3 つのステップは近い結果でした (それぞれ 4.78、4.77、4.76)。

定性分析

要約の一貫性/読みやすさと、反復プロセス中に提供される情報量との間にはトレードオフがあります。

上記の例では、2 つの CoD ステップが示されています。1 つにはより詳細なコンテンツが含まれ、もう 1 つにはより粗いコンテンツが含まれます。

平均すると、中間ステップでの CoD サマリーはより優れたバランスを実現しますが、このバランスを正確に定義して定量化する方法についての研究はありません。

<<:

>>: