ディープラーニングと自動テキスト要約が出会うとき

[[198984]]

導入

近年のテキスト情報の爆発的な増加により、人々はニュース、ブログ、チャット、レポート、論文、Weiboなど、毎日大量のテキスト情報にさらされています。大量のテキスト情報から重要なコンテンツを抽出することが急務となっており、自動テキスト要約は効率的なソリューションを提供します。

ラデフの定義[3]によれば、要約とは「1つ以上のテキストから抽出されたテキストで、元のテキストの重要な情報を含み、その長さが元のテキストの半分以下かそれより大幅に短いもの」です。自動テキスト要約は、機械を通じて重要な情報を保持する簡潔で流暢な要約を自動的に出力することを目的としています。

自動テキスト要約には、自動レポート生成、ニュース見出し生成、検索結果のプレビューなど、多くの応用シナリオがあります。さらに、自動テキスト要約により、下流のタスクもサポートされます。

自動テキスト要約に対する大きな需要があるにもかかわらず、この分野の進歩は遅れています。要約を生成することはコンピュータにとって難しい作業です。 1 つ以上のテキストから適切な要約を生成するには、コンピュータが元のテキストを読み取った後にその内容を理解し、その重要度に応じて内容を選択、切り取り、結合し、最終的に流暢な短いテキストを生成する必要があります。したがって、自動テキスト要約は自然言語処理/理解の関連理論に依存する必要があり、近年の重要な研究方向の 1 つとなっています。

自動テキスト要約は、通常、抽出型と生成型の 2 つのカテゴリに分けられます。抽出要約では、元のテキスト内の重要な文を特定し、これらの文を要約に抽出します。生成法では、高度な自然言語処理アルゴリズムを使用して、言い換え、同義語の置換、文の省略などの手法により、より簡潔でわかりやすい要約を生成します。抽出方法と比較すると、生成方法は人間による要約のプロセスに近いです。歴史的に、抽出アプローチは生成アプローチよりも一般的に優れたパフォーマンスを発揮してきました。ディープニューラルネットワークの台頭と研究により、ニューラルネットワークに基づく生成テキスト要約は急速に発展し、良好な成果を達成しました。

この記事では、主にディープニューラルネットワークに基づく生成的自動テキスト要約について紹介し、代表的な要約モデルに焦点を当て、自動生成された要約を評価する方法を紹介します。ディープニューラルネットワークを使わない抽出型および生成型の自動テキスト要約に興味のある学生は[1][2]を参照することができます。

生成テキスト要約

生成テキスト要約は、人間に近い方法で要約を生成するため、生成モデルにはテキストの表現、理解、生成においてより強力な機能が必要です。従来の方法ではこれらの機能を実現することは困難ですが、近年のディープニューラルネットワークの急速な発展により、その強力な表現能力により多くの可能性が提供され、画像分類や機械翻訳などの分野で機械知能の限界が継続的に押し広げられています。ディープニューラルネットワークの助けにより、生成的自動テキスト要約も目覚ましい進歩を遂げました。多くの生成ニューラルネットワークモデル（ニューラルネットワークベースの抽象要約モデル）は、DUC-2004テストセット[4]で最高の抽出モデルを上回っています。この記事のこの部分では、主に生成ニューラルネットワークモデルの基本構造と最新の成果について紹介します。

基本的なモデル構造

生成ニューラルネットワークモデルの基本構造は主にエンコーダーとデコーダーで構成され、エンコードとデコードの両方がニューラルネットワークによって実装されます。

エンコーダーは、入力された元のテキストを、元のテキストの表現でありテキストの背景を含むベクトル (コンテキスト) にエンコードする役割を担います。デコーダーは、このベクトルから重要な情報を抽出し、処理および編集し、テキスト要約を生成する役割を担います。このアーキテクチャは Sequence-to-Sequence (以下、Seq2Seq と略します) と呼ばれ、機械翻訳 (ある言語シーケンスから別の言語シーケンスへ)、画像キャプション作成 (画像ピクセルシーケンスから言語シーケンスへ)、会話ロボット (質問から回答など) など、入力シーケンスと出力シーケンスがあるシナリオで広く使用されています。

Seq2Seq アーキテクチャのエンコーダーとデコーダーは、通常、再帰型ニューラルネットワーク (RNN) または畳み込みニューラルネットワーク (CNN) によって実装されます。

リカレントニューラルネットワークベースのモデル

RNN は、出力が入力だけでなく前の瞬間の出力にも依存するため、リカレントニューラルネットワークと呼ばれます。

上図に示すように、時刻 t の出力 h は時刻 t の入力 x だけでなく、時刻 t-1 の出力にも依存し、t-1 の出力は t-1 の入力と t-2 の出力に依存し、以下同様に再帰的に依存します。時間依存性により、RNN は理論的には特定の瞬間に出力する際に過去のすべての瞬間の入力情報を考慮に入れることができます。これは、テキスト、音声、金融データなどの時系列データに特に適しています。したがって、テキストタスクを処理するために RNN に基づく Seq2Seq アーキテクチャを実装するのは自然な考えです。

典型的な RNN ベースの Seq2Seq アーキテクチャを下図に示します。

図は電子メールに自動返信するモデルを示しています。エンコーダーとデコーダーはRNNの4層LSTM[5]バリアントで構成されています。図の思考ベクトルは、入力テキスト情報 (明日は空いていますか?) をエンコードします。デコーダーはこのベクトルを取得し、それをデコードしてターゲットテキスト (はい、どうですか?) を生成します。上記のモデルは、入力が元のテキスト (ニュースなど) で、出力が要約 (ニュースのタイトルなど) である自動テキスト要約タスクにも自然に使用できます。

現在、最も優れた RNN ベースの Seq2Seq 生成テキスト要約モデルの 1 つは Salesforce から提供されており、基本モデルアーキテクチャで注意メカニズムと強化学習を使用しています。このモデルについては以下で詳しく説明します。

畳み込みニューラルネットワークベースのモデル

Seq2Seq は CNN を通じて実装することもできます。時系列データに直感的に適用できるリカレントニューラルネットワークとは異なり、CNNは当初画像タスクにのみ使用されていました[6]。

CNN は畳み込みカーネル (上図の A と B) を通じて画像から特徴を抽出し、間隔を置いて特徴に最大プーリングを適用して、線、面、複雑なグラフィックパターンなど、単純なものから複雑なものまでさまざまなレベルの特徴を取得します (下図を参照)。

CNNの利点は、階層的な特徴を抽出し、畳み込み演算を並列かつ効率的に実行できることです。では、CNNはテキストタスクに適用できるのでしょうか？ネイティブの文字列テキストでは、この可能性はありません。ただし、テキストを分散ベクトル（分散表現/単語埋め込み）[7]として表現すると、実数行列/ベクトルを使用して文/単語を表すことができます。このような分散ベクトルにより、CNN をテキストタスクに適用できるようになります。

上図に示すように、元のテキスト（ビデオを待ってレンタルしないでください）は実数行列で表現され、画像のピクセル行列に例えることができます。CNN は画像を「読む」のと同じようにテキストを「読み取る」ことができ、学習して特徴を抽出します。 CNN によって抽出されたテキスト特徴は、画像特徴ほど明白に解釈可能ではなく、視覚化することはできませんが、文の文法階層構造を表す自然言語処理における構文解析ツリーと比較することができます。

畳み込みニューラルネットワークに基づく最も代表的な自動テキスト要約モデルは、Facebookが提案したConvS2Sモデルである[9]。そのエンコーダーとデコーダーはともにCNNで実装されており、さらに注意機構も追加されている。これについては以下で詳しく紹介する。

もちろん、エンコーダーとデコーダーを実装するために同じニューラルネットワークを使用するだけでなく、CNN ベースのエンコーダーと RNN ベースのデコーダーなど、異なるネットワークを使用することもできます。

最先端

抽象要約のための深層強化モデル

これは、Salesforce Research が公開した RNN に基づく生成型自動テキスト要約モデルです。アーキテクチャの革新といくつかのトリックにより、長いテキストを要約するモデルの能力が向上し、CNN/Daily Mail および New York Times データセットで新たな最先端 (最高のパフォーマンス) が達成されました。

長いテキストの要約を生成することは、テキスト要約の分野において比較的難しいタスクです。過去最高のディープニューラルネットワークモデルであっても、このタスクを処理する際に、一貫性のない生成や単語や文の繰り返しなどの問題が発生します。上記の問題を解決するために、モデル作成者は、テキスト要約の生成品質を効果的に向上させるイントラアテンションメカニズムと新しいトレーニング方法を提案しました。

モデルには、1) 従来のデコーダーとエンコーダーの注意メカニズムと、2) デコーダー内の注意メカニズムという 2 セットの注意メカニズムが適用されます。前者は、デコーダーが結果を生成する際に入力情報を動的かつオンデマンドで取得することを可能にし、後者はモデルが生成された単語に焦点を当てることを可能にし、長い文を生成する際に同じ単語が繰り返される問題を解決するのに役立ちます。

このモデルのもう一つの革新は、教師あり学習（教師による強制）と強化学習（強化学習）を組み合わせたハイブリッド学習目標の導入です。

まず、学習目標には従来の最大尤度法が含まれます。最大尤度 (MLE) は、言語モデリングなどのタスクにおける古典的なトレーニング目標であり、モデルが言語の確率分布を学習できるように、文中の単語の結合確率分布を最大化することを目的としています。

しかし、テキスト要約の場合、最大尤度のみを考慮するだけでは不十分です。主な理由は 2 つあります。まず、教師ありトレーニングには参照用の「回答」がありますが、アプリケーションと要約の生成に関しては、そのような回答はありません。たとえば、時刻 t に生成された単語が「tech」であり、参照サマリー内の単語が「science」である場合、教師ありトレーニングで時刻 t+1 に単語を生成するときに、入力は「science」であるため、エラーは蓄積されません。しかし、実際のアプリケーションでは、グラウンドトゥルースが不足しているため、時刻 t+1 の入力は間違った「技術」になります。その結果、修正を行わないとエラーが蓄積され、露出バイアスと呼ばれる問題が発生します。もう 1 つの理由は、教師あり学習では、テキストに対して参照要約が 1 つしか提供されないことです。MLE ベースの教師あり学習では、モデルが同一の要約を生成するように促すだけです。ただし、冒頭で述べたように、テキストに対して異なる要約が存在する場合が多いため、教師あり学習の要件は絶対的すぎます。対照的に、生成された要約を評価するための ROUGE メトリックは、この柔軟性を考慮し、参照要約と生成された要約を比較して要約を評価します (以下の要約の評価セクションを参照)。そのため、トレーニング中にROUGEインジケーターを導入したいと考えています。ただし、ROUGE は微分可能ではないため、従来の勾配 + バックプロパゲーション法を ROUGE に直接適用することはできません。したがって、自然なアイデアは、強化学習を使用して ROUGE インジケーターをトレーニング目標に追加することです。

では、強化学習を使用して ROUGE のモデルを最適化するにはどうすればよいでしょうか。簡単に言うと、モデルはまずフォワードモード (推論) で要約サンプルを生成し、ROUGE インジケーターを使用してそれらを評価およびスコア付けし、このサンプルの評価/報酬を取得し、次に報酬に基づいてモデルパラメーターを更新します。モデルによって生成されたサンプル報酬が高い場合、モデルは奨励されます。生成されたサンプルの評価が低い場合、モデルはそのようなサンプルの出力を抑制されます。

最終的なトレーニング目標は、最大尤度と ROUGE ベースの関数の加重平均です。これら 2 つのサブ目標にはそれぞれ独自の役割があります。最大尤度は、モデルが文法的に正しく流暢なテキストを生成できるように、優れた言語モデルを構築する役割を担います。一方、ROUGE インジケーターは露出バイアスを減らし、要約の柔軟性を高めます。同時に、ROUGE の最適化は、モデルの ROUGE スコアも直接向上させます。

優れたモデルを構築するには、アーキテクチャの革新だけでなくいくつかのトリックも必要であり、このモデルも例外ではありません。この論文では、著者らは以下の手法を使用しました。

ポインタを使用して、語彙外 (OOV) の問題を処理します。
トレーニング中のモデル収束を高速化するためのデコーダー重みの共有。
人工的なルールでは、連続する 3 つの単語が繰り返し出現することはできないと規定されています。

まとめると、ディープラーニング + 強化学習は良いアイデアです。このモデルは、強化学習をテキスト要約タスクに初めて適用し、優れたパフォーマンスを達成しました。同じ考え方は他のタスクにも応用できると思います。

畳み込みシーケンスツーシーケンス学習

ConvS2S モデルは Facebook の AI 研究所によって提案されました。エンコーダーとデコーダーはどちらも畳み込みニューラルネットワークに基づいて構築されています。このモデルは主に機械翻訳タスクに使用されます。論文が発表された時点では、英語からドイツ語、英語からフランス語の翻訳タスクの両方で最先端のレベルに達していました。同時に、著者らはこのモデルを自動テキスト要約にも使用しようとしました。実験結果では、CNN ベースの Seq2Seq モデルがテキスト要約タスクでも最先端に近いパフォーマンスを達成できることが示されました。

モデルアーキテクチャを下図に示します。一見すると複雑そうなモデルですが、実は各部分は比較的直感的に理解しやすいです。以下では、サブモジュールに分けてConvS2Sを詳しく紹介していきます。

まずは埋め込み部分を見てみましょう。

このモデルの埋め込みは比較的新しいものです。従来の意味埋め込み/単語埋め込みに加えて、位置埋め込みも追加され、単語の順序を分散ベクトルとして表すため、モデルは単語の順序と位置情報を取得し、RNN の単語の順序の認識をシミュレートできます。最終的な埋め込みは、意味的埋め込みと語順埋め込みの単純な合計です。

その後、単語の埋め込みはモデルの畳み込みモジュールに入力として送られます。

この畳み込みモジュールは、古典的な畳み込みに非線形変換を加えたものとみなすことができます。図には 1 つの層しか示されていませんが、実際には、従来の畳み込み層のように層ごとに積み重ねることができます。

ここでは非線形変換に焦点を当てます。

この非線形変換はゲート線形ユニット（GLU）[10]と呼ばれます。畳み込みの結果を 2 つの部分に分割し、一方の部分にシグモイド変換を適用して、0 から 1 までの区間にマッピングし、次にベクトルの他の部分と要素ごとの積を実行します。

この設計は、LSTM のゲート構造を彷彿とさせます。 GLUはLSTMとGRUのゲート構造をある程度模倣し、ネットワークが情報フローの伝達を制御することを可能にします。GLUは言語モデリングにおいて非常に効果的であることが証明されています[10]。

ゲートアーキテクチャと畳み込み層を組み合わせることに加えて、著者らは残差接続も使用しました[11]。残余接続は、より深いネットワークを構築し、勾配の消失/爆発などの問題を軽減するのに役立ちます。

このモデルでは、畳み込みネットワークの拡張バージョンを使用するだけでなく、マルチホップ構造を備えたマルチステップの注意メカニズムも導入されています。これまでのアテンションメカニズムとは異なり、マルチホップアテンションでは、デコーダーの最後の畳み込みブロックが入力情報と出力情報に注意を払う必要があるだけでなく、各畳み込みブロックが同じアテンションメカニズムを実行することも必要です。このような複雑な注意メカニズムにより、モデルは、どの入力に注意が払われたかなど、より多くの履歴情報を取得できるようになります。

「抽象的要約のための深層強化モデル」と同様に、ConvS2S の成功は革新的な構造だけでなく、巧妙なトリックにもあります。 ConvS2S では、著者らはパラメータの初期化と正規化を非常に慎重に行い、分散とトレーニングプロセスを安定させました。

このモデルの成功は、長距離依存関係を階層的に表現することで、CNN をテキストタスクにも適用できることを証明しています。同時に、CNN は高度に並列化できるため、CNN のトレーニングは RNN よりも効率的です。 RNN と比較すると、CNN の欠点は、調整する必要があるパラメータが多いことです。

評価概要

要約の品質を評価するのは難しい作業です。

要約に対して標準的な答えがあるとは言い難い。客観的な評価基準を持つ多くのタスクとは異なり、要約の評価はある程度主観的な判断に依存します。要約タスクでも、文法の正確さ、言語の流暢さ、重要な情報の完全性などの基準があります。要約の評価は、「千人の目には千のハムレットがある」ようなものです。要約の品質については、誰もが独自の基準を持っています。

1990 年代後半から、いくつかの会議や組織が要約評価の標準の開発に取り組み始めており、いくつかの自動テキスト要約の評価にも参加しています。よく知られている会議や組織としては、SUMMAC、DUC (Document Understanding Conference)、TAC (Text Analysis Conference) などがあります。その中でも、DUC の要約タスクは広く研究されており、ほとんどの抽象要約モデルは DUC-2004 データセットでテストされています。

現在、自動テキスト要約の品質を評価する主な方法は、手動評価方法と自動評価方法の 2 つです。どちらの評価方法でも、次の 3 つのポイントを完了する必要があります。

元のテキストの中で保持する最も重要な部分を決定します。
自動テキスト要約で 1 の部分を識別します。
文法と一貫性に基づいて要約の読みやすさを評価します。

手動評価方法

要約の品質を評価する最も簡単な方法は、複数の専門家を招き、基準に基づいて手動で評価してもらうことです。この方法は人間の読書体験に近いですが、時間がかかり、労力もかかるため、大規模な自動テキスト要約データの評価には使用できません。自動テキスト要約のアプリケーションシナリオには適していません。そのため、テキスト要約研究コミュニティでは、自動評価手法を積極的に研究しています。

自動評価方法

自動テキスト要約をより効率的に評価するために、1 つまたは複数のメトリックを選択し、これらのメトリックに基づいて生成された要約を参照要約 (正しいとされる人間が作成した要約) と比較して自動的に評価することができます。現在最も一般的に使用され、認知されている指標は、ROUGE (Recall-Oriented Understudy for Gisting Evaluation) です。 ROUGE は Lin によって提案された指標のセットであり、いくつかの派生指標が含まれています。最も一般的に使用される指標は ROUGE-n、ROUGE-L、ROUGE-SU です。

ROUGE-n: このメトリックは、生成された要約と参照要約の n グラム (連続する n 語) を比較して要約の品質を評価することを目的としています。よく使われるのはROUGE-1、ROUGE-2、ROUGE-3です。
ROUGE-L: ROUGE-n とは異なり、このメトリックは最長共通サブシーケンス (LCS) に基づいて要約を評価します。生成されたサマリーと参照サマリーの LCS が長い場合、生成されたサマリーの品質が高いと見なされます。この指標の欠点は、n-gram が連続している必要があることです。
ROUGE-SU: この指標は、ユニグラム (n = 1) とバイグラム (n = 2) を考慮し、バイグラムの最初の単語と 2 番目の単語の間に他の単語を挿入できるため、ROUGE-L よりも柔軟性があります。

自動評価指標であるROUGEは手動評価との相関性が高く、自動評価サマリーにおいて有効な参考資料となります。一方、ROUGE指標の上記の説明から、ROUGEは意味的な対応ではなく単語の対応に基づいていることがわかります。生成された要約が単語の点で参照要約に近いほど、ROUGE値は高くなります。ただし、単語が異なる場合は、意味的に類似していても、結果として得られる ROUGE 値は低くなります。つまり、生成されたアブストラクトが同義語の置換を含む参照アブストラクトである場合、それを完全に異なる単語を含むアブストラクトに書き換えると、依然として高品質のアブストラクトであるにもかかわらず、ROUGE 値は反対の結論を示します。この極端ではあるが起こり得る例からわかるように、自動評価方法に必要な指標にはまだいくつかの欠点があります。現在、上記の状況を回避するために、評価中に複数の抄録が参照およびベンチマークとして使用されることが多く、これにより ROUGE の信頼性が効果的に高まり、抄録の非一意性も考慮されます。自動評価要約方法の研究と探求も、自動テキスト要約の分野で注目されている研究方向です。

要約する

この記事では、主にディープニューラルネットワークに基づく生成テキスト要約について、基本モデルや最新の進歩を含めて紹介し、自動生成された要約を評価する方法も紹介します。自動テキスト要約は、NLP の最もホットな研究分野の 1 つです。研究の実装から実際のビジネスに至るまでには、まだ長い道のりがあります。今後の開発の方向性としては、1) 人が要約を書く方法を模倣し、抽出モデルと生成モデルを統合すること、2) より優れた要約評価指標を研究することが考えられます。この記事が、自動テキスト要約タスクにおけるディープニューラルネットワークの応用をより深く理解する一助となれば幸いです。

<<: 自然言語処理に加えて、単語埋め込み（Word2Vec）を使用してこれを行うこともできます。

>>: SMP、NUMA、MPP アーキテクチャの概要