AI が「長すぎて読めない」問題の解決を支援: 深層要約モデルの構築方法

過去数十年にわたり、私たちは情報に関する一連の根本的な変化と課題を経験してきました。今日、情報へのアクセスはもはやボトルネックではありません。実際、本当の課題は膨大な量の情報をいかに処理するかにあります。仕事、ニュース、ソーシャルメディアに関するホットな情報を理解するには、もっと本を読まなければならないという個人的な経験は、誰もが持っていると思います。この課題に対処するため、私たちは、情報氾濫の真っ只中にある人々の仕事体験を向上させるために AI をどのように活用するかを研究し始めました。その解決策の 1 つとして、アルゴリズムを使用して長すぎるテキストコンテンツを自動的に要約することが考えられます。

しかし、長くて継続的で意味のある要約を生成できるモデルをトレーニングすることは、未解決の研究テーマのままです。実際、最も高度なディープラーニングアルゴリズムであっても、より長いテキストコンテンツを生成することは依然として困難な作業です。要約を成功させるために、より文脈的な語彙生成モデルと要約モデルをトレーニングするための新しい強化学習 (RL) 手法という 2 つの独立した重要な改善を導入しました。

これら 2 つのトレーニング方法を組み合わせることで、システム全体でニュース記事などの長いテキストを関連性が高く読みやすい複数文の要約にまとめることができるようになり、実際の結果は以前のソリューションよりもはるかに優れています。当社のアルゴリズムは、さまざまな種類のテキストと抜粋の長さに合わせてトレーニングできます。本日のブログ投稿では、このモデルの主な進歩を紹介し、自然言語でのテキスト要約に関連する課題について説明します。

[[192509]]

図 1 (元のテキストをクリックすると GIF 画像が表示されます) : 私たちのモデルがニュース記事から複数の文の要約を生成する方法を示しています。生成された単語ごとに、モデルは特定の単語入力と以前に与えられた出力オプションを考慮します。

抽出と抽象化

自動集約モデルの具体的な実装では、抽出または抽象化という 2 つのアプローチのいずれかを採用できます。抽出モデルは「コピーアンドペースト」操作を実行し、入力ドキュメントから関連するフレーズを選択して連結し、要約を作成します。既存の自然言語表現をドキュメント内から直接使用するため、非常に強力になりますが、その一方で、抽出モデルは新しい語彙や接続表現を使用できないため、柔軟性に欠ける傾向があります。また、その表現効果は人間の習慣とは異なる場合もあります。一方、抽象化モデルは、特に「抽象的な」コンテンツに基づいて要約を生成します。元の入力ドキュメント内の既存の語彙は使用できません。つまり、このようなモデルはより流暢で連続的なコンテンツを生成できますが、連続したフレーズや連結した表現を生成できることを保証する必要があるため、実現がより困難になります。

抽象モデルは理論的には強力ですが、実際には間違いを犯すことがよくあります。よくある間違いとしては、生成された要約で不連続なフレーズ、無関係なフレーズ、または繰り返しのフレーズを使用することが挙げられますが、これは長いテキスト出力を作成しようとするとより顕著になります。さらに、多くの場合、コンテキスト間の一貫性、簡潔性、読みやすさが欠けています。これらの問題を解決するには、明らかに、より強力で一貫性のある抽象要約モデルを設計する必要があります。

新しい抽象モデルを理解するには、まずその基本的な構成要素を定義し、次に新しいトレーニングアプローチを説明する必要があります。

エンコーダー-デコーダーモデルを使用してテキストを読み取り、生成する

リカレントニューラルネットワーク (RNN) は、可変長のシーケンス (テキストシーケンスなど) を処理し、その中で利用可能な表現 (または隠れ状態) を部分的に計算できるディープラーニングモデルの一種です。このようなネットワークは、シーケンスの各要素 (この場合は各単語) を 1 つずつ処理します。シーケンス内の新しい入力ごとに、ネットワークはその入力と以前の隠し状態の関数として新しい隠し状態を生成します。このようにして、各単語に対して計算された隠し状態は、すべての単語から読み取ることができる関数になります。

図 2: リカレントニューラルネットワークは、各単語によって提供される同じ機能 (緑色のボックス) を使用して入力文を読み取ります。

リカレントニューラルネットワークも同様の方法で使用して出力シーケンスを生成することができます。各ステップで、再帰型ニューラルネットワークの隠し状態を使用して新しい単語が生成され、最終出力に追加されて次の入力に組み込まれます。

図 3: 再帰型ニューラルネットワークは、各出力ワードを次の関数への入力として再利用しながら、出力のシーケンスを生成できます。

リカレントニューラルネットワークは、ジョイントモデルを使用して入力 (読み取り) コンテンツと出力 (生成) コンテンツを組み合わせます。入力リカレントニューラルネットワークの最終的な隠し状態は、出力リカレントニューラルネットワークの初期隠し状態として使用されます。この組み合わせにより、ジョイントモデルは任意のテキストを読み取り、それに基づいてさまざまなテキスト情報を生成できるようになります。このフレームワークは、エンコーダー/デコーダー再帰型ニューラルネットワーク (略して Seq2Seq とも呼ばれます) と呼ばれ、この要約モデルの実装の基礎として機能します。さらに、従来のエンコーダーリカレントニューラルネットワークを双方向エンコーダーに置き換えます。双方向エンコーダーは、2 つの異なるリカレントニューラルネットワークを使用して入力シーケンスを読み取ります。1 つはテキストを左から右に読み取り (図 4 を参照)、もう 1 つは右から左に読み取ります。これにより、モデルが入力をより適切にコンテキスト化できるようになります。

図 4: エンコーダー/デコーダー再帰型ニューラルネットワークモデルは、自然言語のシーケンス間処理タスク (コンテンツの要約など) を解決するために使用できます。

新しい注意とデコードメカニズム

モデル出力の一貫性を高めるために、デコーダーが新しい単語を生成するときに出力ドキュメントの内容を確認できるようにする「テンポラルアテンション」と呼ばれる手法を使用します。デコーダーは、独自の隠し状態に完全に依存するのではなく、アテンション関数を使用して入力テキストのさまざまな部分を文脈化することができます。このアテンション関数は、モデルが出力テキストを生成するときにさまざまな入力コンテンツを参照として使用できるように調整され、要約結果の情報範囲が向上します。

さらに、モデルが繰り返されないようにするために、デコーダー内の以前の隠し状態を遡って確認できるようにします。ここでは、デコーダー RNN の以前の隠し状態を振り返るためのデコーダー内アテンション関数を定義します。最後に、デコーダーは、時間的アテンション技術からのコンテキストベクトルとデコーダー内のアテンション関数からのコンテキストベクトルを組み合わせて、出力の次の単語を生成します。図 5 は、特定のデコード手順でこれら 2 つの注意機能がどのように組み合わされるかを示しています。

図 5: エンコーダの隠れ状態とデコーダの隠れ状態から計算された 2 つのコンテキストベクトル (ラベル「C」)。これら 2 つのコンテキストベクトルは、現在のデコーダーの隠し状態 (ラベル 'H') と結合され、新しい単語 (右側) が生成され、出力シーケンスに追加されます。

このモデルをトレーニングするにはどうすればいいですか?教師あり学習と強化学習

ニュース記事などの実際のデータでこのモデルをトレーニングする最も一般的なアプローチは、教師強制アルゴリズムを使用することです。モデルは参照サマリーを使用して新しいサマリーを生成し、新しい単語を生成するたびに単語ごとのエラー警告（または図 6 に示すように「ローカル監視」）を提供します。

図 6: 教師あり学習メカニズムによるモデルトレーニングプロセス。生成された各単語には、同じ位置にある実際の要約語彙と単語を比較することによって計算されたトレーニング監視信号が与えられます。

このアプローチは、リカレントニューラルネットワークに基づく任意のシーケンス生成モデルのトレーニングに使用でき、実際の結果は非常に満足のいくものです。ただし、今回議論している特定のタスクでは、要約内容が正しいかどうかを判断するために、必ずしも参照シーケンスと単語ごとに一致させる必要はありません。 2 人の編集者が、異なる言語スタイル、言い回し、さらには文の順序を使用して、同じニュース記事のまったく異なる要約を書くことは考えられますが、どちらの編集者も要約タスクをうまく達成できます。教師が強制するアプローチの問題は、数語を学んだ後、トレーニングプロセスが誤った方向に進んでしまうことです。つまり、正式な要約スタイルに厳密に従うことが求められますが、同様に正確ではあるがスタイルが異なる開始表現に適応することができません。

これを念頭に置いて、教師による強制以外のより良い解決策を見つける必要があります。ここでは、強化学習 (略して RL) と呼ばれるまったく異なるタイプのトレーニングを選択しました。まず、強化学習アルゴリズムはモデルに独自に要約を生成することを要求し、次に外部スコアラーを使用して生成された要約と正しい参照テキストの違いを比較します。このスコアは、モデルが生成する要約の良し悪しを伝えます。スコアが高い場合、モデルは自動的に更新され、このサマリー内の治療が将来の治療でより高い確率で表示されるようになります。逆に、スコアが低い場合、モデルは生成プロセスを調整して、同様の要約が出力され続けるのを防ぎます。この強化学習モデルは、各単語を分析して要約の品質を判断するのではなく、シーケンス全体の評価を大幅に向上させることができます。

図 7: 強化学習トレーニングスキームでは、モデル自体は各単語に基づいてローカルな監督を受けず、全体的な出力結果と参照回答との比較に基づいてガイダンスを提供します。

抄録の品質をどのように評価しますか?

では、先ほど述べたスコアラーとは一体何なのでしょうか。また、スコアラーはどのようにして要約コンテンツの実際の品質を判断するのでしょうか。何百万もの要約を人間に手動で評価させることはほとんど非現実的であるため、ROUGE (Retrospective Oriented Learning to Evaluate) と呼ばれる手法が必要になります。 ROUGE は、生成された要約内のサブフレーズを参照回答内のサブフレーズと比較して評価しますが、2 つがまったく同じである必要はありません。 ROUGE のさまざまなバリエーション (ROUGE-1、ROUGE-2、ROUGE-L を含む) はすべて同じ動作原理を使用しますが、使用される特定のサブシーケンスの長さは異なります。

ROUGE によって与えられたスコアは人間の主観的な判断にほぼ近いですが、ROUGE によって与えられた最高スコアの要約結果は、必ずしも最も読みやすく、スムーズであるとは限りません。モデルをトレーニングする際に、強化学習トレーニングのみを使用すると、ROUGE最大化が厳しい要件となり、間違いなく新たな問題が生じます。実際、ROUGEスコアが最も高い要約を見てみると、ほとんどまったく読めないものもいくつかありました。

両方の長所を活用するために、私たちのモデルは教師強制と強化学習の両方を使用してトレーニングされ、単語レベルの監督と包括的なガイダンスを通じて要約コンテンツの一貫性と読みやすさを最大化することを期待しています。具体的には、ROUGE に最適化された強化学習メカニズムによって強調機能（重要な情報がすべて含まれていることを保証する機能）が大幅に向上する一方で、単語レベルの教師あり学習によって言語の流暢性が向上し、最終的に出力コンテンツがより連続的で読みやすくなることがわかりました。

図 8: 教師あり学習 (赤い矢印) と強化学習 (紫の矢印) を組み合わせることで、モデルがローカルフィードバックとグローバルフィードバックの両方を使用して、読みやすさと全体的な ROUGE スコアを最適化する様子がわかります。

最近まで、CNN/Daily Mail データセットにおける抽象要約の最高の ROUGE-1 スコアは 35.46 でした。教師あり学習と強化学習を組み合わせたトレーニングスキームを採用した、デコーダー内注意再帰型ニューラルネットワークモデルでは、このスコアが 39.87 に向上しました。一方、純粋な強化学習トレーニング後のスコアは 41.16 にまで上昇しました。図 9 は、他の既存モデルと私たちのモデルの要約コンテンツスコアを示しています。純粋な RL モデルの方が ROUGE スコアは高いのですが、コンテンツの関連性が高いため、要約コンテンツの読みやすさの点では教師あり RL モデルの方が優れています。なお、See らは異なるデータ形式を使用しているため、その結果を私たちのモデルや他のモデルのスコアと直接比較することはできません。ここでは参考としてのみ使用されています。

モデル	ルージュ1	ルージュL
Nallapati et al. 2016 (抄録)	35.46	32.65
Nallapati et al. 2017 (抽出ベンチマーク)	39.2	35.5
Nallapati et al. 2017 (抜粋)	39.6	35.3
参照：et al. 2017（抄録）	39.53*	36.38*
当社のモデル（RLのみ）	41.16	39.08
私たちのモデル（教師あり学習＋強化学習）	39.87	36.90

図 9: CNN/Daily Mail データセットのコンテンツ要約結果。当社のモデルと他のいくつかの既存の抽出および抽象化スキームが含まれています。

出力例

では、この大きな改善は実際の要約にどのように現れるのでしょうか?ここでは、データセットを分割して、複数の文の要約をいくつか生成します。 CNN/Daily Mail データセットでトレーニングした後、当社のモデルとそのより単純なベースラインで次の結果が得られました。ご覧のとおり、要約内容は大幅に改善されましたが、まだ完璧には程遠い状態です。

記事	まとめ（参考回答）	要約（私たちのモデル）
Google Wallet は、ユーザーの資金を保管する際のポリシーを変更し、今後は連邦レベルで保険が適用されるようになると述べている (ファイル写真) Google Wallet の利用者にとって、連邦レベルの保険により資金がより安全になった。Google は Yahoo Finance への声明で、現在のポリシーが変更されたことを確認した。つまり、同社はモバイル送金サービス (PayPal や Venmo に類似) のユーザーの残高を複数の連邦保険付き金融機関に保管することになる。これは、ウォレット残高に多額の資金を預けている人にとっては朗報である。連邦預金保険公社は金融機関の資金を最大 25 万ドルまで保証しているからである。現在、Google のユーザー契約では、資金は FDIC によって保護されないとされている。しかし、Google の広報担当者は Yahoo Finance に対し、現在のポリシーが変更されたと語った。(...)	Google の広報担当者は、現在のポリシーが変更され、資金が連邦預金保険公社によって保護されるようになったことを確認した。非銀行機関である Google Wallet は、競合の PayPal や Venmo と同様に、連邦保険に加入する法的義務はない。ポリシーの新たな変更により、同社に破産などの事態が発生した場合でも、ウォレット残高の資金は保護される。	Google は Yahoo Finance への声明で、現在のポリシーが変更されたことを認めた。同社はモバイル送金サービス (PayPal や Venmo に類似) のユーザーの残高を、複数の連邦保険付き金融機関に保管する。Google のユーザー契約では、資金は連邦預金保険公社によって保護されないとされている。
連鎖反応とはまさにこのことです。これは、ビリヤードプレイヤーが複雑なトリックショットを披露し、ドミノトレインを組み立てて 4 つのボールをポットに入れる瞬間です。ビデオ映像では、白いボールがキューの上で転がり落ちていく様子が映っています。次に、赤い布をかけたテーブルの片側で跳ね返り、長い列のドミノの最初のボールに当たります。小さなカウンターが 1 つずつ倒れ、ボールをさまざまなポケットに落としていきます。最初は黄色、次は青、そして赤です。最後に、最後のドミノがオレンジ色のボールに優しく当たり、そのボールがテーブルに置かれた別のキューの上で転がり落ちます。次に、球体が緑のボールを中央のポケットに落とします。30 秒も経たないうちに、このスタントは終了します。 (...)	この動画は、YouTube ユーザーの honda4ridered がアップロードしたものです。別の動画では、熟練のビリヤードプレイヤーが、一発で 4 つのボールをポケットに入れる方法を視聴者に示しています。見逃した人のために、スローモーションバージョンもあります。	ビデオ映像には、白いボールがジャンパーを転がっていく様子が映っている。ボールは赤い布をかけたテーブルの片側で跳ね返り、長いドミノの列の最初のものに当たる。小さなカウンターが一つずつ倒れ、ポケットにボールを落としながら、最初は黄色。これで終了。このクリップは、YouTube ユーザー honda4ridered によってアップロードされた。
ケリー・オズボーンは、有名な母親のようになることを常に望んでいたわけではないが、新刊『母への手紙』に掲載された手紙の中で、テレビタレントの彼女は、シャロン・オズボーンの娘であることを誇りに思っていると認めた。著者リサ・アースパマーの3番目のトリビュート集では、メリッサ・リヴァース、シャナイア・トゥエイン、ウィル・アイ・アム、クリスティ・ターリントン・バーンズ、クリスティン・チェノウェスなどの有名人が、自分たちを育ててくれた女性たちへの愛と感謝のメッセージを書いた。そして、先週出版された心温まる書簡集は、5月10日の母の日にちょうど間に合うように届いた。「10代の少女たちと同じように、私は成長してあなたと同じようになってしまうというばかげた恐怖を抱いていました」と、ケリー・オズボーンはYahoo Parentingに再掲載された手紙の中で書いている。「私はとても無知で、自分の「独自の」アイデンティティを作ることに固執していました」。動画は下にスクロールしてください。ミニミー：リサ・アースパマーの新刊『母への手紙』の中で、ケリーは、オズボーンさん（右）は母親のシャロンさん（左）に手紙を書き、彼女と同じように成長できて嬉しいと書いた（...）	作家のリサ・エルスパマーは、彼女の新著『母への手紙』のために、有名人やその他多くの人々に母親への心のこもった手紙を書くよう呼びかけました。メリッサ・リヴァース、ウィル・アイ・アム、クリスティ・ターリントンなどのスターがこの感動的なプロジェクトに参加しました。	ケリーは、有名な母親のようになることを常に望んでいたわけではない。リサ・アースパマーの 3 番目のトリビュート集では、メリッサ・リバーズ、シャナイア・トゥエイン、ウィル・アイ・アム、クリスティ・ターリントン、クリスティン・チェノウェスなどの著名人が、自分たちを育ててくれた女性たちへの愛と感謝のメッセージを綴っている。ケリーは、昨年ジョアンが亡くなる前に母親に手紙を書いた。彼女は 5 月 10 日の母の日にちょうど間に合うように到着した。

図 10: 以下は、モデルによって生成された要約と、同じ記事に対して人間が書いた要約を比較した例です。

テキストコンテンツの要約に関する当社のソリューションの大幅な改善を示すために、図 11 に、フォーカスと強化学習トレーニングを削除した後の生成結果を示します。

記事

トニー・ブレアは、彼が91歳になるまで引退したくないと言っています。彼は、彼が世界中の「彼がまだ「彼の乱れ」を求めていることを言った場合、彼は「数十年」に「数十年」を尋ねるように、彼が世界中の「数十年」に冗談を言っていると言った。大統領と首相に、雑誌のニューズウィークとのインタビューで、91歳になるまで退職したくないと述べました。彼らは「グローバルを変えることができます昨夜、保守党議員らはブレア氏が今後30年間も公職にとどまる可能性に恐怖を表明した。アンドリュー・ブリッデン氏は「弱腰のエド・ミリバンド氏がトニー氏に、低迷する選挙運動を盛り上げるよう要請したことは周知の事実だが、注目が頭にきているのは明らかだ」と述べた。(...)

要約（人間が書いた参考回答）

元首相は、自分にはまだ「何十年も」仕事ができると主張した。国際的な役職から退いたら「酒に頼る」と冗談を言った。現職のリーダーに助言するために元政府首脳を採用したいと考えている。1997年に就任した際、彼は米国大統領ビル・クリントンの「指導」を受けた。

要約（私たちのモデル）

ブレア氏は、91歳になるまで引退したくないと語った。61歳の元首相は、もし自分の職を退くことがあれば「酒に頼る」と語った。大統領や首相に国家運営の仕方について助言する慈善団体を設立したいと語った。ブレア氏は、元政府首脳を募集して世界中を回って大臣たちに助言させるつもりだと語る。元イスラエル大統領シモン・ペレスに倣いたいと語る。

要約（インフォーカスと強化学習トレーニングを除く）

61歳の元首相は、91歳になるまで引退したくないと語った。彼は、信仰財団などの組織を強化したいと語った。彼は、元イスラエル大統領シモン・ペレスを見習いたいと語った。ブレア氏は、元イスラエル大統領シモン・ペレスを見習いたいと語った。彼は、1997年に就任したときに誰かと会っていたいと語った。ブレア氏は、1997年に就任したときに誰かと会っていたいと語った。ブレア氏は、

図 11: 私たちのモデルによって生成された要約の例と、精製メカニズムを削除した後に生成された要約の例の比較。元の文書に現れない新しい単語は緑色でマークされます。概要に現れる繰り返しのフレーズは赤でマークされています。

要約する

私たちのモデルは、複数文の要約に関する最先端の技術を大幅に改善し、既存の抽象的および抽出的なベースラインを上回ります。デコーダー内アテンションモジュールと複合トレーニング目標の貢献により、特に長いテキスト出力のコンテキストにおいて、他のシーケンス生成タスクも改善できると考えています。

私たちの研究は、ROUGEなどの自動評価メトリクスの限界にも取り組んでいます。結果によると、理想的なメトリクスは確かにコンテンツ要約モデルをより適切に評価し、最適化することができます。理想的な指標は、要約内容の一貫性や読みやすさなど、基本的に人間と同じ判断基準を持つ必要があります。このようなメトリックを使用して要約モデルを改善すると、その結果の品質がさらに向上するはずです。