RNNに注目メカニズムを導入し、5つの主要分野におけるシーケンス予測問題を解決する

[[198915]]

エンコーダー/デコーダーアーキテクチャは、多くの分野で最先端のパフォーマンスを発揮するため人気があります。このアーキテクチャの制限は、入力シーケンスを固定長の内部表現にエンコードすることです。これにより、入力シーケンスの長さが制限され、非常に長い入力シーケンスに対してモデルのパフォーマンスが低下します。

このブログ記事では、リカレントニューラルネットワークの注意メカニズムを使用することでこの制限を克服できることがわかります。

このブログを読むと、次のことがわかります。

エンコーダ・デコーダアーキテクチャと固定長内部表現の制限
ネットワークに、出力シーケンスの各項目に対応する入力シーケンスの位置に注意を払うように学習させる
テキスト翻訳、音声認識など 5 つの分野における注意機構付きリカレントニューラルネットワークの応用。

長いシーケンスの問題

エンコーダー/デコーダー再帰型ニューラルネットワークでは、一連の長短期記憶ネットワーク (LSTM) が入力シーケンスを固定長の内部表現にエンコードすることを学習し、LSTM ネットワークの別の部分が内部表現を読み取って出力シーケンスにデコードします。このアーキテクチャは、テキスト翻訳などの困難なシーケンス予測問題に対して最先端のパフォーマンスを実証し、急速に主流のアプローチになりました。たとえば、次の 2 つの論文を考えてみましょう。

ニューラルネットワークによるシーケンスからシーケンスへの学習 (2014)
統計的機械翻訳のための RNN エンコーダー/デコーダーを使用したフレーズ表現の学習 (2014)

エンコーダー/デコーダー構造は、多くの問題で依然として優れた結果を達成できます。ただし、すべての入力シーケンスを固定長の内部ベクトルにエンコードする必要があるという制限があります。この制限により、特にテキスト翻訳の長い文など、比較的長い入力シーケンスを考慮する場合に、これらのネットワークのパフォーマンスが制限されます。

「このエンコーダー/デコーダーアプローチの潜在的な問題の 1 つは、ニューラルネットワークがソース文の必要な情報をすべて固定長のベクトルに圧縮する必要があることです。これにより、ニューラルネットワークが長い文、特にトレーニングコーパスよりも長い文を処理することが難しくなります。」

—— Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳」、2015 年

シーケンスにおける注意メカニズム

アテンションメカニズムは、エンコーダーとデコーダーの構造を固定長の内部表現から解放する方法です。これは、入力シーケンスの各ステップの LSTM エンコーダーの中間出力を保持し、入力に選択的に注意を向けて出力シーケンス内の項目に関連付ける方法をモデルに学習させるようにトレーニングすることによって行われます。つまり、出力シーケンス内の各項目は、入力シーケンスで選択された項目に依存します。

「論文で提案されたモデルは、翻訳中に生成された各単語について、ソース文内の一連の位置から最も関連性の高い情報を検索します。次に、コンテキストベクトルとソーステキスト内の位置、および以前に生成されたターゲットワードに基づいて、次のターゲットワードを予測します。」「…このモデルは、入力文を一連のベクトルにエンコードし、翻訳をデコードするときにこれらのベクトルのサブセットを適応的に選択します。これにより、ニューラル翻訳モデルは、さまざまな長さのソース文のすべての情報を固定長のベクトルに圧縮する必要がなくなります。」

——Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳 (https://arxiv.org/abs/1409.0473)」、2015 年

これを行うとモデルの計算負荷は増加しますが、よりターゲットを絞った、パフォーマンスの優れたモデルが得られます。さらに、このモデルは、出力シーケンスを予測するときに入力シーケンスに焦点を合わせる方法を示すことができます。これにより、モデルが具体的に何に注目しているのか、また特定の入力と出力のペアにどの程度注目しているのかを理解し、分析できるようになります。

「提案された方法により、生成されたシーケンス内の各単語と入力シーケンス内の一部の単語との（ソフト）アラインメントを視覚的に観察できます。これは、注釈の重みを視覚化することで実現できます。各図のマトリックスの各行は、注釈に関連付けられた重みを表します。これにより、ターゲット単語を生成するときにソース文のどの位置が強調されるかを確認できます。」

——Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳 (https://arxiv.org/abs/1409.0473)」、2015 年

大きな画像の使用に関する問題

コンピュータービジョンの問題で使用される畳み込みニューラルネットワークも同様の問題に直面しています。特に大きな画像でモデルをトレーニングするのは困難です。その結果、予測を行う前に、画像を何度も観察して大まかな印象を得ることになります。

「人間の知覚の重要な特徴は、シーン全体を一度に処理するのではなく、必要な情報を得るために視覚空間の特定の部分に選択的に注意を集中し、異なる時点でのローカル情報を組み合わせてシーン全体の内部表現を構築し、それによってその後の目の動きと決定を導く傾向があることです。」

——視覚的注意の再帰モデル (https://arxiv.org/abs/1406.6247)、2014

これらの一瞥に基づく修正も注意メカニズムと見なすことができますが、この記事で説明する注意メカニズムではありません。

シーケンス予測における注意メカニズムの使用例 5 つ

このセクションでは、シーケンス予測のために注意メカニズムとリカレントニューラルネットワークを組み合わせる具体的な例をいくつか示します。

1. テキスト翻訳における注意メカニズム

テキスト翻訳の例についてはすでに説明しました。フランス語の文章の入力シーケンスが与えられたら、それを翻訳して英語の文章を出力します。注意メカニズムは、出力シーケンス内の各単語に対応する入力シーケンス内の特定の単語を観察するために使用されます。

「私たちは、各ターゲット単語を生成する際に、モデルが入力単語やエンコーダーによって計算された単語注釈を検索できるようにすることで、基本的なエンコーダー-デコーダーアーキテクチャを拡張しました。これにより、モデルはソースセンテンス全体を固定長のベクトルにエンコードする必要がなくなり、次のターゲット単語に関連する情報のみに集中できるようになります。」

——Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳」（https://arxiv.org/abs/1409.0473、2015 年）

図のキャプション: 列は入力シーケンス、行は出力シーケンス、強調表示されたブロックは 2 つのシーケンス間の関連性を表します。色が明るいほど、関連性が強くなります。

論文からの画像: Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳」、2015 年

2. 画像記述における注意メカニズム

垣間見る方法とは異なり、シーケンスベースの注意メカニズムは、コンピュータービジョンの問題に適用でき、一般的な画像記述タスクなどでシーケンスを出力するときに入力画像に注意を払うために畳み込みニューラルネットワークをより有効に活用する方法を見つけるのに役立ちます。入力画像が与えられた場合、その画像の英語の説明を出力します。注意メカニズムは、出力シーケンス内の各単語に関連付けられたローカルイメージに焦点を当てるために使用されます。

「私たちは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する注意ベースのアプローチを提案します…また、学習した注意メカニズムを使用してモデル生成プロセスの解釈可能性を高める方法を示し、学習したアラインメントが人間の直感と非常に一致していることを証明します。」

—— 見せる、注目する、伝える：視覚的注意によるニューラル画像キャプション生成、2016

図のキャプション: 上の図と同様に、出力テキストの下線付きの単語は、右の写真の照明された領域に対応しています。

論文からの画像: 見せる、注目する、伝える: 視覚的注意によるニューラル画像キャプション生成、2016

3. 意味的含意における注意メカニズム

前提シナリオと英語のシナリオに関する仮説が与えられた場合、出力は前提と仮説が互いに矛盾するかどうか、両者が相互に関連しているかどうか、あるいは前提が仮説を暗示しているかどうかになります。

例えば：

前提条件: 「結婚式の写真」
仮定：「誰かが結婚する」

注意メカニズムは、仮説内の各単語を前提内の単語に関連付けるために使用され、その逆も同様です。

各文を独立して意味ベクトルにエンコードするのではなく、2 つの文を 1 つとして読み取って意味的含意を分析できる LSTM ベースのニューラルモデルを提案します。次に、単語とフレーズのペアに含意関係があるかどうかの推論を促すために、ニューラル単語ごとの注意メカニズムを使用してモデルを拡張します…拡張モデルは、LSTM のベンチマークで 2.6% の改善を達成し、新しい精度記録を樹立しました…

——ニューラルアテンションによる含意の推論 (https://arxiv.org/abs/1509.06664)、2016

論文からの画像: ニューラルアテンションによる含意の推論、2016

4. 音声認識における注意メカニズム

英語の音声セグメントを入力として、音素のシーケンスを出力します。注意メカニズムは、出力シーケンス内の各音素を入力シーケンス内の特定の音声フレームに関連付けるために使用されます。

「…コンテンツと位置情報の両方を組み合わせてデコード中に入力シーケンスの次の位置を選択するハイブリッド注意メカニズムに基づく、エンドツーエンドでトレーニング可能な新しい音声認識アーキテクチャを提案します。このモデルは、トレーニングに使用したコーパスよりも長い音声を認識できるという点で有望です。」

——音声認識のための注意ベースモデル (https://arxiv.org/abs/1506.07503)、2015年。

論文からの画像: 音声認識のための注意ベースモデル、2015 年。

5. テキスト要約における注意メカニズム

英語の記事を入力シーケンスとして与え、入力シーケンスを要約した英語のテキストを出力します。注意メカニズムは、要約テキスト内の各単語をソーステキスト内の対応する単語に関連付けるために使用されます。

「…ニューラル機械翻訳の最近の進歩に基づいて、中立的な注意メカニズムに基づく抽象要約モデルを提案します。この確率モデルを、正確な抽象要約を生成する生成アルゴリズムと組み合わせます。」

——抽象文要約のためのニューラルアテンションモデル (https://arxiv.org/abs/1509.00685)、2015

論文からの画像: 抽象的な文の要約のためのニューラル注意モデル、2015 年。

さらに読む

LSTM に注意メカニズムを追加することに興味がある場合は、以下をお読みください。

ディープラーニングとNLPにおける注意と記憶
注意メカニズム
NLP に適用される注意ベースモデルに関する調査 (http://yanran.li/peppypapers/2015/10/07/survey-attention-model-1.html)
[Quora Q&A] RNN への注意メカニズムの導入とは具体的に何でしょうか? （RNN に導入された注意メカニズムとは正確には何ですか? https://www.quora.com/What-is-exactly-the-attention-mechanism-introduced-to-RNN-recurrent-neural-network-It-would-be-nice-if-you-could-make-it-easy-to-understand）
ニューラルネットワークにおける注意メカニズムとは何ですか?ニューラルネットワークにおける注意メカニズムとは何ですか?

要約する

このブログ記事では、シーケンス予測のための LSTM リカレントニューラルネットワークにおける注意メカニズムの使用について説明します。

具体的には：

リカレントニューラルネットワークのエンコーダー/デコーダー構造では固定長の内部表現が使用されるため、非常に長いシーケンスの学習には制限が課せられます。
アテンションメカニズムは、ネットワークが出力シーケンス内の各項目を入力シーケンス内の対応する項目に対応させることを学習できるようにすることで、エンコーダー/デコーダーアーキテクチャのこの制限を克服します。
この方法は、テキスト翻訳、音声認識など、さまざまなシーケンス予測問題に適用されています。

<<: SMP、NUMA、MPP アーキテクチャの概要

>>: ディープラーニングを使用してXSSを検出する方法