エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを発揮するため人気があります。このアーキテクチャの制限は、入力シーケンスを固定長の内部表現にエンコードすることです。これにより、入力シーケンスの長さが制限され、非常に長い入力シーケンスに対してモデルのパフォーマンスが低下します。 このブログ記事では、リカレント ニューラル ネットワークの注意メカニズムを使用することでこの制限を克服できることがわかります。 このブログを読むと、次のことがわかります。
長いシーケンスの問題エンコーダー/デコーダー再帰型ニューラル ネットワークでは、一連の長短期記憶ネットワーク (LSTM) が入力シーケンスを固定長の内部表現にエンコードすることを学習し、LSTM ネットワークの別の部分が内部表現を読み取って出力シーケンスにデコードします。このアーキテクチャは、テキスト翻訳などの困難なシーケンス予測問題に対して最先端のパフォーマンスを実証し、急速に主流のアプローチになりました。たとえば、次の 2 つの論文を考えてみましょう。
エンコーダー/デコーダー構造は、多くの問題で依然として優れた結果を達成できます。ただし、すべての入力シーケンスを固定長の内部ベクトルにエンコードする必要があるという制限があります。この制限により、特にテキスト翻訳の長い文など、比較的長い入力シーケンスを考慮する場合に、これらのネットワークのパフォーマンスが制限されます。 「このエンコーダー/デコーダー アプローチの潜在的な問題の 1 つは、ニューラル ネットワークがソース文の必要な情報をすべて固定長のベクトルに圧縮する必要があることです。これにより、ニューラル ネットワークが長い文、特にトレーニング コーパスよりも長い文を処理することが難しくなります。」
シーケンスにおける注意メカニズムアテンション メカニズムは、エンコーダーとデコーダーの構造を固定長の内部表現から解放する方法です。これは、入力シーケンスの各ステップの LSTM エンコーダーの中間出力を保持し、入力に選択的に注意を向けて出力シーケンス内の項目に関連付ける方法をモデルに学習させるようにトレーニングすることによって行われます。つまり、出力シーケンス内の各項目は、入力シーケンスで選択された項目に依存します。 「論文で提案されたモデルは、翻訳中に生成された各単語について、ソース文内の一連の位置から最も関連性の高い情報を検索します。次に、コンテキスト ベクトルとソース テキスト内の位置、および以前に生成されたターゲット ワードに基づいて、次のターゲット ワードを予測します。」 「…このモデルは、入力文を一連のベクトルにエンコードし、翻訳をデコードするときにこれらのベクトルのサブセットを適応的に選択します。これにより、ニューラル翻訳モデルは、さまざまな長さのソース文のすべての情報を固定長のベクトルに圧縮する必要がなくなります。」
これを行うとモデルの計算負荷は増加しますが、よりターゲットを絞った、パフォーマンスの優れたモデルが得られます。さらに、このモデルは、出力シーケンスを予測するときに入力シーケンスに焦点を合わせる方法を示すことができます。これにより、モデルが具体的に何に注目しているのか、また特定の入力と出力のペアにどの程度注目しているのかを理解し、分析できるようになります。 「提案された方法により、生成されたシーケンス内の各単語と入力シーケンス内の一部の単語との(ソフト)アラインメントを視覚的に観察できます。これは、注釈の重みを視覚化することで実現できます。各図のマトリックスの各行は、注釈に関連付けられた重みを表します。これにより、ターゲット単語を生成するときにソース文のどの位置が強調されるかを確認できます。」
大きな画像の使用に関する問題コンピュータービジョンの問題で使用される畳み込みニューラル ネットワークも同様の問題に直面しています。特に大きな画像でモデルをトレーニングするのは困難です。その結果、予測を行う前に、画像を何度も観察して大まかな印象を得ることになります。 「人間の知覚の重要な特徴は、シーン全体を一度に処理するのではなく、必要な情報を得るために視覚空間の特定の部分に選択的に注意を集中し、異なる時点でのローカル情報を組み合わせてシーン全体の内部表現を構築し、それによってその後の目の動きと決定を導く傾向があることです。」
これらの一瞥に基づく修正も注意メカニズムと見なすことができますが、この記事で説明する注意メカニズムではありません。 関連論文:
シーケンス予測における注意メカニズムの使用例 5 つこのセクションでは、シーケンス予測のために注意メカニズムとリカレント ニューラル ネットワークを組み合わせる具体的な例をいくつか示します。 1. テキスト翻訳における注意メカニズムテキスト翻訳の例についてはすでに説明しました。フランス語の文章の入力シーケンスが与えられたら、それを翻訳して英語の文章を出力します。注意メカニズムは、出力シーケンス内の各単語に対応する入力シーケンス内の特定の単語を観察するために使用されます。 「私たちは、各ターゲット単語を生成する際に、モデルが入力単語やエンコーダーによって計算された単語注釈を検索できるようにすることで、基本的なエンコーダー-デコーダー アーキテクチャを拡張しました。これにより、モデルはソース センテンス全体を固定長のベクトルにエンコードする必要がなくなり、次のターゲット単語に関連する情報のみに集中できるようになります。」
図のキャプション: 列は入力シーケンス、行は出力シーケンス、強調表示されたブロックは 2 つのシーケンス間の関連性を表します。色が明るいほど、関連性が強くなります。 論文からの画像: Dzmitry Bahdanau 他「アラインメントと翻訳を共同学習するニューラル機械翻訳」、2015 年 2. 画像記述における注意メカニズム垣間見る方法とは異なり、シーケンスベースの注意メカニズムは、コンピューター ビジョンの問題に適用でき、一般的な画像記述タスクなどでシーケンスを出力するときに入力画像に注意を払うために畳み込みニューラル ネットワークをより有効に活用する方法を見つけるのに役立ちます。入力画像が与えられた場合、その画像の英語の説明を出力します。注意メカニズムは、出力シーケンス内の各単語に関連付けられたローカル イメージに焦点を当てるために使用されます。 「私たちは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する注意ベースのアプローチを提案します…また、学習した注意メカニズムを使用してモデル生成プロセスの解釈可能性を高める方法を示し、学習したアラインメントが人間の直感と非常に一致していることを証明します。」
図のキャプション: 上の図と同様に、出力テキストの下線付きの単語は、右の写真の照明された領域に対応しています。 論文からの画像: 見せる、注目する、伝える: 視覚的注意によるニューラル画像キャプション生成、2016 3. 意味的含意における注意メカニズム前提シナリオと英語のシナリオに関する仮説が与えられた場合、出力は前提と仮説が互いに矛盾するかどうか、両者が相互に関連しているかどうか、あるいは前提が仮説を暗示しているかどうかになります。 例えば:
注意メカニズムは、仮説内の各単語を前提内の単語に関連付けるために使用され、その逆も同様です。 各文を独立して意味ベクトルにエンコードするのではなく、2 つの文を 1 つとして読み取って意味的含意を分析できる LSTM ベースのニューラル モデルを提案します。次に、単語とフレーズのペアに含意関係があるかどうかの推論を促すために、ニューラル単語ごとの注意メカニズムを使用してモデルを拡張します…拡張モデルは、LSTM のベンチマークで 2.6% の改善を達成し、新しい精度記録を樹立しました…
論文からの画像: ニューラルアテンションによる含意の推論、2016 4. 音声認識における注意メカニズム英語の音声セグメントを入力として、音素のシーケンスを出力します。注意メカニズムは、出力シーケンス内の各音素を入力シーケンス内の特定の音声フレームに関連付けるために使用されます。 「…コンテンツと位置情報の両方を組み合わせてデコード中に入力シーケンスの次の位置を選択するハイブリッド注意メカニズムに基づく、エンドツーエンドでトレーニング可能な新しい音声認識アーキテクチャを提案します。このモデルは、トレーニングに使用したコーパスよりも長い音声を認識できるという点で有望です。」
論文からの画像: 音声認識のための注意ベースモデル、2015 年。 5. テキスト要約における注意メカニズム英語の記事を入力シーケンスとして与え、入力シーケンスを要約した英語のテキストを出力します。注意メカニズムは、要約テキスト内の各単語をソース テキスト内の対応する単語に関連付けるために使用されます。 「…ニューラル機械翻訳の最近の進歩に基づいて、中立的な注意メカニズムに基づく抽象要約モデルを提案します。この確率モデルを、正確な抽象要約を生成する生成アルゴリズムと組み合わせます。」
論文からの画像: 抽象的な文の要約のためのニューラル注意モデル、2015 年。 さらに読むLSTM に注意メカニズムを追加することに興味がある場合は、以下をお読みください。
要約するこのブログ記事では、シーケンス予測のための LSTM リカレント ニューラル ネットワークにおける注意メカニズムの使用について説明します。 具体的には:
|
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...
最近、マスク氏の伝記「イーロン・マスク:伝記」が国内外でベストセラーとなった。この本には、マスク氏の...
センサーデータは、産業オペレーションにおける運用の安全性と効率性を確保する上で重要な役割を果たします...
1. 拡張現実(AR)建築の世界では、拡張現実と仮想現実が岐路に立っています。 AR はコンピュータ...
背景LinkedHashMap は HashMap を継承し、内部的に removeEldestEn...
サプライ チェーン管理は経済の生命線であり、コストを最適化し、無駄を最小限に抑えながら、適切な製品を...
[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...
現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...