初心者向けガイド: 自然言語処理のためのニューラルネットワーク

この記事を読むと、次のことがわかります。

自然言語処理の分野に最も大きな影響を与えたニューラルネットワーク構造。
ディープラーニングは、自然言語処理のあらゆるレベルの学習タスクを策定できます。
高密度語彙表現と表現を学習する方法の重要性。

始めましょう。

概要

この記事は 12 のセクションに分かれており、次の構造に従って構成されています。

導入;
ニューラルネットワークアーキテクチャ。
特徴表現;
フィードフォワードニューラルネットワーク。
単語の埋め込み;
ニューラルネットワークのトレーニング。
タンデム学習とマルチタスク学習。
構造化された出力予測。
畳み込み層;
リカレントニューラルネットワーク;
特定の RNN 構造。
モデルツリー。

1. この論文について

この論文のタイトルは「自然言語処理のためのニューラルネットワークモデルの入門」です。

対応する論文は2015年にArXivに掲載されました。これは論文というよりはむしろ技術レポートやチュートリアルであり、研究者や学生を対象として、ディープラーニング手法に基づく自然言語処理 (NLP) の包括的な入門を提供します。

このチュートリアルでは、自然言語処理研究のためのいくつかのディープラーニングモデルをレビューし、自然言語研究がニューラルネットワークテクノロジの開発を加速することを期待しています。

この入門チュートリアルは、元 Google リサーチサイエンティストで NLP 研究者の Yoav Goldberg 氏によるものです。

(https://www.cs.bgu.ac.il/~yoavg/uni/) を準備しました。これは約 62 ページと 13 ページの参考文献を含む技術レポートです。

この教科書が初心者にとって理想的なのは、以下の理由からです。

読者に高度な基礎知識は必要なく、機械学習や言語処理に関する事前の知識も必要ありません。
対象範囲は広く、多くのディープラーニング手法や自然言語処理の問題が含まれます。

このチュートリアルでは、NLP 開発者や初心者がニューラルネットワークモデルの背後にある理論を理解し、それを自分の仕事に適用できるように、基本的な背景知識、用語、実用的なツール、方法論を紹介したいと考えています。このチュートリアルは、既存の価値あるテクノロジーを使用し、最も関心のある NLP の問題を解決する新しい方法を作成することに関心のある人を対象としています。

多くの場合、言語学や自然言語処理では、有用なコミュニケーションブリッジを構築するために、主要なディープラーニング手法を改造（名前変更）する必要があります。

***、この 2015 年の入門チュートリアルは、2017 年に「自然言語処理のためのニューラルネットワークメソッド (http://amzn.to/2tXn2dZ)」というタイトルの書籍として出版されました。

2. ニューラルネットワークアーキテクチャ

このセクションでは、後の章の参考として、さまざまな種類のニューラルネットワーク構造を紹介します。

完全に接続されたフィードフォワードニューラルネットワークは非線形学習者であるため、線形学習者を自由に置き換えることができます。

ここでは、ニューラルネットワーク構造の 4 つのタイプと、それぞれの適用事例と参考資料について説明します。

多層パーセプトロンなどの完全接続型フィードフォワードニューラルネットワーク。
畳み込みニューラルネットワークなどの畳み込み層とプーリング層を持つネットワーク。
長期短期記憶ネットワークなどの再帰型ニューラルネットワーク。
リカレントニューラルネットワーク。

アプリだけに興味がある場合は、上記の情報から、より多くのリソースを見つけるための直接的な手がかりが得られます。

3. 特徴表現

このセクションでは、スパース表現または密表現を使用してディープラーニングモデルをトレーニングするためのさまざまな方法に焦点を当てます。

おそらく、スパース入力線形モデルからニューラルネットワークモデルへの最も大きな飛躍は、各特徴を次元として表現すること (いわゆるワンホット表現) を放棄し、密なベクトル表現を使用することです。

NLP 分類システムの一般的な構造は、次のように要約できます。

コア言語機能のセットを抽出します。
各ベクトルについて、関連付けられているベクトルを取得します。
結合された固有ベクトル。
結合されたベクトルは非線形分類器にフィードバックされます。

この構造の鍵となるのは、スパース特徴ベクトルの代わりに密な特徴ベクトルを使用し、特徴の組み合わせの代わりにコア特徴を使用することです。

特徴抽出段階では、ニューラルネットワークはコア特徴のみを抽出することに注意してください。これは、コア機能とそれらの間の相互作用を明示的に指定するために機能設計を手動で設定する必要がある従来の線形モデルベースの NLP とは異なります。

4. フィードフォワードニューラルネットワーク

このセクションでは、フィードフォワード人工ニューラルネットワークの短期集中講座を提供します。

「自然言語処理のためのニューラルネットワークモデル入門」の 2 つの隠し層を持つフィードフォワードニューラルネットワークを例に挙げます。これらのニューラルネットワークは、数学的な概念と脳にヒントを得た形式を使用して表現されます。ニューラルネットワークの一般的な研究テーマは次のとおりです。

表現能力（例：一般的な近似）

一般的な非線形機能（例：変換関数）
出力の変換（例：softmax）
単語埋め込み（例：埋め込み学習のための密な表現）
損失関数 (例: ReLU および log 損失)。

5. 単語の埋め込み

単語埋め込み表現は、自然言語処理におけるニューラルネットワーク手法にとって重要なトピックです。このセクションでは、このトピックを詳しく説明し、いくつかの重要なアプローチの例を示します。 NLP におけるニューラルネットワークの人気が高い重要な理由の 1 つは、各特徴を低次元空間内のベクトルとして表現する埋め込み手法の使用です。埋め込みに関する以下のトピックを確認します。

ランダム初期化（例えば、均一なランダムベクトルから開始する）
教師ありタスク固有の事前トレーニング（例：転移学習）
教師なし事前トレーニング（例：word2vecやGloVeなどの統計的手法）
トレーニングの目的（例：目的が出力ベクトルに与える影響）
文脈的選択（例：各単語が周囲の単語からどのような影響を受けるか）。

ニューラル単語埋め込み法は言語モデリング法、つまり、前の単語のシーケンスから次の単語を予測するようにネットワークをトレーニングする手法から派生したものです。

6. ニューラルネットワークのトレーニング

これは、ニューラルネットワークのトレーニング方法に焦点を当てた長いセクションであり、ニューラルネットワークのパラダイムに精通していない読者を対象としています。ニューラルネットワークのトレーニングは、勾配法を使用してトレーニングデータセットの損失関数を最小化しようとするプロセスです。

このセクションでは、確率的勾配降下法 (および同様のミニバッチアプローチ) とトレーニング中の正規化手法に焦点を当てます。

興味深いことに、ニューラルネットワークの計算グラフビューは、Theano や TensorFlow などのディープラーニングモデルを実装するいくつかのシンボリック数値ライブラリにとって優れたエントリポイントを提供します。

グラフが構築されると、順方向計算（出力の計算）や方向計算（勾配の計算）が簡単に理解できるようになります。

7. カスケード学習とマルチタスク学習

このセクションでは、前のセクションを基に、多言語タスク用のカスケード型 NLP モデルと学習モデルをまとめます。

カスケードモデル: ニューラルネットワークモデルの計算グラフ定義を使用して中間表現 (エンコーディング) を追加し、より複雑なモデルを構築します。たとえば、隣接する単語やその構成要素を使用して単語を予測するフィードフォワードネットワークを構築できます。

マルチタスク学習: 関連するさまざまな言語予測タスクは互いにフィードバックしませんが、タスク間で情報を共有します。

名前付きエンティティの境界や文中の次の単語を予測するには、基礎となる構文的・意味的表現に依存します。これらの高レベルの概念は、ニューラルネットワークのコンテキストで説明されており、モデルが互いにどのように関係するか、またはトレーニング (エラーバックプロパゲーション) 中および予測中にどのように情報を共有するかを理解できるようにします。

8. 構造化された出力の予測

このセクションでは、シーケンス、決定木、計算グラフなどの構造化予測にディープラーニング手法が使用される自然言語処理タスクのいくつかの例に焦点を当てます。

代表的な例としては、シーケンスタグ付け（品詞タグ付けなど）、シーケンスセグメンテーション（グループ化、NER（固有表現認識））、構文解析などが挙げられます。このセクションでは、貪欲アルゴリズムベースと検索ベースの構造化予測の両方について説明しますが、後者に重点を置きます。

検索は、自然言語における構造化予測への一般的なアプローチの中核です。

9. 畳み込み層

このセクションでは、畳み込みニューラルネットワークの短期集中講座を提供し、畳み込みニューラルネットワークが自然言語処理の研究にどのような革命をもたらしたかについて説明します。 CNN は、感情分析（予測のためにテキスト内の特定のサブシーケンスや構造を見つけるなど）などの自然言語処理における分類タスクで優れたパフォーマンスを発揮することが示されています。

畳み込みニューラルネットワークは、一般的に、大規模な構造内の指標となるローカル予測子を識別し、それらを組み合わせて構造の固定サイズのベクトル表現を生成し、予測タスクに役立つこれらのローカルな側面を捉えるように設計されています。

10. リカレントニューラルネットワーク

前のセクションと同様に、このセクションでは、特定のネットワークと NLP でのそのアプリケーションについて紹介します。たとえば、RNN シーケンスモデリングを適用します。

リカレントニューラルネットワークでは、入力の構造化された性質のみを考慮しながら、固定サイズのベクトルで任意のサイズの構造化された入力を表現できます。

RNN は NLP、特に LSTM で非常に人気があるため、このセクションでは再帰に関連する次のトピックとモデルについて説明します。

RNN の抽象概念 (例: ネットワーク図の再帰接続)
RNN トレーニングプロセス (例: 時間の経過によるバックプロパゲーション)。
多層（スタック）RNN（例：ディープラーニングの「ディープ」な説明）
BI-RNN（例：入力として順方向シーケンスと逆方向シーケンス）
表現のための RNN スタッキング。

特に、RNN モデルの構造または構造要素に焦点を当てます。

受信機: 入力シーケンスが完了した後の出力の損失計算。
エンコーダー: *** のベクトルは入力シーケンスのエンコーダーとして使用されます。
トランスデューサー: 入力シーケンス内の各観測に対して出力を生成します。
エンコーダー/デコーダー: 入力シーケンスは、出力シーケンスにデコードされる前に固定長ベクトルにエンコードされます。

11. 特定のRNN構造

このセクションでは、前のセクションに基づいて特定の RNN アルゴリズムについて説明します。例えば：

シンプル RNN (SRNN);
長短期記憶（LSTM）
ゲートリカレントユニット (GRU)。

12. モデル構築

最初のセクションでは、より複雑なネットワーク、つまりツリーモデリングを学習する再帰ニューラルネットワークに焦点を当てます。いわゆるツリーには、統語ツリー、談話ツリー、さらには感情を表すツリー（文の部分で表現される）も含まれます。ルートノードに基づいて特定のツリーノードの値を予測するか、ツリー全体またはツリーの一部の予測値を指定します。

RNN が入力シーケンスの状態を維持するのと同様に、RNN はツリーノードの状態を維持します。

以下は、「自然言語処理のためのニューラルネットワークモデル入門」から抜粋したリカレントニューラルネットワークの例です。

要約する

この投稿では、自然言語処理のためのディープラーニング手法について紹介します。

具体的には、次のことを学びました。