言語学からディープラーニングNLPまで、自然言語処理の概要

この記事は、2 つの論文から始まり、自然言語処理の基本的な分類と基本概念を簡単に紹介し、次にディープラーニングにおける NLP を紹介します。どちらの論文も入門書として優れたレビュー論文です。自然言語処理についてさらに詳しく知りたい読者は、この 2 つの論文をさらに読むことができます。

まず、第 1 部では、自然言語処理の基本概念を紹介します。著者は、NLP を自然言語理解と自然言語生成に分けて、NLP プロセスのさまざまなレベルとアプリケーションについて説明します。この論文は、読者が NLP の基本概念を体系的に理解するのに非常に適しています。

2 つ目は、ディープラーニングに基づく NLP について説明しています。この論文では、まずディープラーニングにおける単語表現、つまり、ワンホットエンコーディング、バッグオブワードモデルから単語埋め込み、word2vec などについて説明します。自然言語処理をさらに実行する前に、まず語彙をデジタルで表現する必要があります。次に、本論文では、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、長期短期記憶、ゲート付きリカレントニューラルネットワークなど、NLP に適用されるさまざまなモデルを紹介します。これらのモデルを注意メカニズムなどの他の技術と組み合わせることで、機械翻訳、質問応答システム、感情分析などの非常に強力な機能を実現できます。

概念的基礎

論文アドレス: https://arxiv.org/abs/1708.05148

自然言語処理 (NLP) は、人間の言語の計算表現と分析において、最近ますます注目を集めています。機械翻訳、スパム検出、情報抽出、自動要約、医療、質問応答システムなど、多くの分野に応用されています。この論文では、NLP と自然言語生成 (NLG) のさまざまな部分を歴史的および発展的観点からさまざまなレベルで説明し、NLP アプリケーションにおけるさまざまな最先端技術と現在の傾向および課題を紹介します。

1. はじめに

自然言語処理 (NLP) は、人工知能と言語学の一部であり、コンピューターを使用して人間の言語の文章や単語を理解することに重点を置いています。 NLP は、ユーザーの作業負荷を軽減し、人間とコンピューターの対話に自然言語を使用したいという要望に応えることを目的としています。ユーザーは機械言語に慣れていない可能性があるため、NLP はそのようなユーザーが自然言語を使用して機械と通信できるように支援します。

言語は、一連の規則または記号として定義できます。私たちはシンボルを組み合わせて、情報を伝えたりメッセージを放送したりするために使用します。 NLP は基本的に、自然言語理解と自然言語生成の 2 つの部分に分けられ、テキストの理解と生成のタスクへと進化します (図 1)。

図1: NLPの大まかな分類

言語学は、音を表す音韻論、語の形成を表す形態論、文の構造を表す統語論、理解を表す意味論、語用論などを含む言語の科学です。

NLP の研究タスクには、自動要約、共参照解決、談話分析、機械翻訳、形態素セグメンテーション、固有表現認識、光学文字認識、品詞タグ付けが含まれます。自動要約とは、テキストセットの詳細情報の要約を特定の形式で生成することです。共参照の解決では、文またはより大きなテキストセットを使用して、どの単語が同じオブジェクトを参照しているかを判断します。談話分析とは、テキストを結びつける談話構造を識別することを指し、機械翻訳とは、2 つ以上の言語間の自動翻訳を指します。形態素分割とは、単語を形態素に分割し、形態素のカテゴリを識別することを意味します。名前付きエンティティ認識 (NER) は、テキストの文字列を記述し、どの名詞が固有名詞を指すかを判断します。光学文字認識 (OCR) は、印刷されたドキュメント (PDF など) 内のテキストに関する情報を提供します。品詞タグ付けは、文とその中の各単語の品詞を記述します。これらの NLP タスクは互いに異なるように見えるかもしれませんが、実際には同時に処理されることがよくあります。

2. NLPの階層

言語階層は NLP を表現する最も説明的な方法であり、コンテンツ計画、文計画、表面実現の 3 つの段階を実装することで NLP がテキストを生成するのに役立ちます (図 2)。

図2: NLPアーキテクチャの段階

言語学は、言語、文脈、および言語のさまざまな形式を扱う学問です。 NLP に関連する重要な用語は次のとおりです。

音韻論
形態学
語彙学
構文
セマンティクス
談話分析
実用主義

3. 自然言語生成

NLG は、内部表現から意味のあるフレーズ、文、段落を生成するプロセスです。これは NLP の一部であり、図 3 に示すように、目標の決定、シナリオ評価による目標達成方法の計画、利用可能な対話ソース、計画のテキストへの実装という 4 つの段階から構成されます。生成と理解は反対のプロセスです。

図3: NLGの構成要素

4. NLPの応用

NLP は、機械翻訳、スパム検出、情報抽出など、さまざまな分野に応用できます。このセクションでは、次の NLP アプリケーションを紹介します。

機械翻訳
テキスト分類
スパムフィルタリング
情報抽出
自動要約
対話システム
医学

ディープラーニングにおけるNLP

上記の内容はNLPの基本的な紹介ですが、近年のNLP分野におけるディープラーニングの応用については触れられていません。そこで、北京理工大学の論文で補足します。この論文では、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、再帰ニューラルネットワークなど、NLP における重要なディープラーニングモデルと手法についてレビューします。また、メモリ強化戦略、注意メカニズム、および言語関連タスクにおける教師なしモデル、強化学習モデル、ディープ生成モデルの適用についても説明します。最後に、ディープラーニングの観点から NLP の最近の開発の包括的な概要を提供するために、さまざまなディープラーニングフレームワークについて説明します。

今日、ディープラーニングのアーキテクチャとアルゴリズムは、コンピュータービジョンとパターン認識の分野で驚異的な進歩を遂げています。この傾向を受けて、新しいディープラーニング手法に基づく NLP 研究が最近飛躍的に成長しています。

図 4: 2012 年から 2017 年にかけて ACL、EMNLP、EACL、NAACL カンファレンスで発表されたディープラーニング論文数の増加傾向。

10 年以上にわたり、NLP 問題を解決するための機械学習手法は、非常に高次元でスパースな特徴に基づいてトレーニングされる SVM やロジスティック回帰などの浅いモデルに基づいていました。過去数年間、高密度ベクトル表現に基づくニューラルネットワークは、さまざまな NLP タスクで優れた結果を生み出してきました。この傾向は、単語埋め込みとディープラーニング手法の成功によって推進されました。ディープラーニングにより、複数レベルの自動特徴表現を学習することが可能になります。機械学習手法に基づく従来の NLP システムは手書きの特徴に大きく依存しており、時間がかかり、常に不完全です。

2011 年に、Collobert らによる論文では、シンプルなディープラーニングフレームワークが、固有表現抽出 (NER)、意味役割ラベル付け (SRL)、品詞タグ付け (POS タグ付け) などのさまざまな NLP タスクで最先端の方法を上回ることができることが実証されました。それ以来、NLP 問題を解決するために、ディープラーニングに基づくさまざまな複雑なアルゴリズムが提案されてきました。

この論文では、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、再帰ニューラルネットワークなど、ディープラーニングに関連する重要なモデルと手法について説明します。さらに、この論文では、記憶強化戦略、注意メカニズム、および言語関連タスクにおける教師なしモデル、強化学習モデル、および深層生成モデルの応用についても説明します。

2016年、ゴールドバーグ氏はNLP分野におけるディープラーニングをチュートリアル形式で紹介し、主に分散セマンティクス（word2vec、CNN）の技術的な概要を提供しましたが、さまざまなディープラーニングアーキテクチャについては議論しませんでした。この論文はより包括的な思考を提供することができます。

概要: ディープラーニング手法では、複数の処理層を使用してデータの階層的表現を学習し、多くの分野で最先端の結果を達成しています。最近、自然言語処理の分野では多数のモデル設計と手法が登場しています。本稿では、NLP タスクに適用されるディープラーニングに関連する重要なモデルと手法をレビューし、進歩の概要を示します。また、さまざまなモデルを要約して比較し、NLP におけるディープラーニングの過去、現在、未来についての詳細な理解を提供します。

論文アドレス: https://arxiv.org/abs/1708.02709

図 2: D 次元ベクトルの分散ベクトル表現。ここで、D << V、V は語彙のサイズです。

図3: 2003年にBengioらが提案したニューラル言語モデル。ここでC(i)はi番目の単語の埋め込みです。

図4: CBOW（連続バッグオブワード）モデル

表1: フレームワークは埋め込みツールとメソッドを提供する

図5: Collobertらが単語レベルのカテゴリ予測に使用したCNNフレームワーク

図6: テキストのCNNモデリング (Zhang and Wallace, 2015)

図 7: 4 つの 7 グラムカーネルの上位 7 グラム。各カーネルは特定のタイプの 7 グラムに敏感です (Kim、2014)

図8: DCNNサブグラフ。動的プーリングでは、入力文内で離れたフレーズを関連付けるために、最上層に狭い幅のフィルターのみが必要になります (Kalchbrenner 他、2014)。

図9: シンプルなRNNネットワーク

図10: LSTMとGRUの図解（Chung et al., 2014）

図 11: 反復回数 (上のグラフ) とクロック時間 (下のグラフ) に関する、さまざまなユニットタイプのトレーニングセットと検証セットの学習曲線。 Y 軸は、対数スケールで記述されたモデルの負の対数尤度です。