このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラルネットワークに似ていますか?

本論文では、これまでの RNN モデル研究に基づいて、隠れ状態ニューロン間の更新頻度の順序を強制し、潜在的なツリー構造を再帰モデルに統合する順序付きニューロンを提案します。さらに、本論文で提案された新しい RNN ユニットは、言語モデリング、教師なしコンポーネント構文解析、対象を絞った文法評価、論理的推論の 4 つのタスクで優れたパフォーマンスを発揮します。

導入

自然言語は多くの場合、順序付けられた形式で表現されますが、言語の基礎となる構造は厳密には順序付けられていません。言語学者は、この構造は一連の規則、つまり文法 (Sandra & Taft、2014) によって規定されており、この規則によって単語が組み合わされて文が形成される論理が規定されていることに同意しています。形状に関係なく、この構造は通常、木のようなものです。言語学者はこのパターンを発見しましたが、その基礎となる構造の真の起源は不明のままです。いくつかの理論では、これは人間の認知の固有のメカニズムに関連している可能性があると示唆しています (Chomsky & Lightfoot、2002)。人工ニューラルネットワークは生物の神経系の情報処理と通信パターンにヒントを得ているため、上記の可能性により、人工ニューラルネットワークを使用して言語の基礎構造を研究することへの関心が高まっています。

実用的な観点から見ると、ツリー構造を言語モデルに統合することは、次の理由からも重要です。

抽象化のレベルが上がるにつれて階層的な表現を得ることができ、これはディープニューラルネットワークの重要な特徴でもあります (Bengio et al.、2009; LeCun et al.、2015; Schmidhuber、2015)。
長期依存問題 (Tai et al., 2015) や構成効果 (Socher et al., 2013) などの複雑な言語現象を捉えることができます。
勾配逆伝播のショートカットを提供できます (Chung et al.、2016)。

近年、文法知識や少なくとも何らかのツリー構造 (Williams et al., 2018; Shi et al., 2018) を活用してより優れた意味表現を形成できるディープニューラルネットワーク (Shen et al., 2017; Jacob et al., 2018; Bowman et al., 2016; Choi et al., 2018; Yogatama et al., 2016) の開発に注目が集まっています。

ツリー構造を取得する簡単な方法は、教師ありパーサーを使用することです。これらのパーサーによって生成されるツリー構造は、単語の意味を文の意味に組み合わせる際に使用され (Socher et al., 2013; Bowman et al., 2015)、前の単語に基づいて次の単語を予測するのにも役立ちます (Wu et al., 2017)。ただし、教師ありパーサーにもいくつかの制限があります。1) 教師ありパーサーのトレーニング用の包括的な注釈付きデータを持つ言語はほとんどありません。2) 利用可能な言語データでは、文法規則が破られていることがよくあります (Twitter での表現など)。3) 実際の使用では、言語は常に変化しているため、文法規則が進化する可能性があります。

一方、利用可能なデータから教師なし方式でツリー構造を学習することは、未解決の問題のままです。トレーニングプロセスにおける煩雑な構造 (左分岐ツリー構造、右分岐ツリー構造 (Williams ら、2018) など) や強化学習トレーニングのジレンマ (Yogatama ら、2016) により、多くの研究が実を結ばなくなっています。さらに、Shen et al. (2017) が提案した PRPN など、一部の手法の実装とトレーニングは比較的複雑です。

リカレントニューラルネットワーク (RNN) は、言語モデリングタスクにおいて非常に効果的であることが示されています (Merity et al.、2017; Melis et al.、2017)。 RNN は暗黙的にデータにチェーン構造を課します。この連鎖構造は、言語の基礎となる非連続構造と矛盾しているように思われ、長期的な依存関係の捕捉 (Bengio ら、2009 年)、優れた一般化能力の獲得 (Bowman ら、2015 年)、否定の処理 (Socher ら、2013 年) など、自然言語データを処理するためのディープラーニング手法の使用にいくつかの困難をもたらします。同時に、十分な容量を持つリカレントニューラルネットワークには、このツリー構造を暗黙的にエンコードする可能性があるという証拠があります (Kuncoro et al.、2018)。しかし、問題は、モデルアーキテクチャにツリー構造の帰納的事前分布を課すことで、より優れた言語モデルが実現するかどうかです。

この論文では、リカレントニューラルネットワークの新しい誘導バイアスである順序付きニューロンを紹介します。この誘導バイアスは、各ニューロン内に保存されている情報の寿命を反映するニューロン間の依存関係を強化します。言い換えれば、一部の高レベルニューロンは長期情報を保存し、低レベルニューロンは短期情報を保存しています。高レベルニューロンと低レベルニューロン間の固定された分割を回避するために、本論文では、長期/短期情報を格納するニューロンを積極的に割り当てる新しい活性化関数 cumax() をさらに提案します。この論文では、cumax() と Long Short-Term Memory (LSTM) ネットワークアーキテクチャに基づいて、RNN モデルがそのシーケンシャル形式を破壊することなくツリーのような合成を実行できるようにする新しいモデル ON-LSTM を設計します。このモデルは、言語モデリング、教師なし構成構文解析、対象を絞った文法評価 (Marvin & Linzen、2018)、論理的推論 (Bowman et al.、2015) の 4 つのタスクで優れたパフォーマンスを発揮します。教師なし構成要素構文解析タスクの結果は、本論文で提案された帰納的バイアスが人間の専門家によって提案された文法原理と一致していることを示しています。私たちの実験では、長期的な依存性とより長いシーケンスへの一般化の点でも、ON-LSTM が標準の LSTM モデルよりも優れていることも示されています。

論文: 順序付きニューロン: ツリー構造を再帰型ニューラルネットワークに統合する

論文リンク: https://openreview.net/forum?id=B1l6qiR5F7

概要: リカレントニューラルネットワークモデルは、潜在ツリー構造によって制御されるシーケンスデータを処理するために広く使用されています。これまでの研究では、RNN モデル (特に LSTM ベースのモデル) は潜在的なツリー構造を活用することを学習できることが示されています。ただし、そのパフォーマンスはツリーベースのモデルに比べて常に遅れています。我々は、隠れ状態ニューロン間の更新頻度の順序を強制する新しい誘導バイアス「Ordered Neuron」を提案します。この論文では、順序付けられたニューロンが潜在的なツリー構造を再帰モデルに明示的に統合できることを示しています。この目的のために、我々は新しい RNN ユニット ON-LSTM を提案します。これは、言語モデリング、教師なしコンポーネント構文解析、対象を絞った文法評価、論理的推論の 4 つのタスクで優れたパフォーマンスを発揮します。

図1

図 1: コンポーネント構文解析木と ON-LSTM の関係。トークンシーケンス（x1、x2、x3）が与えられた場合、その構成要素となる構文解析ツリーを図（a）に示します。図(b)は、SノードとVPノードの両方が複数の時間ステップにまたがるツリー構造のブロック図を示しています。高レベルノードの表現は、複数のタイムステップにわたって比較的一貫したままである必要があります。図(c)は、各タイムステップにおける各ニューロングループ内の更新されたニューロンの割合を示しています。各タイムステップで、入力ワードが与えられると、濃い灰色のブロックは完全な更新を表し、薄い灰色のブロックは部分的な更新を表します。 3 つのニューロングループの更新頻度は異なります。上位レベルのグループは更新頻度が低く、下位レベルのグループは更新頻度が高くなります。

ON-LSTM

この論文では、順序付きニューロンの実装として、新しい RNN ユニット ON-LSTM を提案します。この新しいモデルは、標準の LSTM モデルと同様のアーキテクチャを備えています。

ON-LSTM と標準 LSTM モデルの唯一の違いは、セル状態 ct の更新関数を除外し、新しい更新ルールに置き換えていることです。これについては、次のセクションで詳しく説明します。以前と同様に、忘却ゲート ft と入力ゲート it は、セル状態 ct のクリア操作と書き込み操作を制御するために使用されます。一般に、標準 LSTM のゲートは個々のセルにトポロジ構造を課さないため、個々のセルの動作は順序を反映しません。

実験

表1

表 1: Penn Treebank 言語モデリングタスクの検証セットとテストセットにおける個々のモデルの困惑度。「tied」というラベルの付いたモデルは、埋め込みとソフトマックス重みに重みの結合を使用します。「*」マークの付いたモデルは、RNN 言語モデルのソフトマックス部分の改善に重点を置いています。

表2

表 2: 完全な WSJ10 および WSJ テストセットで評価されたラベルなしの「解析 F1」の結果。この論文の言語モデルは3つの層に分かれており、各層は ˆdt シーケンスを提供します。この論文では、すべてのレイヤーの解析パフォーマンスを紹介します。 RL-SPINN と ST-Gumbel の結果は、完全な WSJ (Williams et al.、2017) で評価されます。 PRPN モデルは WSJ テストセット (Htut et al.、2018) で評価されます。

表3

表 3: 各テストケースにおける ON-LSTM と LSTM の全体的な精度。「長期依存性」は、対象となる単語のペアの間に無関係なフレーズまたは節があることを示し、「短期依存性」は、サルにとって気を散らす状況がないことを意味します。

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: ブロックチェーン上の人間: 暗号が AI 支配者に対するより良い防御である理由

>>: 感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。