このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラル ネットワークに似ていますか?

このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラル ネットワークに似ていますか?

本論文では、これまでの RNN モデル研究に基づいて、隠れ状態ニューロン間の更新頻度の順序を強制し、潜在的なツリー構造を再帰モデルに統合する順序付きニューロンを提案します。さらに、本論文で提案された新しい RNN ユニットは、言語モデリング、教師なしコンポーネント構文解析、対象を絞った文法評価、論理的推論の 4 つのタスクで優れたパフォーマンスを発揮します。

導入

自然言語は多くの場合、順序付けられた形式で表現されますが、言語の基礎となる構造は厳密には順序付けられていません。言語学者は、この構造は一連の規則、つまり文法 (Sandra & Taft、2014) によって規定されており、この規則によって単語が組み合わされて文が形成される論理が規定されていることに同意しています。形状に関係なく、この構造は通常、木のようなものです。言語学者はこのパターンを発見しましたが、その基礎となる構造の真の起源は不明のままです。いくつかの理論では、これは人間の認知の固有のメカニズムに関連している可能性があると示唆しています (Chomsky & Lightfoot、2002)。人工ニューラル ネットワークは生物の神経系の情報処理と通信パターンにヒントを得ているため、上記の可能性により、人工ニューラル ネットワークを使用して言語の基礎構造を研究することへの関心が高まっています。

実用的な観点から見ると、ツリー構造を言語モデルに統合することは、次の理由からも重要です。

  • 抽象化のレベルが上がるにつれて階層的な表現を得ることができ、これはディープニューラルネットワークの重要な特徴でもあります (Bengio et al.、2009; LeCun et al.、2015; Schmidhuber、2015)。
  • 長期依存問題 (Tai et al., 2015) や構成効果 (Socher et al., 2013) などの複雑な言語現象を捉えることができます。
  • 勾配逆伝播のショートカットを提供できます (Chung et al.、2016)。

近年、文法知識や少なくとも何らかのツリー構造 (Williams et al., 2018; Shi et al., 2018) を活用してより優れた意味表現を形成できるディープニューラルネットワーク (Shen et al., 2017; Jacob et al., 2018; Bowman et al., 2016; Choi et al., 2018; Yogatama et al., 2016) の開発に注目が集まっています。

ツリー構造を取得する簡単な方法は、教師ありパーサーを使用することです。これらのパーサーによって生成されるツリー構造は、単語の意味を文の意味に組み合わせる際に使用され (Socher et al., 2013; Bowman et al., 2015)、前の単語に基づいて次の単語を予測するのにも役立ちます (Wu et al., 2017)。ただし、教師ありパーサーにもいくつかの制限があります。1) 教師ありパーサーのトレーニング用の包括的な注釈付きデータを持つ言語はほとんどありません。2) 利用可能な言語データでは、文法規則が破られていることがよくあります (Twitter での表現など)。3) 実際の使用では、言語は常に変化しているため、文法規則が進化する可能性があります。

一方、利用可能なデータから教師なし方式でツリー構造を学習することは、未解決の問題のままです。トレーニング プロセスにおける煩雑な構造 (左分岐ツリー構造、右分岐ツリー構造 (Williams ら、2018) など) や強化学習トレーニングのジレンマ (Yogatama ら、2016) により、多くの研究が実を結ばなくなっています。さらに、Shen et al. (2017) が提案した PRPN など、一部の手法の実装とトレーニングは比較的複雑です。

リカレントニューラルネットワーク (RNN) は、言語モデリングタスクにおいて非常に効果的であることが示されています (Merity et al.、2017; Melis et al.、2017)。 RNN は暗黙的にデータにチェーン構造を課します。この連鎖構造は、言語の基礎となる非連続構造と矛盾しているように思われ、長期的な依存関係の捕捉 (Bengio ら、2009 年)、優れた一般化能力の獲得 (Bowman ら、2015 年)、否定の処理 (Socher ら、2013 年) など、自然言語データを処理するためのディープラーニング手法の使用にいくつかの困難をもたらします。同時に、十分な容量を持つリカレントニューラルネットワークには、このツリー構造を暗黙的にエンコードする可能性があるという証拠があります (Kuncoro et al.、2018)。しかし、問題は、モデル アーキテクチャにツリー構造の帰納的事前分布を課すことで、より優れた言語モデルが実現するかどうかです。

この論文では、リカレント ニューラル ネットワークの新しい誘導バイアスである順序付きニューロンを紹介します。この誘導バイアスは、各ニューロン内に保存されている情報の寿命を反映するニューロン間の依存関係を強化します。言い換えれば、一部の高レベルニューロンは長期情報を保存し、低レベルニューロンは短期情報を保存しています。高レベルニューロンと低レベルニューロン間の固定された分割を回避するために、本論文では、長期/短期情報を格納するニューロンを積極的に割り当てる新しい活性化関数 cumax() をさらに提案します。この論文では、cumax() と Long Short-Term Memory (LSTM) ネットワーク アーキテクチャに基づいて、RNN モデルがそのシーケンシャル形式を破壊することなくツリーのような合成を実行できるようにする新しいモデル ON-LSTM を設計します。このモデルは、言語モデリング、教師なし構成構文解析、対象を絞った文法評価 (Marvin & Linzen、2018)、論理的推論 (Bowman et al.、2015) の 4 つのタスクで優れたパフォーマンスを発揮します。教師なし構成要素構文解析タスクの結果は、本論文で提案された帰納的バイアスが人間の専門家によって提案された文法原理と一致していることを示しています。私たちの実験では、長期的な依存性とより長いシーケンスへの一般化の点でも、ON-LSTM が標準の LSTM モデルよりも優れていることも示されています。

論文: 順序付きニューロン: ツリー構造を再帰型ニューラル ネットワークに統合する

論文リンク: https://openreview.net/forum?id=B1l6qiR5F7

概要: リカレント ニューラル ネットワーク モデルは、潜在ツリー構造によって制御されるシーケンス データを処理するために広く使用されています。これまでの研究では、RNN モデル (特に LSTM ベースのモデル) は潜在的なツリー構造を活用することを学習できることが示されています。ただし、そのパフォーマンスはツリーベースのモデルに比べて常に遅れています。我々は、隠れ状態ニューロン間の更新頻度の順序を強制する新しい誘導バイアス「Ordered Neuron」を提案します。この論文では、順序付けられたニューロンが潜在的なツリー構造を再帰モデルに明示的に統合できることを示しています。この目的のために、我々は新しい RNN ユニット ON-LSTM を提案します。これは、言語モデリング、教師なしコンポーネント構文解析、対象を絞った文法評価、論理的推論の 4 つのタスクで優れたパフォーマンスを発揮します。

図1

図 1: コンポーネント構文解析木と ON-LSTM の関係。トークンシーケンス(x1、x2、x3)が与えられた場合、その構成要素となる構文解析ツリーを図(a)に示します。図(b)は、SノードとVPノードの両方が複数の時間ステップにまたがるツリー構造のブロック図を示しています。高レベルノードの表現は、複数のタイムステップにわたって比較的一貫したままである必要があります。図(c)は、各タイムステップにおける各ニューロングループ内の更新されたニューロンの割合を示しています。各タイムステップで、入力ワードが与えられると、濃い灰色のブロックは完全な更新を表し、薄い灰色のブロックは部分的な更新を表します。 3 つのニューロン グループの更新頻度は異なります。上位レベルのグループは更新頻度が低く、下位レベルのグループは更新頻度が高くなります。

ON-LSTM

この論文では、順序付きニューロンの実装として、新しい RNN ユニット ON-LSTM を提案します。この新しいモデルは、標準の LSTM モデルと同様のアーキテクチャを備えています。

ON-LSTM と標準 LSTM モデルの唯一の違いは、セル状態 ct の更新関数を除外し、新しい更新ルールに置き換えていることです。これについては、次のセクションで詳しく説明します。以前と同様に、忘却ゲート ft と入力ゲート it は、セル状態 ct のクリア操作と書き込み操作を制御するために使用されます。一般に、標準 LSTM のゲートは個々のセルにトポロジ構造を課さないため、個々のセルの動作は順序を反映しません。

実験

表1

表 1: Penn Treebank 言語モデリング タスクの検証セットとテスト セットにおける個々のモデルの困惑度。 「tied」というラベルの付いたモデルは、埋め込みとソフトマックス重みに重みの結合を使用します。 「*」マークの付いたモデルは、RNN 言語モデルのソフトマックス部分の改善に重点を置いています。

表2

表 2: 完全な WSJ10 および WSJ テスト セットで評価されたラベルなしの「解析 F1」の結果。この論文の言語モデルは3つの層に分かれており、各層は ˆdt シーケンスを提供します。この論文では、すべてのレイヤーの解析パフォーマンスを紹介します。 RL-SPINN と ST-Gumbel の結果は、完全な WSJ (Williams et al.、2017) で評価されます。 PRPN モデルは WSJ テスト セット (Htut et al.、2018) で評価されます。

表3

表 3: 各テストケースにおける ON-LSTM と LSTM の全体的な精度。 「長期依存性」は、対象となる単語のペアの間に無関係なフレーズまたは節があることを示し、「短期依存性」は、サルにとって気を散らす状況がないことを意味します。

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  ブロックチェーン上の人間: 暗号が AI 支配者に対するより良い防御である理由

>>:  感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

ブログ    
ブログ    
ブログ    

推薦する

Github 年次レポートレビュー: TensorFlow が間違いなく最大の勝者です!

現在、世界中の何百万もの開発者が GitHub を使用してコードを共有し、ビジネスを構築しており、多...

感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

仮想現実、拡張現実、ゲーム、人間とコンピュータの相互作用などの分野では、仮想キャラクターが画面外のプ...

...

...

...

TensorFlow Lattice: 柔軟で制御可能、説明可能な機械学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

あなたのビジネスに最適なRPAコンサルタントを見つける方法

RPA 導入を成功させるために、この記事では、ビジネスに最適な RPA コンサルタントを選択するプロ...

2024年のデジタル変革のトレンド

AI と自動化が進歩するにつれて、企業は人間的なタッチを維持しながらこれらのツールを最も効果的に活用...

...

マスク氏の「脳変革計画」ではどのスキルツリーを活性化する必要があるのか​​?

シリコンバレーのアイアンマンの熱心な宣伝により、脳コンピューターインターフェースがホットな言葉になっ...

Facebookは色を表現するために通信する2つのニューラルネットワークを作成

色をどのように表現するか考えたことはありますか?最新の研究によると、人間は個別の記号を使用して領域の...

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

11月10日の早朝、OpenAIはGPTをリリースしました。ChatGPT Plusのすべての加入...

AIと人間: 人工知能は常に進歩し、人間は常に進化している

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

OpenAIの最新製品が企業ビジネスにもたらす意味

企業向け GenAI の民主化世界的なデジタル変革コンサルタント会社パブリシス・サピエントの最高製品...