ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きなボトルネックとなるのは、コーパスの取得です。近年、ニューラルネットワークベースの関係抽出モデルは、低次元空間で文を表現しています。この論文の革新性は、エンティティ表現モデルに構文情報を追加したことです。

まず、Tree-GRU に基づいて、エンティティ コンテキストの依存関係ツリーが文レベルの表現に変換されます。次に、文間および文内の注意を活用して、ターゲット エンティティを含む文のセットの表現を取得します。

研究の背景と動機

関係抽出タスクの大規模な適用における大きなボトルネックとなるのは、コーパスの取得です。遠隔監視モデルは、知識ベースを非構造化テキストのアライメントに適用することで大規模なトレーニング データを自動的に構築し、手動で構築されたデータへの依存を減らし、モデルのクロスドメイン適応性を高めます。しかし、遠隔監視を使用してコーパスを構築するプロセスでは、エンティティ名のみがアライメントに使用されますが、異なるエンティティは異なる関係の下でより豊かで多様な意味表現を持つ必要があるため、誤ったラベル付けなどの問題が発生します。したがって、より豊富なエンティティ表現のセットが特に重要です。

一方、文法情報に基づく方法は、通常、2 つのエンティティ間の関係に基づいて動作しますが、文法情報はエンティティの表現を豊かにすることができます。したがって、本論文では、構文コンテキストにおけるエンティティ表現に基づいて、さまざまなリレーショナル モードのエンティティのセマンティクスを強化し、ニューラル ネットワーク モデルを組み合わせて関係抽出タスクを処理します。

関連研究

関連する研究は、遠隔監視に基づく初期の方法と最近のニューラル ネットワーク モデルの 2 つのカテゴリに大まかに分類できます。

関係抽出タスクが注釈付きコーパスに大きく依存するという問題を解決するために、Mintzら(2009)は最初に遠隔監視に基づいて注釈付きコーパスを構築する方法を提案した。しかし、このようにして構築された自動的に注釈が付けられたコーパスには多くのノイズが含まれます。コーパス内のノイズの影響を軽減するために、Riedel et al. (2010) は関係抽出をマルチインスタンス単一カテゴリ問題として扱いました。さらに、Hoffmann et al. (2011) と Surdeanu et al. (2012) は、マルチインスタンスマルチカテゴリ戦略を採用しました。同時に、最短の依存パスが関係の文法的特徴として採用されます。上記の方法の典型的な欠点は、モデルのパフォーマンスがフィーチャ テンプレートの設計に依存することです。

近年、ニューラル ネットワークは自然言語処理タスクで広く使用されています。関係抽出の分野では、Socher et al. (2012) がリカレントニューラルネットワークを使用して関係抽出を処理しました。 Zeng et al. (2014) は、エンドツーエンドの畳み込みニューラルネットワークを構築しました。さらに、Zeng et al. (2015) は、複数のインスタンスのうち少なくとも 1 つのインスタンスが対応する関係を正しく表していると仮定しました。一対のエンティティ間の関係を表すインスタンスが存在すると仮定する場合と比較して、Lin et al. (2016) は、注釈付きコーパスに含まれる情報をより十分に活用するために、注意メカニズムを通じて肯定的なインスタンスを選択しました。

上記のニューラル ネットワーク ベースの方法のほとんどは、単語レベルの表現を使用して文のベクトル表現を生成します。一方、文法情報に基づく表現も多くの研究者に好まれており、その中で最も重要なのは最短依存パスです(Miwa and Bansal(2016)およびCai et al.(2016))。

主な方法

まず、依存関係の構文ツリーに基づいて、ツリー構造の再帰型ニューラル ネットワーク (Tree-GRU) モデルを使用して、文レベルでエンティティ表現を生成します。上の図に示すように、エンティティ自体を使用するよりも長距離情報をより適切に表現できます。特定のエンティティのセマンティック表現を次の図に示します。エンティティのセマンティック表現を取得するために Tree-GRU を使用します。

次に、サブノードベースのアテンション メカニズム (ATTCE、上) と文レベルのエンティティ表現アテンション メカニズム (ATTEE、下) を使用して、構文エラーや誤った注釈による悪影響を軽減します。

実験結果

この論文では、NYT コーパスで実験を行っています。最終結果は上の写真に示されています。このうち、SEE-CAT と SEE-TRAINS は、3 つのベクトル表現 (文のベクトル表現と 2 つのエンティティのベクトル表現) を組み合わせた、本論文で使用されている 2 つの戦略です。図からわかるように、本論文で提案されたモデルは、同じデータセット上で既存の遠隔監視関係抽出モデルよりも優れた性能を達成しています。

要約する

この論文の実験結果は、名前付きエンティティのより豊富な意味表現が最終的な関係抽出タスクに効果的に役立つことを示しています。

チーム名: ビジネスプラットフォーム事業部

著者: He Zhengqiu、Chen Wenliang、Zhang Meishan、Li Zhenghua、Zhang Wei、Zhang Min

<<:  初心者のためのデータ学習: Python でシンプルな教師あり学習アルゴリズムを実装する方法を学習します

>>:  AIがソフトウェアテストを変える5つの方法

推薦する

MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

...

この AI はわずか 20 分で複雑な芸術作品を作成できます。 1080グラフィックカードが実行可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が教育を改善する32の方法

過去数年間、ソーシャルメディアから音声認識、モノのインターネットから新しい小売業、ロボットから自動運...

天猫双11:機械​​知能が上昇、ロボット1台は実在の人間70万人に相当

「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...

機械学習を実践するための10のヒント

開発者にとって、クラウドベースの機械学習ツールは、機械学習を使用して新しい機能を作成し、提供する可能...

AIによりドローンは未知の環境でも高速で自律飛行できる

チューリッヒ大学の研究者らは、複雑で未知の環境でもドローンが高速で自律飛行できるようにする新たな人工...

...

機械学習のパフォーマンスを最適化するために必要な 6 つの指標

実行している機械学習の種類に応じて、モデルのパフォーマンスを測定するために使用できるメトリックは多数...

...

...

試験形式がAIベースになったとき、「AI+教育」の関係をどうバランスさせるのか?

[[237498]]画像出典: Visual China私のクラスメイトの劉一木は留学の準備をして...