ディープラーニングにおける次の大きな進歩は機械読み取りでしょうか?

機械読み取りはディープラーニングの次の大きな進歩となるだろう

[[184205]]

2016 年を振り返ると、ディープラーニングはその応用分野で 3 つの大きな進歩を遂げました。

1. Google DeepMind の AlphaGo が人間のトップ囲碁プレイヤーを破った。

2. Google翻訳がリリースされ、人間のような精度を実現。

3. テスラのオートパイロットが実用化され、自動ナビゲーションが一般の人々にとって日常的なツールになりました。

2017 年を見据えると、ディープラーニングは応用分野で新たなブレークスルーを遂げるでしょう。そのハイライトの 1 つが機械読み取りです。

本は人類の文明を継承する主な手段です。機械が自動的に読み取る能力を習得できるようにすることで、知識の継承と使用の難しさに革命が起こります。

2017 年に機械読み取りが飛躍的な進歩を遂げる可能性がある理由は、機械翻訳の動作原理が機械読み取りの分野にまで拡張できるからです。

2016 年のテキスト要約研究の進歩は、すでに機械読み取りの方向性を示しています。

いわゆるテキスト要約とは、記事全体をコンピュータに入力し、コンピュータが自動的に記事の要点を出力してくれるものです。

テキスト要約の動作原理は、機械翻訳の動作原理と一致しています。

機械翻訳、エンコード、デコードの原理

機械翻訳の動作原理は単純です。まずエンコードし、次にデコードします[1]。

エンコードタスクは、入力された記事を、遺伝子 DNA のように記事内の各単語の意味情報と文法情報を含む一連のデジタルベクトルに変換することです。

デコードの作業は、デジタルベクトルを他の言語の単語に1つずつ変換して翻訳を完了することです。

タスクが明確になったら、次のステップはそれをどのように達成するかを話し合うことです。

記事内の各単語の意味情報を抽出するにはどうすればよいでしょうか?機械翻訳では 2 つの方法が使用されます。

1. 単語ベクトル: 単語ベクトルには、その単語の意味情報が含まれています。単語ベクトルは、後で紹介するニューラルネットワークと言語モデルの組み合わせを使用して実装されます。

2. 意味ベクトル。意味ベクトルには、記事の先頭から現在の単語までの主要な意味が含まれており、また、現在の単語から記事の終わりまでの主要な意味も含まれているため、意味ベクトルはコンテキストベクトルとも呼ばれます。セマンティックベクトルは、後で紹介する LSTM の隠し状態を使用して実装されます。

意味情報に加えて、エンコーディングでは構文情報や統計情報も考慮する必要がありますか?

テキスト要約の研究者は、エンコーディングには文法的な品詞タグ付け（POSタグ付け）、エンティティ注釈（NER）、情報マイニング統計（TF-IDF）などの情報も含める必要があると提案している[2]。

問題は、コードに他にどのような有用な情報を含めるべきかということです。

さらに大きな問題は、エンコードの精度を高め、原文の意味情報や文法情報をいかに正確かつ包括的に表現するかということです。

エンコーディングの実装原理

エンコーディングの実装は、単語ベクトルと意味ベクトルに依存します。

単語埋め込みはニューラルネットワークと言語モデルを組み合わせることで実現されます[3]。

まず言語モデルについてお話しましょう。言語モデルの役割は、前のテキストに基づいて次の単語を予測することです。最も可能性の高い単語は何でしょうか?

時には、聴衆が他の人の話を遮って、「もう言わなくていいよ。次に何を言うかはもう予想がついたよ」と言うこともあります。そのようなリスナーは、頭の中に優れた言語モデルを持っています。

人間の言語には欠陥があります。「領土」と「境界」には類似点はありませんが、意味は同じです。

言語モデルは、人間の各単語を単語ベクトルにマッピングします。単語ベクトルはデジタルベクトルです。デジタルベクトルの利点は、デジタルベクトル間の距離を簡単に計算できることです。同義語の単語ベクトル間の距離はゼロであり、近い同義語の単語ベクトル間の距離はより短くなります。

人間の語彙には複数の意味がある場合があります。単語ベクトルの技術的な難しさは、多義語に対して複数の単語ベクトルをどのように構成するかにあります。

[3] ニューラルネットワークを使用して、前の文脈に基づいて次の単語を予測します。

いわゆる予測とは、実際には語彙内のどの単語が次に出現する確率が最も高いかを推定することです。ニューラルネットワークの役割は確率シミュレーターの役割です。

予測が正確であれば、ニューラルネットワーク内の多くのパラメータを調整する必要はありません。予測が不正確な場合、これらのパラメータは調整され、その後の予測の精度が向上します。これが言語モデルのトレーニングのプロセスです。

語彙内のすべての単語の出現確率を推定する必要があるため、言語モデルのトレーニングに必要な計算量は驚くほど大きくなることがよくあります。

解決策は、候補となる単語の数をできるだけ減らすことです。ビームサーチなど、さまざまな方法があります。

セマンティックベクトルの実装は LSTM (Long Short Term Memory) に依存します。 LSTMもまた、2つの独特な特徴を持つニューラルネットワークの一種です[4]。

1. ループ: ニューラルネットワークの前の出力は、同じニューラルネットワークの次の入力として使用されます。したがって、LSTM はシーケンスを処理するための強力なツールです。文章はシーケンスの一種です。シーケンスの例としては、株価の変動、心電図、脳波、オーディオやビデオなどが挙げられます。

2. 忘れること: 文中の各単語の重要性は異なります。重要な単語は覚えておき、冗長な単語は忘れましょう。人間の記憶力には限界があるため、スピーチを聞くときにはメモを取って要点を覚えておく必要があります。コンピュータには無制限のメモリがありますが、重要なポイントがノイズでかき消されないように選択する必要があります。

人間はスピーチを聞くと、要点をノートに書き留めます。 LSTM はシーケンスを処理するときに、キーポイントを隠し状態に保存します。

隠れ状態もデジタルベクトルであり、隠れ状態デジタルベクトルの次元はワードベクトルの次元よりも高くなることがよくあります。ノートにたくさんの単語を書き留めておくのと同じです。

ただし、隠れ状態ベクトルは単語ベクトルの単純な累積ではありません。隠れ状態ベクトルは、遺伝子のスプライシングと同様に、コンテキストベクトルのスプライシングです。

LSTM の隠れ状態ベクトルは、コンテキストの意味ベクトルの機能に適しています。しかし、隠れた状態ベクトルの弱点は、解読が難しい遺伝子と同じように、その意味が不明瞭なことです。

優れた隠れ状態ベクトルは簡単に識別できます。オートエンコーダ[5]を使用して隠れ状態ベクトルを元のテキストに復元すると、復元されたテキストが真の元のテキストに近いほど、隠れ状態ベクトルの品質は向上します。

しかし、悪い隠れ状態ベクトルがどこが悪いのかを特定するのは困難です。隠れ状態ベクトルの意味は不明瞭で理解しにくいためです。これは研究して解決する必要がある難しい問題です。

LSTM は、コンテキストの意味を抽出するだけでなく、記事内の各単語の品詞をラベル付けしたり、記事内の住所名などのフレーズを識別したりするなど、さまざまなことができます。

ニューラルネットワークの一種である LSTM もトレーニングが必要であり、トレーニングにはコーパスが必要です。品詞のタグ付けやフレーズ認識などのさまざまなタスクには、異なるトレーニングコーパスが必要です。

大量のコーパスを入手することも課題です。たとえば、テキスト要約のトレーニングコーパスとして記事とそのタイトルを収集することを提案した人がいました。ただし、この方法はクリックベイトのタイトルには機能しません。

実装原理のデコード

デコードの理想的な状態は、翻訳の理想的な状態に似ています。

1. 「信仰」: 意味は正しく、誤解されてはいけません。

2. 「だ」：言葉遣いは適切でなければなりません。意味は同じでも、言葉遣いが異なれば、語調は大きく異なります。

3. 「エレガント」：文章は流暢でなければなりません。

デコーダーの実装原理は、単語ベクトルの原理と似ています。言語モデルに依存して、前のテキストに基づいて次の単語を予測します。語彙の中で次の単語になる可能性が最も高い単語はどれでしょうか?

語彙内のすべての単語の出現確率を推定することは、多くの場合、計算量が多いことを忘れないでください。

翻訳は基本的に各単語を一対一で翻訳するものなので、機械翻訳では「忠実」な状態を実現するのは比較的簡単です。

テキスト要約の場合、「信頼性」を確保するのはさらに困難です。重要なポイントを抽出するにはどうすればいいですか?人間が要約を作成する場合、要点は抽出しても証拠は抽出しないことが多く、物語の結末は抽出しても物語の過程は抽出しないことが多い。

コンピューターはどのようにして議論と証拠、結果とプロセスを区別できるのでしょうか?これは研究する必要がある難しい問題です。

したがって、機械翻訳の場合、かなり正確な翻訳を実現するために、デコーダー入力には元のテキスト内の単語ベクトルと意味ベクトルのみが必要です。

ただし、テキスト要約には、単語ベクトルと意味ベクトルに加えて、品詞タグ付け、フレーズ認識、TF-IDFも必要です。情報が豊富であればあるほど、要約は簡潔になります。

単純かつ強力な方法は、元のテキストの各段落の最初の 1 文または 2 文を抽出することです。2 つの段落の最初の文の意味が同じ場合は、そのうちの 1 つを無視します。

機械翻訳が「到達」レベルに到達するのは非常に困難です。すべての言語には同義語がありますが、同義語間の語調の違いを定義するのは難しいことがよくあります。

テキストの要約の場合、「表現」するのは比較的簡単です。単純で大雑把ですが効果的な方法は、元のテキストから単語を直接引用することです。

原文を引用することのもう一つの利点は、計算量が大幅に削減されることです。より学術的に言えば、これはLVT（Large Vocabulary Tricks）と呼ばれます[6]。

問題は、元のテキストに多くの単語があり、次の単語がどの単語を指すのかということです。

解決策は、まず言語モデルを使用して、現在の単語ベクトルと意味ベクトルに基づいて次の単語の単語ベクトルを予測することです。次に、元のテキストに戻って、最も適切な単語を探します。

この問題を見つけるために使用される方法は、Attention [1]と呼ばれます。

その考え方は、元のテキスト内の各単語の意味、文法上の品詞、フレーズのタグ付け、TF-IDF 統計、コンテキストの意味など、できるだけ多くの情報に基づいて、元のテキスト内の各単語と次の単語の単語ベクトルとの関連性を評価することです。

しかし、Attention メソッドでは計算量も膨大になります。 [2]は、まず各文の関連性を評価し、関連する文を見つけた後に文中の各単語の関連性を評価することで計算量を削減する方法を提案した。

「エレガント」の領域を達成するには、機械翻訳であれテキスト要約であれ、次の単語の選択を行う必要があり、その単語が前の語彙と流暢に連係している必要があります。

テキスト要約の場合、元のテキストから次の単語を完全に選択することはできません。実装には 2 つの要素があります。

1. 事前にトレーニングコーパスから要約の語彙を構築します。

2. 語彙から単語を選択するか、元の語彙から単語を抽出するかを決定するスイッチ関数を実装します。

スイッチ関数は、前の単語、次の単語の予測単語ベクトル、および Attention によって検出された元のテキスト内の最も適切な単語の 3 つの入力を持つシグモイド関数を使用できます。

今後解決すべき課題

言語モデルの計算量をさらに削減し、原文中の各文や単語の重要性を特定することに加え、外部の知識をどのように引用するかが今後の最大の課題となるかもしれません。

人間が読むときには、辞書や参考文献を調べる必要があることがよくあります。

外部知識を引用する目的は、読者の既存の知識構造を拡張し、既存の知識構造と記事の内容とのギャップを解消することです。

読んだ後、既存の知識構造をさらに拡張します。これは、人間が読書を通じて継続的に知識を学習するプロセスです。

知識構造を表現する方法は数多くあり、「一枚の写真は千の言葉に値する」と言われています。自然言語は、最も効率的な表現方法ではないようです。

ナレッジグラフはノードとエッジで構成されます。ノードは概念を表し、エッジは概念間の関係を表します。

たとえば、「発熱」と「炎症」は 2 つの概念であり、ナレッジグラフでは 2 つのポイントで表現されます。「炎症」は「発熱」につながり、これはナレッジグラフ内の有向エッジによって表現されます。

記事を読むときに、記事に出てくる概念が既存のナレッジグラフに出てこなければ、読むのが難しくなります。これが知識ギャップです。

知識のギャップを解消する方法は、辞書や参考文献を調べ、記事に出てくる新しい概念が既存の知識グラフに関連付けられるまで読書を広げることです。

記事をナレッジグラフに変換するにはどうすればいいですか?機械翻訳とテキスト要約の動作原理に従って、記事を自然言語からナレッジグラフに変換することもできます。

言い換えれば、機械による読み取りは、実際には自然なテキストの構造化です。

参考文献

[1] アラインメントと翻訳を共同学習するニューラル機械翻訳

https://arxiv.org/abs/1409.0473

[2] シーケンスツーシーケンスRNNを使用した抽象的なテキスト要約とそれ以降

https://arxiv.org/abs/1602.06023

[3] 単語と句の分散表現とその構成性

https://arxiv.org/abs/1310.4546

[4] LSTMネットワークの理解

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] オートエンコーダのチュートリアル

http://ufldl.stanford.edu/tutorial/unsupervised/オートエンコーダー/

[6] ニューラル機械翻訳における非常に大きなターゲット語彙の使用について

https://arxiv.org/abs/1412.2007

<<: 自然言語処理のためのディープラーニングの概要: 基本概念から最先端の研究まで

>>: 機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか？

ブログ

GPT-4の5倍の性能を持つGoogle Geminiは、本当にOpenAIやMicrosoftに勝てるのでしょうか？

ディープラーニングにおける次の大きな進歩は機械読み取りでしょうか?

GPT-4の5倍の性能を持つGoogle Geminiは、本当にOpenAIやMicrosoftに勝てるのでしょうか？

MITはロボットの構造を自動設計できるコンピュータシステムを発明し、25年で最高の成果を達成した。

子どもたちにこうした能力を育ててこそ、30年後の人工知能の時代に足場を築くことができるのです。

指紋認証は本当に安全ですか？答えはそうではないかもしれない

CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

将来、人間は「第3の脳」を持ち、5Gはあらゆるものを高速化する

推薦する

100日学習プラン | データサイエンスの詳細ガイド

UiPath、2021.10 プラットフォームリリースでクラス最高の UI と API 自動化を統合し、エンタープライズスケーラビリティを強化

複合現実技術による医療シナリオ、Weizhuo Zhiyuan は 3D シーンを使用して病変を正確に特定します

AI に「大きな力と小さな心」を与える - ユニバーサル CNN アクセラレーション設計

中国の人工知能特許ランキングで、百度、テンセント、マイクロソフト、インスパーが上位4社にランクイン

プライバシーコンピューティングのためのハードウェアソリューション:「Trusted Execution Environment TEE」は、データセキュリティとプライバシー保護の両方を考慮します。

持続可能なワークスペースを実現する方法とその重要性

RLHF の欠陥が完全に明らかに！ MIT、ハーバード大学、その他32名の学者が共同で発表

国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。