自然言語理解 (NLU) は難しい問題です。数十年前の AI の誕生から現在に至るまで、言語理解は常に AI にとって乗り越えられないハードルでした。一方では、言語は、原始人の洞窟に描かれた一見象形文字のように、現実世界に頻繁に現れるあらゆるものを結び付け、私たちが知覚する客観的な世界を象徴するものです。 一方、言語は人間の思考を伝える手段です。それは、論理、原因と結果、物事の仕組みを記述する、自然に発生するコンピュータ プログラムのようなものです。 人間が誇る認知能力はすべて言語を通じて行われます。 この能力には、世界についての概念化、構造化、予測、推論などのさまざまな能力の合計が含まれており、知覚能力に関連しており、通常は、互いに接続された記号による特定のグラフ構造で表現されます。この観点から見ると、自然言語を理解するということは、実際には、言葉の背後にある現実世界の概念と、記号の間に隠された人間の認知的思考プロセスを学ぶことです。 自然言語を完全に理解するモデルを構築するには、次の 2 つのことを行う必要があります。1. 各単語の背後にある知覚概念を知る必要があります(マルチモーダル知覚と同様に、「猫」のシンボルをその背後にある視覚概念と一致させます)。2.自然言語の背後にある人間の認知能力を真に習得する必要があります。まずは後者に焦点を当てましょう。 客観的な世界を一度も見たことがない人が、純粋なテキストの空間を飛翔すると仮定します。その人は、言語の背後にある人間の認識のすべてを学ぶことができるでしょうか?サイバースペースのどこにでも覗き見ることができる、無限のメモリを備えたクローラーを想像してみてください。繰り返し覗き見してテキスト間のつながりを熟考し、人々が世界についてどう考えているかを理解することができます。最終的には、文章を言った後に次に何を言いたいのかを完璧に推測できるようになるかもしれません。これが、現在の自然言語生成モデル (GPT など) が行っていることです。これは人間の認知能力を備えているのでしょうか?論理は人間の認知の中で最も象徴的な思考方法なので、まずは認知と論理を同一視し、このような自然言語モデルが論理的認知を捉えられるかどうかを考えてみましょう。 この問題は、Zhihu の Zhen Jingxian 氏の記事にある BERT のロジックに基づいて解決できます。 人間の文章を自由に覗き見して予測できるクローラーにはどのような機能があるのでしょうか? 自然言語空間に存在するこのクローラーは、コンテキストに基づいて質問に答えているように見えますが、本質的には、記事の背後に反映された事実を解釈して再構築するプロセスです。この点で、記号とシンボルで構成される構造としての言語は、本質的に概念マップに対応しており、概念マップは現実世界の物理的プロセスや社会的出来事に対応しています。 単語が言語の単位とみなされる場合、単語は名前の付いた概念に過ぎず(ただし、1対1のマッピングではなく、単語は多義的である可能性があります)、文は複数の概念で構成されるイベント グラフになります。通常、文章は特定の文法に従います。文法の本質は、概念が通常どのように結び付けられるかです。たとえば、主語-述語-目的語の形式は、トリプル(主語がオブジェクトに対してアクションを実行する、たとえば Xiao Ming がリンゴを食べる)に対応し、2 つのノードがエッジで接続されている場合です。 自然な段落とは、複数の三つ組が次々に現れるプロセスです。これらの三つ組によって記述されるイベントは、実際のプロセスを構成します。これらのイベントは単に積み重ねられているのではなく、神の針と糸によって正確に接続されています。それが論理です。 論理の本質は構造化された思考プロセスです。古代ギリシャの論理の原型であるロゴスは言語です。論理と因果関係は密接に関係しています。両者はほぼ同じだと考える人もいます。両者の違いは、因果関係は真正性を重視し、現実世界の論理の一種であるということだと思います。思考と記号の世界では、論理は自己矛盾を生じない構造を持っている限り有効です。したがって、その範囲はより広いです。論理が現実世界と一致するのは、その構造が自然創造の特定の法則に準拠しているからに他なりません (世界がさまざまな基本的な力で構成された巨大なネットワークであると想像してください)。 論理的演繹のプロセスは、一般的に帰納、演繹、帰納に分けられます。これら 3 つは、接続構造の生成と、この構造に基づく進化を担っています。帰納法は特定のケースから一般的なつながりを構築します。一方、演繹は、既存の命題と既知の構造に基づいて新しい命題を導き出します。これらの推論の手順を繰り返し適用すると、非常に離れた事実を単純なルールで結び付けることができます。 この観点から見ると、自然言語世界のこのクローラーは、少なくとも 2 つのことを習得しています。1. 文法の構築と 2. 物事とイベント間の論理的なつながりです。言語生成の本質は、ある文から次の文を生成するプロセスです。これは、言語の背後にある概念(イベントグラフ構造)の相互作用と、論理的演繹に相当する新しいノードとエッジを生成するプロセスを反映しています。自然言語を生成するための完璧なモデルは、ある程度このロジックを備えています。 私たちが文章を言うとき、その文章の背後にある論理的思考プロセスに意識的または無意識的に反応しています。たとえば、「動物は死んで地中深くに埋められます。死体は分解され、骨は保存されます。」一連の出来事に直面して、前の文のほとんどすべてが次の文の原因であり、次の文は前の文の結果です。このような因果関係の論理がなければ、理解不能でしょう。 しかし、コンピュータ プログラムと比較すると、自然言語の背後にあるロジックを理解して習得するのは実際にはより困難です。なぜなら、この論理には 2 つの欠点があるからです。1 つは、中間にある大量の構造化された情報が省略されることが多いことです (ソクラテス (人間である以上、すべての人は死ぬ) のように)。これは、私たちがよく常識と呼ぶものです。2 つ目は、その構造が必ずしも厳密な数学的論理ではないことです。 たとえば、「妻は上司が賢くないと思って転職したがっている。私は妻のことを心配している。」これは、基本的なルールに従って、ある出来事を別の出来事に推論するプロセスを反映しています。上司は賢くない - (上司が賢くなければ、会社に将来はない。会社に将来がなければ、従業員に将来はない) - 妻 (従業員) が転職する - (妻が転職すると、人生に不確実性が生じる) - 私は妻のことを心配している。これは典型的な演繹プロセスですが、一般的に受け入れられている常識の多くが隠されています。言語で明らかにされているのは一部の命題のみで、その背後にある推論構造のほとんどは隠されています。これが自然言語が理解しにくい理由です。説明するには、断片から遡り続け、記憶の中に隠された情報を探す必要があります。 同時に、私たちは通常、一部の人々は非論理的に話し、一部の人々は論理的に話すと言います。これは、言語自体が正確な公理論理学ではなく、各人の背後にある公理体系がまったく同じではないことを反映しています(同じ時代と文化の人々はほとんど同じであるはずですが)。これは、数学的論理に対する私たちの狭い理解との違いであり、非公理的なファジー論理に近いものです。 したがって、テキスト内の空白を継続的に予測して埋めることができるこの自然言語クローラーは単純ではありません。テキストの背後にある隠れた構造を発見するだけでなく、このあいまいな論理に対処するために、テキストで明らかにされたエンティティを脳内の常識構造と常に結び付ける必要があります。まず前者についてお話ししましょう。これには、エンティティ検出 (エンティティの概念抽出)、構造選択 (構造の選択とマッチング)、変数バインディング (エンティティを構造にバインディング) という 3 つの基本操作が含まれます。 エンティティ検出は、文法に基づいて言語から主語、述語、目的語などの基本構造を取得し、言葉の背後に実際に表現されている概念を発見します(ソクラテスは死ぬという古典的な三段論法を例にとると、最初に発見されるのはソクラテスが人間であるということです)。変数結合は、名詞をその背後にある存在論的構造(人間は死すべき動物である)に結合し、演繹的推論(ソクラテスは人間であるため、死すべき動物である)に入ることができます。これにより理解が完了し、もちろん、いくつかの新しい命題にも関連付けられます(たとえば、ソクラテスは食べること、水を飲むこと、7 つの感情と 6 つの欲求を持っていることなど)。 これにより、次のモデルが存在するかどうかを完全に予測できますか?答えは「ノー」ですが、私たちは確かに答えに近づいており、大きな一歩を踏み出しました。そして、この大きな一歩とはトランスフォーマーです。これまでの分析の観点からトランスフォーマー モデルの構造を見ると、確かに自然言語を理解するように設計されていることがわかります。こういった機能のために自己注意力が生まれたようです。文が入力されると、まず単語トークンのセットに分割され、次に Q、K、V がポインターのように機能してこれらの単語エンティティをその背後にある概念にマッピングし、エンティティ認識と概念の結合を実現します。 次に、蓄積と乗算の形式を通じて、テキスト内の概念の完全接続グラフが実現され、すべての可能な命題構造(主語、述語、および目的語)が表され、最終的に新しい可能な命題構造のセットが得られます。その後の完全接続レイヤー(命題構造の辞書に似ています)を通じて、新しい命題(文)が得られます。 レイヤーの数を増やすことで、トランスフォーマーを組み合わせて、単純なロジックから複雑なロジックまでのネストされた構造を取得し、フルテキスト レベルでの推論を実現できます。 あなたに必要なのは注目だけ Transformer フィードフォワード層はキーバリューメモリです あなたに必要なのは注目だけ GPT-3 はテキスト生成においてますます現実的になってきていますが、厳密な大人の言語ではなく、子供の言葉のように聞こえることもあります。この重大なギャップは何でしょうか?先ほど述べたように、純粋な人間のコーパスは、多くの場合、一種のファジー論理であり、多くの情報が欠如しており、推論は厳密ではありません。人間の認知能力をさらに習得するためには、単なる言語確率モデル化ではなく、この厳格な常識的論理を回復する必要があります。 実際、AI システムは、古典的なグラフ アルゴリズムから GNN などのディープラーニング アルゴリズムまで、常識的なロジックに基づいてすでに動作しています。最初はルールに頼って質問に答えるところから、GNN を使用してナレッジ グラフ上のルールを学習するところまで。 AI の初期の段階から、人々の目標は一般的な問題解決論理システムを作成することであり、それが現在 AGI と呼ばれています。 最も一般的な問題を解決できなかったため、この分野の取り組みはすぐに専門分野のエキスパート システムになりました。専門知識を記号で記述し、ナレッジグラフに似たトリプル形式で保存し、特定の条件に基づいて推論を実行します。それらの弱点は、習得が難しく、柔軟性が低く、メンテナンスコストが高いこと、そして先ほど説明したように、厳密な数学的公理論理学ではなく、ファジー論理が使用されることです。もちろん、これらの機能と互換性のある代替の取り組みもいくつかあります。例えば、王培教授のNARSシステム。これは、学習および進化が可能で、一般的な命題推論を実行できる非公理的論理マシンです。 そして、出来事認知、目標行動認知、感情的自己認知など、人間の脳認知のさまざまな特性をシミュレートすることで、推論に基づいた行動制御を実現します。 NARS システムの特徴は、自然言語のあらゆる文が主語、述語、目的語の命題構造として理解され、証拠として要約されて公理系に新しいエッジを追加したり、既存のエッジを更新したりすることです。たとえば、ペンギンが泳げる場合、南極のペンギンは泳げると自動的に推論しますが、鳥も泳げると推論しますが、前者の信頼度は高く、後者の信頼度は低くなります。したがって、自然言語から証拠を受け取った後、帰納法、演繹法、およびアブダクション法を同時に使用して新しい命題を形成します。これは、人間の類推と連想の能力に多少似ています。 この作業からどのように学び、NLU 自然言語理解を強化するかを見てみましょう。 (1)NLPと常識グラフの組み合わせ BERT や GPT などの大規模な事前トレーニング済み自然言語モデルには、文法や、言語に含まれる概念と概念間の関係など、多くの言語構造情報がすでに含まれていることがわかっています。純粋な自然言語には暗黙の常識が多く含まれているため、ナレッジグラフなどの何らかの方法でそれを補足することを当然考えます。これは、私たちの脳が長期記憶にある概念的常識を使って言語やテキストを解釈し、それによってテキストの概念を記憶内のモデルと一致させて理解を達成するのとまったく同じです。知識グラフを通じて言語とテキストの情報を増やすことは、NLUの重要な方向性となっています。このプロセスでは、各単語が選択されて読み取られ、それに関連する概念的な常識も同時に拡張されます。最もシンプルで直接的な方法は、もちろん、KGをK-Bertなどの自然言語モデルと直接統合することです。 K-BERT: ナレッジグラフによる言語表現の実現 一部には、融合埋め込みの追加が必要です。ナレッジ グラフの内容は、暗黙的なエンコーディングを形成するように事前にトレーニングされ、その後、自然言語モデルのテキスト デコーダーに入ります。これらのナレッジ グラフ内の知識は、プラグインのように読み込んで読み取ることができます。 KG-BART: 生成的常識推論のための知識グラフ拡張 BART いくつかはより徹底的に統合されており、テキストのエンコードと画像のエンコードを別々に実行してから統合することで、言語シーケンスを常にその背後にある概念ネットワークに関連付けることができます。 多段階トレーニングによる知識認識型手続き型テキスト理解 (2)自然言語処理と論理ルールの組み合わせ では、ルールに加えて、帰納法、演繹法、およびアブダクション法という実際の論理法則が NLP 記事の理解に役立つのでしょうか?もちろん。多くのタスク指向の対話システムがこの例です。 まず、意図認識を使用して、人間の言語の背後にある本当の理由を見つけます。次に、ビリーフ トラッカーを使用して、会話におけるユーザーの可能性のある状態を継続的に検索し、実行する必要がある介入を選択します。最後に、生成ネットワークを使用してこの介入を自然言語に変換し、ユーザーと対話して顧客が目標を達成できるように導きます。これにより、論理構造を自然言語生成に柔軟に組み込むことができます。 最後にまとめます。 NLP による問題理解の本質は、(1) 概念的な位置付け、(2) 論理的な内部構造への合理的な浸透、(3) この構造によってテキストに現れるすべての単語を最も一貫した方法で説明できるようにすることです。 NLP生成問題の本質は、(1)概念の位置付け、(2)合理的な論理規則と構造の選択、(3)新しい論理ステートメントを生成するための推論、(4)表現言語形式への翻訳です。 両方に必要な構造は実際には似ており、優れた生成モデルには優れた理解力も備わっている必要があります。 もちろん、これらの観点はまだ出発点に過ぎません。自然言語モデルの柔軟性が従来の論理体系を補完し、論理体系の厳密さと常識の安定性が自然言語モデルを制御するという、両者を真に統合する方法は、極めて広範囲にわたる意義を持つ道です。 |
<<: 企業には自動化の取り組みを監督する最高ロボット責任者が必要ですか?
>>: Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離
[[263482]]老舗の文系大学が人工知能人材育成分野への参入を正式に発表した。 「中国人民大学...
1. はじめにこの論文では、新しい MAGIC (iMAge-guided text Generat...
DevOps チームがプロセスの自動化を計画している場合は、ビジネス プロセス管理 (BPM) エン...
2020年5月、GPT-3はGPT-2のリリースから1年後に正式にリリースされました。GPT-2も...
[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...
大型モデルはどんどん「人間らしく」なってきていますが、本当にそうなのでしょうか?現在、Nature ...
人工知能は、日常的なタスクを自動化することで生産性を向上させる機会を提供します。この記事では、人工知...
[[431746]]自動車業界は、新しい技術の最前線に立つことが多いです。業界では数十年にわたって組...
情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...
「タイムレイダース」を覚えていますか? 1つは1999年、もう1つは2018年のもので、わずか19年...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
12月5日、国務院の承認を得て、科学技術部と河南省政府の共催により、12月6日から8日まで河南省鄭州...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...