機械学習では自然言語理解を解決できない

経験とデータに基づく革命

統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代に最高潮に達しました。ニューラルネットワークは、現代のディープラーニング (DL) として華々しく復活し、AI のすべてのサブフィールドを席巻しました。ディープラーニングの最も議論の多い応用は自然言語処理 (NLP) ですが、それでも経験的な変化をもたらします。

NLP におけるデータ駆動型経験的手法の普及には、次のような理由があります。記号的および論理的手法ではスケーラブルな NLP システムを作成できなかったため、NLP におけるいわゆる経験的手法 (EMNLP、データ駆動型、コーパスベースのフレーズ、統計的、機械学習手法を指す) が普及しました。

経験主義へのこの転換の動機は単純です。言語がどのように機能し、それが私たちが口頭で話す内容とどのように関係しているかを深く理解するまでは、経験的かつデータ駆動型のアプローチが実用的なテキスト処理アプリケーションの構築に役立つ可能性があります。

EMNLP の先駆者の 1 人である Kenneth Church 氏が説明したように、NLP に対するデータ駆動型および統計的アプローチの支持者が単純な言語タスクの解決に興味を持つ動機は、言語がこのように機能することを示唆することではなく、「単純なことを実行することは何もしないよりはましだ」ということだった。

チャーチ氏は、この「おそらくほぼ正しい」(PAC) パラダイムが完全に自然な言語理解にまで及ぶと想定していたため、この変化の動機は大きく誤解されていたと主張しています。

「新しい世代の NLP 研究者は、言語学と NLP について異なる理解を持っており、その結果、この誤った傾向が、膨大な計算能力を必要とし、大量のデータを記憶することで自然言語に近似しようとする「大規模言語モデル」(LLM) を使用して NLP システムを構築することにこだわるという残念な状況につながっています。

それはほとんど無駄な試みだった。私たちは、この疑似科学的なアプローチは時間と資源を無駄にするだけでなく、新しい世代の若い科学者を誘惑して、言語は単なるデータであると考えさせてしまうと考えています。さらに悪いことに、このアプローチは自然言語理解 (NLU) の真の進歩を妨げることになります。

代わりに、NLU へのアプローチを再考する時期が来ています。なぜなら、NLU に対する「ビッグデータ」アプローチは、心理的、認知的、さらには計算的に扱いにくいだけでなく、この盲目的なデータ駆動型の NLU アプローチには理論的にも技術的にも欠陥があると私たちは確信しているからです。

言語処理と言語理解

NLP (自然言語処理) と NLU (自然言語理解) はよく同じ意味で使用されますが、両者の間には大きな違いがあります。実際、それらの技術的な違いを認識することで、機械学習に対するデータ駆動型のアプローチを評価できるようになります。機械学習は特定の NLP タスクに適しているかもしれませんが、NLU とはほとんど関係がありません。

最も一般的な「ダウンストリーム NLP」タスクを考えてみましょう。

概要--トピック抽出--固有表現抽出 (NER)--(セマンティック)検索--自動タグ付け--クラスタリング

上記のすべてのタスクは、すべての機械学習手法の基礎となる「おそらくほぼ正しい (PAC)」パラダイムに適合します。具体的には、上記のタスクにおける一部の NLP システムの出力を評価することは主観的であり、あるシステムによって抽出されたトピックが他のシステムよりも優れているかどうかを判断する客観的な基準は存在しません。

しかし、言語理解にはいかなる程度の誤りも許されず、話者が伝えようとしている発話や質問、つまり単一の考えを完全に理解することが求められます。

たとえば、次の文の場合、自然言語理解では複数の可能性を考慮する必要があります。冷戦中に東ヨーロッパの国に駐在していた引退した BBC 記者がいるでしょうか?

一部のデータベースでは、上記のクエリに対する正しい回答が 1 つしかありません。したがって、上記を正式な SQL クエリに変換することは、間違いが許されないため、非常に困難です。

この質問の背後にある「正確な」考え方は次のとおりです。

「引退した BBC ジャーナリスト」、つまり、現在引退している BBC 勤務のジャーナリスト全員について正しく説明してください。
上記は、ある「東ヨーロッパの国」で働いていた「引退した BBC ジャーナリスト」を雇用し続けることでさらにフィルタリングされます。
地理的な制限に加えて、時間的な制限もあり、つまり、これらの「引退した BBC ジャーナリスト」は「冷戦」中に働いていた必要がある。
上記は、前置詞句が「東ヨーロッパの国」ではなく「冷戦中」になることを意味します（「冷戦中」を「ワルシャワの加盟国として」に置き換えた場合、別の前置詞句が考慮されるでしょう）。
量的な範囲を正しく設定してください。私たちが探しているのは「一部の」東ヨーロッパ諸国で活動しているジャーナリストではなく、「あらゆる」東ヨーロッパ諸国で活動している「あらゆる」ジャーナリストです。

上記の難しい意味理解機能はどれも、「おおよそ」または「おそらく」正しいということはあり得ず、絶対的に正しくなければなりません。言い換えれば、上記の質問の複数の可能な解釈から単一の意味を導き出さなければなりません。

つまり、通常の話し言葉の真の理解は、単なるテキスト（または言語）処理とはまったく異なる問題です。テキスト（または言語）処理では、ほぼ正しい結果を受け入れることができます。

この時点で、NLP が NLU と異なる理由と、NLU が機械にとって難しい理由を明確に理解できるはずです。しかし、NLU の困難の根本的な原因は一体何なのでしょうか?

NLUが難しい理由：テキストが失われやすい

1 つ目は「テキスト欠落現象」（MTP）であり、これが自然言語理解におけるすべての課題の根底にあると私たちは考えています。言語によるコミュニケーションは、次のように説明できます。話し手は思考を何らかの自然言語で発話に「エンコード」し、聞き手はその発話を話し手が意図した/伝えたいと願っている思考に「デコード」します。「デコード」プロセスは、NLU の「U」、つまり発話の背後にある考えを理解することです。

[[418110]]

話し手と聞き手の間の考えと言語の伝達

さらに、話者の言葉から意図された意味のみを見つけるためには、「デコード」プロセスがエラーフリーである必要があります。これがまさに NLU を難しくしている原因です。

この複雑なコミュニケーションでは、コミュニケーションを最適化するためのソリューションが 2 つあります。

話し手は思考をエンコードする際に送信される情報の量を圧縮（および最小限に抑える）することができ、聞き手は発話をデコード（解凍）するために追加の作業を行うことができます。

話し手はより多くの作業を行い、聞き手に伝えたいアイデアや情報をすべて伝えるため、聞き手の作業負荷が軽減されます。

この最適化により、話者のエンコードされた情報が削減されるだけでなく、聞き手が利用できる情報も省略されますが、会話の背景情報は失われません。

例として、以下の黄色のボックス内の最適化されていないテキストと、緑色のボックス内の最適化された（同等だがはるかに小さい）テキストを比較します。

緑色のボックス内の短いメッセージ（通常の言い方）は、長いボックスと同じ考えを伝えます。通常、他のことはみんな知っているので詳しく説明しません。人類がこの技術を進化させるのに約20万年かかりました。

しかし、それが NLU の問題です。機械は私たちが何を見逃しているかを知らず、私たち全員が知っていることも知りません。

結局のところ、NLU は非常に難しく、ソフトウェアプログラムは、何らかの方法で言葉の意味をすべて「整理」できなければ、言葉の背後にある考えを完全に理解することは決してできません。

NLU の課題は、解析、ブロック、POS タグ付け、固有表現の認識などではなく、不足している情報を説明または明らかにすることです。そして暗黙的に、共有された共通の背景知識を前提としています。

このような背景から、機械学習とデータ駆動型アプローチでは自然言語理解のソリューションが提供されない理由を 3 つ挙げます。

ML手法はNLUとは関係ありません。MLは圧縮であり、言語理解には解凍が必要です。

上記の議論は、私たちが日常的に話す言語が高度に圧縮されており、そのため「理解」の課題は圧縮されていない（または発見された）欠落テキストにあるため、機械による自然言語理解は MTP（メディア転送プロトコル）によって困難になるという説得力のある議論である（と期待しています）。

機械が言語を理解するのは困難です。なぜなら、機械は私たち全員が知っていることを知らないからです。しかし、MTP 現象は、データ駆動型および機械学習のアプローチが、特定の NLP タスクでは役立つ可能性があるものの、NLU には関連がない理由そのものです。ここでこの証拠を示します:

機械学習の可能性 (ML) と圧縮可能性 (COMP) の同等性は数学的に確立されています。つまり、データセットからの学習は、データが高度に圧縮可能である場合（圧縮されていないデータには多くの冗長性がある）のみ可能であり、その逆も同様であることが確立されています。

圧縮性と学習可能性の間の証明は技術的には非常に複雑ですが、理解するのは簡単です。学習とは、大量のデータを消化し、データセット全体（および同じパターン/分布を持つ未知のデータ）を「カバーする」多次元空間内の関数を見つけることです。したがって、すべてのデータポイントを圧縮できる場合に学習可能性が発生します。しかし、MTP によれば、NLU は減圧に関するものであるとされています。したがって、次のことを整理しました。

機械学習とは、大量のデータを単一の関数に一般化する関数を見つけることです。一方、MTP により、自然言語理解には、欠落しているテキストや暗黙的に想定されるテキストをすべて検出できるインテリジェントな「非圧縮」技術が必要になります。したがって、機械学習と言語理解は互換性がなく、実際には矛盾しています。

ML手法はNLUには関係ありません。統計的に有意ではありません。

ML は本質的に、データ内のいくつかのパターン (相関関係) を見つけることに基づくパラダイムです。したがって、このパラダイムの目的は、自然言語に見られるさまざまな現象を捉えながら、それらの現象における統計的に有意な違いを見つけることです。ただし、以下の点にご留意ください。

トロフィーはスーツケースに収まりきらない。

1a. 小さい

1b. 大きい

「small」と「large」（または「open」と「closed」など）のような反意語/反意語は、同じコンテキストに同じ確率で出現することに注意してください。したがって、(small) と (large) は統計的には同等ですが、4 歳児にとっても (small) と (large) は大きく異なります。(small) の「it」は「スーツケース」を意味しますが、(large) の「it」は「トロフィー」を意味します。基本的に、単純な言語では、(1 a )と(1 b )は統計的には同等ですが、意味的には同等とは程遠いです。したがって、統計分析ではセマンティクスをモデル化（または近似化）することはできません。それだけです。

十分な例があれば、システムは統計的有意性を確立できると主張する人もいるでしょう。しかし、(1)のような構造内の参照を解決する方法を「学習」するには、いくつの例が必要ですか?

機械学習/データ駆動型アプローチでは、型階層は存在せず、「バッグ」、「スーツケース」、「ブリーフケース」などについて一般的な記述を行うことができます。これらはすべて、汎用型「コンテナ」のサブタイプと見なされます。したがって、純粋にデータ駆動型のパラダイムでは、上記の各パターンは別個であり、データ内で個別に「確認」される必要があります。

上記のパターンの小さな文法上の差異をすべて意味上の差異（「because」を「although」に変更すると、「it」の正しい参照も変更されるなど）に追加すると、大まかな計算で、機械学習/データ駆動型システムが文中の参照を解決する方法を学習するには、上記の 40,000,000 通りのバリエーションを確認する必要があることがわかります。どちらかといえば、これは計算上あり得ないことです。 Fodor 氏と Pylyshyn 氏はかつて、有名な認知科学者 George Miller 氏の言葉を引用しました。NLU システムに必要なすべての構文的および意味的バリエーションを捉えるためには、ニューラルネットワークには宇宙の原子の数よりも多くの機能が必要になる可能性があります。ここでの教訓は、統計では意味を捉えることはできない (近似値を得ることすらできない) ということです。

ML手法はNLUとは関係ありません: 意図

論理学者は長い間意味概念を研究し、意味三角形を使って「意図」とは何かを説明しようとしてきました。

シンボルは概念を参照するために使用されます。概念にはインスタンスとして実際のオブジェクトが存在する場合もありますが、インスタンスがない概念もあります。たとえば、神話上のユニコーンは単なる概念であり、ユニコーンの実際のインスタンスは存在しません。同様に、「キャンセルされた旅行」は、実際には発生しなかったイベント、または存在しなかったイベントなどを指します。

したがって、あらゆる「もの」（または認識のあらゆる対象）には、シンボル、シンボルが参照する概念、および概念の具体的なインスタンスという 3 つの部分があります。「ユニコーン」という概念には「実際の」事例がないので、私は時々そう言います。概念自体は、そのすべての潜在的なインスタンスの理想化されたテンプレートです（したがって、プラトンの理想化された形式に近いです）

概念 (通常は何らかのシンボル/ラベルで参照されます) は、一連のプロパティと属性、および場合によっては追加の公理や確立された事実などによって定義されます。しかし、概念は実際の（不完全な）事例と同じではありません。これは数学の世界でも同様です。たとえば、次の算術式はすべて展開は同じですが、音調が異なります。

意味合いによって拡張が決まりますが、拡張自体では概念を完全に表現することはできません。上記のオブジェクトは 1 つのプロパティのみが等しく、他の多くのプロパティでは値が異なります。言語では、等価性と同一性を混同してはならず、一部のプロパティ値が等しいオブジェクトは同一であるとは見なされません。

したがって、すべての式は同じ結果となり、ある意味では等しいのですが、これは式の特性の 1 つにすぎません。実際、上記の式には、文法構造、演算子の数、演算の数など、他のいくつかの特性があります。値 (1 つのプロパティのみ) は拡張と呼ばれ、すべてのプロパティのセットは含意と呼ばれます。応用科学（工学、経済学など）では、特性においてのみ両者は同等であると安全に考えることができますが、認知（特に言語理解）においては、この同等性は成り立ちません。簡単な例を示します。

(1)が真実であると仮定します。つまり、(1)が実際に起こり、私たちがそれを見た/目撃したと仮定します。しかし、これは、(1)の「1b」をそれに等しいと仮定する値に置き換えただけであるにもかかわらず、(2)が真であると仮定できることを意味するものではありません。それで何が起こったのですか?

真のステートメント内のオブジェクトを、それと等しいと考えられるオブジェクトに置き換え、真実であるものからそれが真実ではないと推論します。物理科学では、プロパティをそれに等しいオブジェクトに簡単に置き換えることができますが、これは認知的には機能しません。言語にもっと関連している可能性のある別の例を次に示します。

「アレクサンダー大王の師」をそれに相当するアリストテレスに置き換えると（2）となり、これは明らかに不合理です。同様に、「アレクサンダー大王の師」と「アリストテレス」はある意味では等しい（どちらも指示対象として同じ値を持つ）が、これら 2 つの思考対象は他の多くの特性が異なります。では、「含意」についてのこの議論のポイントは何でしょうか?

自然言語は含意的な現象に満ちています。それは、言語には無視できない含意があるからです。しかし、機械学習/データ駆動型アプローチのすべてのバリエーションは純粋に拡張されたものであり、オブジェクトの記号的および構造的特性ではなく数値的 (ベクトル/時制) 表現で動作するため、このパラダイム内では自然言語で持つことができる意味合いの種類をモデル化することはできません。ちなみに、ニューラルネットワークは純粋に拡張されているため、意味合いを表すことができません。これが、ニューラルネットワークが常に敵対的攻撃に対して脆弱である本当の理由ですが、この問題はこの記事の範囲外です。

結論

この記事では、機械学習とデータ駆動型のアプローチが NLU には関係ない (ただし、これらのアプローチは、本質的に圧縮タスクである特定のテキスト処理タスクには使用できます) 3 つの理由について説明します。上記の 3 つの理由は、自然言語理解の誇張されたデジタルエンジニアリングを終わらせるのに十分です。

人間が自分の考えを伝えるとき、実際には高度に圧縮された言語表現を伝えており、脳は、欠けているが暗黙的に想定されている背景情報をすべて解釈し、「明らかにする」必要があります。

言語は思考を運ぶ人工物であるため、ますます大規模な言語モデルを構築する上で、機械学習とデータ駆動型のアプローチは、データ内に存在しない何かを見つけようと無駄な試みで無限を追い求めています。

日常の話し言葉は単なる言語データ以上のものであることを認識しなければなりません。

出典: 機械学習では自然言語理解は解決できない (thegradient.pub)

<<: 765,000台の車両が関与！テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

>>: AIの民主化：ローコードおよびノーコードソリューションの台頭