ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

昨年のChatGPTのリリース以来、業界内外で大規模言語モデルへの熱狂が巻き起こり、Googleの社員の中には、社内の言語モデルが意識的になったと主張する人もいたほどだ。

最近、ニューヨーク大学教授であり、Meta の主任 AI 科学者でチューリング賞受賞者の Yann LeCun 氏と、ニューヨーク大学コンピューターサイエンス学部の博士研究員 Jacob Browning 氏が長文の記事を発表し、その中で、LLM の知能の向上を妨げているのは言語自体の限界であると考えていることを明らかにしました。

言語モデルはより一般化され強力になってきていますが、その思考プロセスを私たちが理解することはますます難しくなってきています。

さまざまな常識的推論ベンチマークで非常に高い精度を達成できるにもかかわらず、モデルはなぜ依然として意味不明な発言をしたり危険なアドバイスをしたりするのでしょうか?

言い換えれば、言語モデルはなぜそれほど賢いのに、それほど制限があるのでしょうか?

研究者たちは、問題は AI アルゴリズムにあるのではなく、言語の限界にあると考えています。「言語は思考である」という仮定を捨て去れば、LLM のパフォーマンスは優れていても、人間に近い知能レベルに到達することは決してできないことがわかります。

言語モデルとは正確には何でしょうか?

19 世紀と 20 世紀の哲学と科学研究では、「知識とは言語学である」という見方が主流でした。つまり、何かを知るということは、正しい文を考え、それが既知の実際のネットワーク内の他の文とどのようにつながっているかを理解することだけを意味していました。

この論理によれば、言語の理想的な形式は、厳密な推論規則に従って接続された任意の記号で構成される、純粋に形式的で論理的かつ数学的な形式であるはずですが、自然言語では意味の曖昧さの解消と不正確さも必要になる場合があります。

オーストリアの哲学者ウィトゲンシュタインはかつて、真の命題の総和が自然科学の全体であると述べました。

認知マップや心的イメージの分野では依然として論争が続いていますが、20 世紀に確立された言語学の基礎は象徴主義です。

この考え方は、今日でも多くの人々に受け入れられています。つまり、百科事典に既知の内容がすべて収録されていれば、すべての本を読むだけで世界を包括的に理解できるということです。

人工知能の初期の研究もこの考え方に従い、記号操作を定義し、論理ルールに従ってさまざまな方法で言語記号を結合しました。

当時の研究者にとって、人工知能の知識は、人工的な論理でつながれた実際の文章で構成される巨大なデータベースに保存されていました。人工知能システムが適切なタイミングで適切な文章を吐き出すことができれば、つまり適切な方法で記号操作を実行できれば、それはインテリジェントなシステムとみなすことができました。

この考え方は、チューリング テストの基礎でもあります。つまり、機械が知っていることを適切なタイミングで話すことができれば、それは機械が何について話しているのか、そしてその知識をいつ適用すべきかを知っているということを意味します。

しかし反対派は、機械が会話できるからといって、話されている内容の具体的な内容を理解できるわけではないと主張している。言語は知識を網羅することはできないからだ。逆に、言語は知識を非常に具体的かつ非常に限定的に表現したものにすぎない。

プログラミング言語、記号論理、音声言語など、すべての言語は、個別のオブジェクトとプロパティ、およびそれらの相互関係を非常に高い抽象レベルで表現する特定の種類の表現スキーマにすぎません。

しかし、楽譜を読むことと聴くことの間には大きなギャップがあり、演奏スキルの間にはさらに大きなギャップがあります。

言語表現は、不規則な形状、物体の動き、複雑なメカニズムの機能などを説明するなど、特定の情報を圧縮したものに似ています。画像、録音、グラフなど、他の非言語表現でも、理解しやすい方法で情報を伝達できます。

言語の制限

言語は、非常に低帯域幅の伝送方法です。孤立した単語や文は、文脈から外れるとほとんど情報を伝えません。また、同音異義語や代名詞が多数あるため、多くの文は意味的に曖昧です。

チョムスキーは数十年前、言語はコミュニケーションのための明確で曖昧さのないツールではないと主張した。

しかし、人間には完璧なコミュニケーションツールは必要ありません。私たちが文章を理解するかどうかは、通常、文章が現れる文脈によって決まり、それによって文章の意味を推測することができます。

ほとんどの場合、私たちは、進行中のフットボールの試合など目の前にある事柄について話し合ったり、ウェイターに食べ物を注文するなど特定の社会的役割に直面したり、明確な目標を伝えたりしています。

短い文章を読む場合、主な焦点は一般的な読解戦略を使用して文章の内容を理解することですが、研究によると、子供がトピックに関して持っている背景知識の量は、実際には理解に影響を与える重要な要素であることがわかっています。

これらのシステムは、人間に見られる充実した思考に決して近づくことのない、浅い理解に終わる運命にあることは明らかです。

AI システムは世界について表面的な理解しかできず、人間が持つ包括的な思考に近づくことは決してないだろうことは明らかです。

単語や文章の固有の文脈的性質は、LLM がどのように機能するかを理解する鍵となります。

ニューラル ネットワークは通常、知識をノウハウとして表現します。これはコンテキストに非常に敏感で、タスク関連の入力の微妙な処理を可能にする具体的なルールと抽象的なルールの両方を見つけることができます。

LLM のプロセスでは、システムが既存のテキスト内の複数のレベルでパターンを識別し、段落内で個々の単語がどのようにつながっているか、また文がどのようにリンクされてより大きな章が構成されているかを調べます。

その結果、LLM の言語理解は必然的に文脈化され、単語は辞書の意味ではなく、さまざまな文章の中で果たす役割の観点から理解されることになります。

さらに、carbonizer、menu、debuging、electron などの多くの単語は、ほとんどが特定の分野でのみ使用され、孤立した文であっても、その単語は文脈的な意味を持ちます。

簡単に言うと、LLM のトレーニング プロセスは、各文の背景知識を学習し、周囲の単語や文を探して文脈をつなぎ合わせ、モデルがさまざまな文やフレーズの無限の可能性を入力として受け取り、会話を続けるか記事を書き続けるかなどの合理的な方法を考え出すことです。

人間がこれまでに書いたすべての記事を学習したシステムは、会話に必要な一般的な理解を獲得できるはずです。

LLMは表面的な知識しか学ばない

LLM には「理解」やいわゆる「知性」という本来の能力がないと考える人もいます。評論家は、LLM の言語理解は、教室で学生が深い知識を持っているふりをするのと同じように、まだ非常に表面的なので、これらのシステムは模倣が得意なだけだと考えています。実際、学生は自分が何を言っているのかわかっておらず、教授やテキストを無意識に模倣しているだけです。

LLM はあらゆることを表面的に理解します。 GPT-3 のようなシステムは、文または段落内の将来の単語をマスクし、機械に最も可能性の高い単語を推測させ、誤った推測を修正することによってトレーニングされます。システムは最終的に最も可能性の高い単語を推測することに長けるようになり、効果的な予測システムになります。

たとえば、GPT-3 は単に文中の特定の単語をマスクし、モデルに特定の単語を推測させ、それを修正して、最終的に予測システムにトレーニングします。

しかし、このアプローチは、言語に対するより深い理解ももたらします。実際、どんな質問やパズルでも、正解はほんのわずかで、間違った答えは無数にあるのが普通です。

ジョーク、単語、論理パズルなどの解釈などの特定の言語スキルの場合、実際には質問に対する正しい答えを予測することが目的であり、これにより機械は省略、書き直し、言い換えなど、言語理解を必要とする他のタスクを実行できるようになります。

シンボリック AI では予想されるように、知識の表現はコンテキストに依存し、前提が与えられた場合にもっともらしい文を出力します。

すべての知識は言語的であるという見方を捨てることで、私たちの知識のどれだけが非言語的であるかを認識できるようになります。

すべての知識は言語によるものだという見方を捨てることで、言語で表現されていない知識がどれほどあるかがわかるようになります。

しかし、概念を言葉で説明する能力と、それを実際に使用する能力の間には違いがあります。

たとえば、言語システムはアルゴリズムの実行方法を説明できますが、それを実行する能力はありません。また、どの単語が不快であるかを説明することもできますが、その単語を使用することはできません。

さらに分析を進めると、言語モデルの注意と記憶は短期間のみであり、最初の 2 つの文または次の文に重点が置かれる傾向があることもわかります。

積極的な傾聴、以前の会話の想起と再訪、特定の論点を伝えるために話題にこだわること、気を散らすものを避けるといった複雑な会話スキルに関しては、言語モデルの記憶欠陥が明らかになり、わずか数分の会話で一貫性がなくなる可能性があります。

あまりに引きこもりすぎると、システムは再起動して新しいアイデアを受け入れるか、あなたが言うことすべてを信じていることを認め、一貫した世界観を形成するために必要な理解は言語モデルの知識をはるかに超えることになります。

言語以上のもの

本には、読み解いて活用できる豊富な情報が含まれていますが、他の形式の情報も重要です。たとえば、IKEA の取扱説明書には図表のみで、テキストはありません。研究者は、まず論文の図表を見て、論文の構造を把握してから、テキストを閲覧することがよくあります。観光客は、地図上の赤または緑の線に従って街を移動できます。

人類は世界を探索する過程で多くのことを学んできました。言語のみを訓練したシステムは、今から宇宙の果てまで訓練したとしても、人間に近い知能を持つことはできません。

言語が重要なのは、小さな形式で大量の情報を伝達できるためであり、特に印刷機とインターネットが発明されてからは、簡単に複製して大規模に適用できるようになりました。

しかし、言語情報を圧縮するのは無料ではありません。難解なテキストを解読するには多大な労力がかかります。

人文科学のコースでは、課外活動で大量の読書が必要になる場合があります。これは、言語を訓練された機械が非常に多くのことを知っていながら、理解できる内容が非常に少ない理由も説明できるかもしれません。

この本は人類のあらゆる知識にアクセスできますが、本の中の文章一つ一つには大量の情報が含まれており、それでも理解するのは困難です。

言語モデルには幽霊は存在しない

もちろん、言語モデルの欠陥は機械が愚かであることを意味するのではなく、単に機械の知能に固有の限界があることを意味するだけです。

多くの場合、人間に近いインテリジェントエージェントは実際には必要ではありません。たとえば、別の人間にチューリングテストを使用したり、複数桁の掛け算を強制したりすることはありません。ほとんどの会話は単なる雑談です。

言語は世界を探索するための便利なツールかもしれませんが、言語は知性のすべてではありません。深い「非言語理解」能力は言語を理解するための基礎であり、それによって世界に対する理解が深まり、他人が言っていることを理解できるようになります。

AI 研究者は、言語学よりも、このような非言語的、文脈依存的、生物学的に関連性のある、具体化された知識に興味を持っています。

大きな言語モデルは、世界を知覚するための安定した身体や持続的な注意力を持っていません。言語だけで理解できる世界は非常に限られているため、学習する常識は常に表面的なものになります。

<<:  チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

>>: 

ブログ    
ブログ    

推薦する

NVIDIA は、わずか 5 行のコードで画像を 3D モデルに変換する 3D ディープラーニング ツール Kaolin をリリースしました。

近年、3D コンピューター ビジョンと人工知能はともに急速に進歩していますが、両者の効果的な組み合わ...

ザッカーバーグの45分間の詳細なインタビュー:今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...

...

...

あらゆるシーンのあらゆるもの: リアルなオブジェクトの挿入 (さまざまな運転データの合成に役立ちます)

あらゆるシーンのあらゆるもの: フォトリアリスティックなビデオオブジェクト挿入論文リンク: http...

ディープラーニング入門

2016年、Googleの人工知能プログラムAlphaGoが世界的囲碁プレイヤーのイ・セドルと対戦し...

Android はなぜ弱い暗号化を使用するのでしょうか?

Android 2.2.1 で使用されるデフォルトの暗号化アルゴリズムは AES 256-SHA1...

...

NVIDIA GPU が一戦で神となる!黄仁訓は人工知能に賭け、1兆ドル規模のグラフィックカード帝国を築く

AlexNet ニューラル ネットワークから ChatGPT、生成 AI の爆発的な増加まで、NVI...

リソースインベントリ: 便利な自動データサイエンスおよび機械学習ソフトウェア

[[208290]]概要: この記事では、海外の便利な自動データ サイエンスおよび機械学習ソフトウェ...

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

大規模言語モデル (LLM) のサイズが大きくなるにつれて、これらのモデルを本番環境で推論に導入して...

将来、ロボットは手術を支援し、反復作業をより効率的に実行できるようになるかもしれない。

人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...

...

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能と機械学習の購入者ガイド

B2B ソフトウェアの営業およびマーケティング チームは、「人工知能 (AI)」という用語を好んで使...