ディープラーニングは壁にぶつかる？ルカンとマーカスの間の争いを引き起こしたのは誰ですか?

今日の主人公は、AI の世界で互いに愛し合い、憎み合う古くからの敵同士です。

ヤン・ルカンとゲイリー・マーカス

この「新たな憎悪」について正式に話す前に、まずは二大神の間の「古い憎悪」を振り返ってみましょう。

ルカンとマーカス

フェイスブックの主任人工知能科学者でニューヨーク大学教授、2018年チューリング賞受賞者のヤン・ルカン氏は、AIとディープラーニングに関するゲイリー・マーカス氏の以前のコメントに応えてNOEMA誌に記事を掲載した。

以前、マーカスは雑誌「ノーチラス」に記事を掲載し、ディープラーニングは「前進できない」と述べた。

マーカスは、どんなに大きなイベントでも楽しいものを見るのが好きなタイプの人です。

少しでもトラブルの兆候があるとすぐに「AIは死んだ」と言い始め、業界で大騒ぎになります。

私はこれまで、GPT-3 を「ナンセンス」や「でたらめ」と呼ぶ記事を数多く投稿してきました。

ここに反駁の余地のない証拠があります:

なんと、彼らは本当に「ディープラーニングは壁にぶつかった」と言ったのです。このようなコメントが横行しているのを見て、AI分野の大物であるLeCun氏はじっとしていられず、すぐに反応を投稿しました！

そして彼は言った、「もし私と戦いたいなら、私も一緒に行きますよ！」

記事の中で、ルカン氏はマーカス氏の見解を一つ一つ反駁した。

偉大なる神様がどんな返事を書いたのか見てみましょう～～

以下はLeCun氏の長い記事です。

現代の AI における主流のテクノロジーは、データ内のパターンを識別して活用することに優れた大規模な自己学習アルゴリズムであるディープラーニング (DL) ニューラルネットワーク (NN) です。批評家たちは当初から、ニューラルネットワークが「乗り越えられない壁」にぶつかったと早まって推測していましたが、結局、そのたびに、それは一時的な障害に過ぎないことが判明しました。

1960 年代には、NN は非線形関数を解くことができませんでした。しかし、この状況は長くは続かなかった。1980年代にバックプロパゲーションが登場して状況は変わったが、システムをトレーニングするのが非常に難しいという、新たな「乗り越えられない壁」が出現した。

1990 年代に人間は簡素化された手順と標準化されたアーキテクチャを開発し、トレーニングの信頼性を高めましたが、どのような結果が得られたとしても、トレーニングデータと計算能力の不足という「乗り越えられない壁」が常に存在するようでした。

2012 年、最新の GPU が大規模な ImageNet データセットでトレーニングできるようになり、ディープラーニングが主流になり始め、すべての競合他社を簡単に打ち負かしました。しかしその後、疑問の声が上がった。人々は「新たな壁」を発見したのだ。ディープラーニングのトレーニングには、大量の手動でラベル付けされたデータが必要だ。

しかし、ここ数年、ラベル付きデータを必要としない GPT-3 などの自己教師あり学習がかなり良い結果を達成したため、この質問の意味は薄れてきました。

今日、克服できないと思われる障壁は、「記号推論」、つまり代数的または論理的な方法で記号を操作する能力です。子供の頃に学んだように、数学の問題を解くには、厳密なルールに従って段階的に記号を操作する必要があります (例: 方程式を解く)。

『The Algebraic Mind』の著者であり、『Rebooting AI』の共著者でもあるゲイリー・マーカス氏は最近、ニューラルネットワークがこの種の記号操作を処理するのが難しいため、DL がそれ以上進歩できないと主張しました。対照的に、多くの DL 研究者は、DL はすでに記号推論をうまく実行しており、今後も改善し続けると考えています。

議論の中心にあるのは、人工知能における記号の役割であり、2 つの異なる見解があります。1 つは、記号による推論は最初からハードコードされている必要があるという見解であり、もう 1 つは、機械は経験を通じて記号による推論の能力を学習できるという見解です。したがって、問題の鍵は、人間の知能をどのように理解すべきか、そして、人間レベルで人工知能をどのように追求すべきかにあります。

人工知能のさまざまな種類

記号的推論は正確さがすべてです。記号は順列と組み合わせに応じてさまざまな順序になる可能性があるため、たとえば (3-2)-1 と 3-(2-1) の違いが重要であり、正しい順序で正しい記号的推論を実行することが極めて重要です。

マーカスは、この種の推論が認知の中心であり、言語の基礎となる文法的論理と数学の基本演算を提供するために不可欠であると信じていました。彼は、これが私たちのより基本的な能力にまで及び、その背後には根底にある記号論理があると考えています。

私たちがよく知っている人工知能は、このような推論の研究から始まり、通常は「シンボリック人工知能」と呼ばれています。しかし、人間の専門知識を一連のルールにまとめるのは非常に困難であり、膨大な時間と人件費がかかります。これがいわゆる「知識獲得ボトルネック」です。

数学や論理のルールを書くのは簡単ですが、世界そのものは白か黒かで非常に曖昧であり、人間があらゆるパターンを統制するルールを書いたり、あらゆる曖昧な概念の記号を定義したりするのは不可能であることが証明されています。

しかし、テクノロジーの発展によりニューラルネットワークが生まれ、ニューラルネットワークが最も得意とするのはパターンを発見し、曖昧さを受け入れることです。

ニューラルネットワークは、システムに入力されるものに対して適切な出力を出す関数を学習する比較的単純な方程式です。

たとえば、バイナリ分類ネットワークをトレーニングするには、大量のサンプルデータ (ここでは椅子を例に挙げます) をニューラルネットワークに入力し、数エポックにわたってトレーニングして、最終的にネットワークが新しい画像が椅子であるかどうかを正常に推測できるようにします。

率直に言えば、これは単なる人工知能に関する質問ではなく、より根本的に、知能とは何か、人間の脳はどのように機能するかという質問です。 ”

これらのニューラルネットワークは、それを実装する関数が微分可能であるため、正確にトレーニングできます。言い換えれば、シンボリック AI が記号論理で使用される離散トークンに類似している場合、ニューラルネットワークは微積分の連続関数です。

これにより、パラメータを微調整してより優れた表現を学習できるようになり、アンダーフィットやオーバーフィットなしでデータをより正確に適合できるようになります。しかし、この流動性により、厳格なルールと個別のトークンに関しては新たな「壁」が生じます。方程式を解くとき、通常は近似値ではなく正確な答えが求められます。

これはまさに Symbolic AI が輝く部分なので、Marcus は、この 2 つを単純に組み合わせること、つまり、DL モジュールの上にハードコードされたシンボリック操作モジュールを挿入することを提案しています。

これは、2 つのアプローチが互いに非常によく補完し合うため魅力的であり、異なる動作方法を持つモジュールの「ハイブリッド」によって、両方のアプローチの利点が最大化されると思われます。

しかし、議論は、シンボルと操作の機能が人間によって設計され、このモジュールが微分可能ではなく、したがって DL と互換性がないシステムにシンボル操作を組み込む必要があるかどうかに移っています。

伝説の「象徴的推論」

この仮定は非常に議論の余地があります。

従来のニューラルネットワークでは、手動で記号的推論を行う代わりに、記号的推論を学習できると考えられています。つまり、記号的な例を使用して機械が適切なタイプの推論を実行するようにトレーニングすることで、抽象的なパターンの完成を学習できるようになります。つまり、機械は、手作りの記号や記号操作ルールが組み込まれていなくても、世界中の記号を操作することを学習できるのです。

GPT-3 や LaMDA などの現代の大規模言語モデルは、このアプローチの可能性を示しています。彼らのシンボルを操作する能力は驚異的で、これらのモデルは驚くべき常識的推論、組み合わせ能力、多言語能力、論理的および数学的能力、さらには死者を模倣する不思議な能力さえも示しています。

しかし、これは実際には信頼できるものではありません。 DALL-E に、ひげを生やし、眼鏡をかけ、トロピカルなシャツを着た哲学者のローマ彫刻を作るように頼んだら、素晴らしい作品になるでしょう。しかし、ピンクのおもちゃを身に着けてリスを追いかけているビーグル犬を描くように指示すると、ピンクのおもちゃを身に着けているビーグル犬やリスが描かれることがあります。

すべてのプロパティを 1 つのオブジェクトに割り当てることができる場合はうまく機能しますが、複数のオブジェクトと複数のプロパティがある場合は混乱が生じます。多くの研究者は、これが DL がより人間に近い知能に到達するまでの道のりの「壁」であると考えています。

では、シンボリック操作はハードコードする必要がありますか? それとも学習可能なのでしょうか?

マーカスはそうは理解しませんでした。

彼は、記号による推論は「すべてか無か」であると想定しました。DALL-E には記号も、その動作の基盤となる論理ルールもないため、実際には記号による推論を行っていなかったのです。したがって、大規模言語モデルの多数の失敗は、それらが真の推論ではなく、感情のない単なる機械的な模倣であることを示唆しています。

マーカスが十分に大きな木に登って月に到達するのは不可能だろう。したがって、彼は、現在の DL 言語モデルは、ニム・チンプスキー (アメリカ手話を使用する雄のチンパンジー) ほど実際の言語に近いわけではないと考えています。 DALL-E の問題は訓練不足ではありませんでした。彼らは単に文の根底にある論理構造を理解しておらず、したがって、さまざまな部分がどのように全体に結びつくべきかを適切に理解することができません。

対照的に、ジェフリー・ヒントンらは、ニューラルネットワークはハードコードされたシンボルや代数的推論を必要とせずにシンボルをうまく操作できると主張しています。 DL の目標は、マシン内部での記号操作ではなく、世界のシステムから正しい記号を生成することを学習することです。

2 つのモデルを混合することを拒否するのは軽率なことではなく、記号的推論が学習可能であると信じるかどうかという哲学的な違いに基づいています。

人間の思考の根底にある論理

マーカスの DL に対する批判は、知能がどのように機能し、人間をユニークにするものは何かという認知科学における関連した議論に端を発しています。彼の見解は、心理学における著名な「生得主義」学派の考え方と一致しており、認知の重要な特徴の多くは生来のものであり、実際、私たちは大部分、世界の仕組みを知った状態で生まれてくると主張している。

この生来の知覚の中心となるのは、シンボルを操作する能力です (ただし、これが自然界全体に見られるものか、人間に特有のものかは、まだ議論が続いています)。マーカスにとって、この記号操作能力は、ルールの遵守、抽象化、因果推論、詳細の再識別、一般化、その他多くの能力など、常識の重要な特徴の多くを支えています。

つまり、世界に対する私たちの理解の多くは自然によって与えられており、学習とは詳細を埋めていくことです。

この考えを覆す別の経験的見解があります。それは、記号操作は自然界ではまれであり、主に私たちのホミニンの祖先が過去 200 万年にわたって徐々に獲得した学習されたコミュニケーション能力であるというものです。

この観点からすると、主要な認知能力とは、獲物の迅速な識別、獲物の行動の予測、熟練した反応の開発など、生存の向上に関連する非象徴的な学習能力です。

この見解では、複雑な認知能力の大部分は、一般的な自己教師学習を通じて獲得されると考えられています。また、私たちの複雑な認知能力のほとんどは記号操作に依存していないと仮定しています。代わりに、さまざまなシナリオをシミュレートし、最良の結果を予測します。

この経験的見解によれば、シンボルとシンボル操作は、人間が成功するために協力的な行動にますます依存するようになるにつれて獲得される、学習された能力の 1 つにすぎないとされています。これは、シンボルを、文字だけでなく、地図、象徴的な描写、儀式、さらには社会的役割など、グループ間のコラボレーションを調整するために使用する発明と見なしています。

これら 2 つの見解の違いは非常に明白です。土着主義の伝統では、シンボルとシンボルの操作はすでに心の中に存在しており、言葉と数字の使用はこの原始的な能力に由来しています。この見解は、進化的適応から生じる能力に訴えるものである（ただし、記号操作がどのように、またはなぜ進化したかについての説明は議論の余地がある）。

経験主義の伝統の観点から見ると、シンボルと記号的推論は、一般的な学習能力と複雑な社会世界から生まれた有用なコミュニケーションの発明です。これは、内部計算や内なる独白など、私たちの頭の中で起こる象徴的な事柄が、数学や言語の使用という外部的な実践から派生したものであると見なします。

人工知能と認知科学の分野は密接に絡み合っているため、ここでこのような戦いが繰り返されるのも不思議ではありません。人工知能におけるいずれかの見解が成功すれば、認知科学におけるいずれかのアプローチが部分的に（ただし部分的にのみ）正当化されるので、これらの議論が激しいのは驚くことではありません。

重要な問題は、現代の人工知能の分野における問題をいかに適切に解決するかということだけではなく、知能とは何か、脳がどのように機能するかということでもあります。

AIに賭けるべきか、それとも空売りすべきか?

「ディープラーニングは壁にぶつかる」という発言はなぜそれほど挑発的なのでしょうか?

マーカスが正しければ、どんなに多くの新しいアーキテクチャが考案され、どれだけの計算能力が投入されても、ディープラーニングが人間のような AI を実現することは決してないでしょう。

ニューラルネットワークにレイヤーを追加すると、状況がさらに混乱するだけです。真のシンボル操作には自然なシンボル操作子が必要です。この記号操作はいくつかの常識的な能力の基礎となるため、DL はあらゆることを少しずつしか「理解」しません。

対照的に、DL の支持者や経験主義者が正しいとすれば、不可解なのは、記号操作用のモジュールを挿入するというアイデアです。

この文脈では、ディープラーニングシステムはすでに記号推論を実行しており、よりマルチモーダルな自己教師あり学習、ますます有用な世界の予測モデル、シミュレーションと結果評価のための作業メモリの拡張を通じて制約を満たす能力が向上するにつれて、さらに改善され続けるでしょう。

記号操作モジュールを導入しても、より人間に近い AI が生まれるわけではなく、すべての「推論」操作が不要なボトルネックを経由することになり、「人間のような知能」からさらに遠ざかってしまいます。これにより、ディープラーニングの最もエキサイティングな側面の 1 つである、人間を上回るソリューションを生み出す能力が失われる可能性があります。

そうは言っても、これらのどれもが愚かな誇大宣伝を正当化するものではありません。現在のシステムは意識がないので私たちを理解できず、強化学習だけでは不十分であり、単に規模を拡大するだけでは人間のような知能を構築することはできません。しかし、これらすべての質問は、シンボル操作はハードコードされるべきか、それとも学習できるかという主な議論から外れています。

これはハイブリッドモデル (つまり、微分不可能な記号操作子を持つモデル) の研究をやめろという呼びかけでしょうか? もちろん違います。人々は効果的な方法を選択すべきです。

しかし、研究者たちは 1980 年代からハイブリッドモデルを研究してきましたが、ハイブリッドモデルが効果的なアプローチであることは証明されておらず、多くの場合、ニューラルネットワークよりも劣っている可能性があります。

もっと一般的に言えば、ディープラーニングは限界に達したのではないかと考えるべきです。

<<: 量子コンピューティングの巨匠アーロンソンが OpenAI に加わりました!彼はまた、ヤオクラスのトップ生徒である陳立傑の家庭教師でもある。

>>: Transformer 機械学習モデルとは何ですか?

アルゴリズム推奨規制が実施されます。ユーザーはプラットフォームに「ノー」と言えるのでしょうか?

ディープラーニングは壁にぶつかる？ルカンとマーカスの間の争いを引き起こしたのは誰ですか?

ルカンとマーカス

人工知能のさまざまな種類

人間の思考の根底にある論理

AIに賭けるべきか、それとも空売りすべきか?

アルゴリズム推奨規制が実施されます。ユーザーはプラットフォームに「ノー」と言えるのでしょうか?

人工知能とは何ですか? AIが何なのかまだ知らない人が多い

人工知能が不動産ビジネスの成長を加速させる方法

OpenAIの取締役会が数秒で後悔！ウルトラマン、CEOに復帰要請

「新しいインフラ」に注力 - Powerleader がコンピューティングパワーで人工知能を強化

OpenAIが初の買収を正式に発表しました！オープンソースのMinecraftチームから8人のメンバーがチームに参加し、AIエージェントに賭ける

長文情報の精度はChatGPTを上回る、Metaは大規模モデルの幻覚を軽減する新手法を提案

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る

大量データのための2次パーソナルコネクションマイニングアルゴリズム（Hadoop実装）

RSAは暗号化アルゴリズムへのバックドアの追加を否定

推薦する

人間はAIに勝てるか？私たちは機械に置き換えられるのでしょうか？

マルチユーザーデータ取得: LangChain 技術ガイドとケーススタディ

OCRの終焉？ Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

2つのAIデートがネットワーク全体の注目を集めました。アルゴリズムがどれだけ強力であっても、失敗は免れません

OpenAI の COO が ChatGPT のリリース、開発者デー、そして Altman の考えについて語る

突然！人気のAI企業が倒産の危機に！創設者は辞任を求められました！

反復コラボレーション法に基づく顔の超解像

世界初の「自己複製」する生体ロボットが誕生。科学者たちの次なる目標とは？