次世代人工知能

[[390934]]

AI と機械学習の最近の研究では、一般的な学習と、ますます大規模なトレーニングセットとより多くのコンピューティングの使用に重点が置かれています。

代わりに、私は、現在可能なものよりも豊かで堅牢な AI の基盤を提供できる、認知モデルを中心としたハイブリッドで知識主導型の推論ベースのアプローチを提案します。

1. 強い人工知能に向けて

ディープラーニングや AI が今後数十年でどこへ向かうのかは誰にも完全にはわかりませんが、次のレベルに到達するには、過去 10 年間に何を学んだか、次に何を研究すべきかの両方を考慮することが重要です。

これを新しいレベルの堅牢な AI と呼びましょう。必ずしも超人的または自己完成的な知能ではありませんが、学習した内容を体系的かつ信頼性の高い方法で幅広い問題に適用し、さまざまな情報源からの知識を統合して世界を柔軟かつ動的に推論し、平均的な成人から期待される方法で、ある設定で学習した内容を別の設定に転送できると信頼できます。

ある意味、これは控えめな目標であり、「超人」や「人工知能」ほど野心的でも無限でもないが、おそらく重要なステップであり、達成可能であり、この目標を達成するための重要なステップである。家庭、道路、診療所や病院、企業、地域社会で信頼できる AI を作成します。

つまり、AI が確実に機能すると期待できない場合は、AI を信頼すべきではないということです。 (もちろん、これは真実ではありません。信頼性は信頼性を保証するものではなく、逆に信頼性は信頼性を保証するものでもありません。これは、価値観や優れたエンジニアリングプラクティスなど、多くの前提条件の 1 つにすぎません。詳細については、Marcus と Davis (Marcus & Davis、2019) を参照してください。)

強い AI を、たとえば、狭い範囲の目標 (チェスをプレイしたり、犬の品種を識別したりするなど) を非常にうまく達成できる狭い範囲の知能システムと対比することもできますが、これらのシステムは非常に単一のタスクに集中する傾向があり、堅牢ではなく、大規模な再トレーニングなしでは、多少異なる環境 (たとえば、異なるサイズのボード、または同じロジックでキャラクターと設定が異なる 1 つのビデオゲームから別のゲームへ) にさえ移行できません。これらのシステムは、トレーニングされた環境とまったく同じ環境に適用された場合、優れたパフォーマンスを発揮することがよくありますが、トレーニングされた環境と環境がわずかに異なる場合、優れたパフォーマンスを発揮することは期待できません。このようなシステムはゲーム環境では強力であることが証明されていますが、現実世界の動的でオープンエンドなプロセスではまだ十分であることが証明されていません。

強い知能は、私が点描的知能と呼ぶものとも対比されなければなりません。点描的知能は多くの状況では機能しますが、表面的には似ていても、他の多くの状況では予測できない方法で機能しません。図 1 は、スクールバスを大体識別できるが、雪道で横転したスクールバスを識別できない視覚システム (左) と、一部の文章を正しく解釈できるが読み取り時に失敗する読み取りシステム (右) を示しています。無関係な妨害要因があります。

AI に関する文献を注意深く追ってきた人なら誰でも、堅牢性は最初から実現が困難であったことに気付くでしょう。膨大なリソースが投入されているにもかかわらず、ディープラーニングはまだこの問題を解決していません。

対照的に、ディープラーニング技術は、これまでのところ、大量のデータを消費し、浅く、脆弱であり、一般化能力が限られていることが証明されています (Marcus、2018)。あるいは、フランソワ・ショレ (Chollet, 2019) が最近述べたように、AI は一貫して理想の実現に失敗しています。特定のタスクで優れたパフォーマンスを発揮するシステムを設計することはできますが、そのシステムは依然として大きな制限があり、脆弱で、大量のデータを消費し、トレーニングデータや作成者の想定とわずかに異なる状況を理解できず、人間の研究者の多大な関与なしには新しいタスクに動作を適応させることができません。

FacebookのAI研究者チームの言葉（Nie et al., 2019）

「最先端のモデルは、人間のように柔軟かつ一般化可能な意味を学習するのではなく、データセット内の誤った統計パターンを利用することを学習しているという証拠が増えています。」

Yoshua Bengio が最近の記事 (Bengio 他、2019) で指摘しているように、主な弱点は、実際のところ望まれることが多いトレーニング分布外への一般化に関しては、現在の機械学習手法は弱いように見えることです。

AIを次のレベルに引き上げるにはどうすればいいでしょうか?

アーニー・デイビスと私が「深い理解」と呼ぶ能力をシステムに持たせる能力をまず開発しなければ、強力なインテリジェンスに到達できるとは思いません。深い理解とは、複雑なデータセットの微妙なパターンを相関させて識別する能力だけでなく、あらゆるシナリオを検討してジャーナリストが尋ねる可能性のある質問、つまり「誰が」「何を」「どこで」「なぜ」「いつ」「どのように」の一部に答える能力です。

調子が良い日には、話題のニューラルネットワーク GPT-2 のようなシステムは、表面的には深い理解を反映しているように見える事柄を伝えることができるストーリーや同様の文の断片を生成することができます。たとえば、「 2 人の兵士がバーに入った」などの文の断片 (太字部分) が与えられた場合、人、バー、飲み物、お金の関係など、流暢でもっともらしい続きを生成できることがよくあります。

2人の兵士がモスルのバーに入り、所持金を全て飲み費やした。

しかし、GPT-2 の例がどれほど説得力があるように見えても、Nie ら (2019) が指摘したように、その表現は薄く信頼性が低く、綿密な検査で破綻することが多いのが事実です (Marcus、2020)。以下は、2019 年 12 月に NeurIPS で発表した進行中のベンチマークから抜粋した 2 つの典型的なケースです (Marcus、2019)。

•昨日、ドライクリーニング店に服を預けたのですが、まだ引き取られていません。私の服はどこですか？お母さんの家で。

•丸太の上にカエルが6匹います。 2人が去り、3人が加わりました。丸太の上のカエルの数は現在 17 匹です。

まず、GPT-2 はクエリフラグメントに続く要素のカテゴリ (つまり、位置) を正しく予測できますが、ドライクリーニングの位置を追跡することはできません。 2 回目では、GPT-2 は正しい応答カテゴリ (この場合は数字) を再び正しく予測しましたが、詳細を把握できませんでした。 Marcus (Marcus、2020 年、Marcus、2019 年) が論じたように、このエラーは非常によく発生します。明らかに、堅牢性を実現するには、より安定した基板が必要になります。

通常業務では、主に、Deep Learning Toolbox の関数近似および組み合わせツールを着実に改善し、より大きなトレーニングセットを収集し、GPU と TPU のより大規模なクラスターにスケーリングすることに重点が置かれています。 GPT-2 のようなシステムは、より大きなデータセットを収集し、それらのデータセットをさまざまな方法で拡張し、基盤となるアーキテクチャにさまざまな改善を組み込むことによって改善できると考えられます。これらのアプローチには価値がありますが、より根本的な再考が必要です。

より抜本的な方法が採用される可能性もあります。たとえば、Yoshua Bengio 氏は、分布の変化に対する感度を介して因果関係を統計的に抽出する手法 (Bengio ら、2019 年) やモジュール性を自動的に抽出する手法の開発など、ディープラーニングツールキットを大幅に拡張するための洗練された提案を数多く行っています。構造（Goyal et al.、2019）については、私は両方に共感します。

しかし、これでは不十分であり、より強力な薬が必要になる可能性があると思います。特に、この論文では、抽象的な知識を日常的に獲得、表現、操作し、その知識を使用して外部世界の複雑な内部モデルを構築、更新、推論できるシステムを構築するためのフレームワークの開発に再び重点を置く必要があることを示唆しています。

ある意味、私がコンサルティングするのは、古典的な AI の知識、内部モデル、推論という 3 つの問題に戻ることですが、できれば最新の技術を使用して、新しい方法でそれらを解決したいと考えています。

これらの疑問は古典的な人工知能の核心です。たとえば、ジョン・マッカーシーは、彼の代表的な論文「常識のあるプログラム」[McCarthy 1959]で常識的な知識の価値を指摘しました。ダグ・レナットは、常識的な知識の機械表現を彼のライフワークとしました (Lenat、Prakash、Shepherd、1985; Lenat、2019)。テリー・ウィノグラード（Google 創設者のラリー・ペイジとセルゲイ・ブリンの指導者）が設計した古典的な AI「ブロックワールド」システム SHRLDU は、積み重ねられた一連の物理オブジェクトの位置と特性に関するソフトウェアの理解を表す、内部の更新可能な世界認知モデルを中心に展開されます (Winograd、1971)。 SHRLDU はこれらの認知モデルを推論して、時間の経過に伴う世界の状態を推測します。

機械学習に関する最近の論文のタイトルを調べてみると、これらのアイデアへの引用はほとんど見つからないことがわかります。少数派は推論について言及し、また別の少数派は常識を達成したいという願望について言及するでしょう。そして、ほとんどの人は（意図的に）個人やオブジェクト、それらの特性、およびそれらの関係についての豊富な認知モデルを欠いています。

たとえば、GPT-2 のようなシステムは、良くも悪くも、明示的な（直接表現され、容易に共有される）常識的な知識、明示的な推論、議論しようとしている世界の明示的な認知モデルなしで、その機能を実行します。

多くの人は、努力してコード化された明示的な知識が存在しないことを利点と見なしています。 GPT-2 は異常なものではなく、むしろ、従来の AI の懸念から離れ、ディープラーニングの復活 (2012 年頃) によって促進された、よりデータ主導の異なるパラダイムへと向かう現在の傾向の特徴です。この傾向は、DeepMind の高く評価されている Atari ゲームプレイシステム (Mnih ら、2015) の登場により加速しました。このシステムは、後述するように、詳細な認知モデルを使用せずにさまざまなゲームをうまくプレイしました。

この傾向は最近、強化学習の創始者の一人であるリッチ・サットンによる広く読まれている記事で特定されました。「痛い教訓」と題されたこの記事は、人間の知識を悪用しないよう明確に勧告している。

70 年にわたる AI 研究から得られる最大の教訓は、計算を活用する一般的なアプローチが最終的には最も効果的であり、かなりの程度まで効果があるということです。研究者は、その分野に関する人間の知識を活用しようとしますが、長期的には、重要なのは計算を活用することだけです。 …人間の知識に基づくアプローチは方法を複雑にする傾向があり、計算を活用する一般的なアプローチには適しにくくなります。

ある程度、機械学習システムに人間の知識を組み込むことは、機械学習コミュニティでも不正行為とみなされており、決して望ましいことではありません。 DeepMind の最も影響力のある論文の 1 つである「人間の知識なしで囲碁をマスターする」では、人間の知識を完全に放棄して「困難な領域で学習し、集計し、超人的な能力を達成する」ことが目標でした (Silver 他、2017)。機械学習コミュニティの大部分は、事前の制約を最小限に抑えて大規模なコーパスから常識を推論できれば非常に喜ぶでしょう。 [もちろん、人間の言うことをすべて盲目的に受け入れるのは、それ自体に問題があります。 ConceptNet の主任メンテナーである Robyn Speer 氏は、私たちの野心はもっと良いものであるべきだと語っています。「コンピューターが人間にとって悪いという理由だけで、コンピューターを人間にとって悪いものにすることは避けたいのです。私たちは、技術的に最良であるだけでなく、倫理的にも良い [知識表現] を提供したいのです。」モデル構築も大変な作業であることが証明されており、このステップを省略できれば生活が楽になるだろうというのが一般的な意見です。

問題は、膨大な量のデータと、Transformer (Vaswani et al., 2017) や GPT-2 (Radford et al., 2019) のような基盤があっても、現代のニューラルネットワークによって収集された知識は断片的で点状のままであり、使用可能で、確かに印象的ですが、決して信頼できるものではないということです (Marcus、2020)。

この信頼性のなさや不確実性は、上記の例（洗濯物を家に残した場合、それがまだ母親の家にあるはずがない）や、次のようなより明示的な GPT-2 テストに暗黙的に表れています。

水の入ったガラス瓶を割ると、水が転がり回ることがあります。

水の入ったガラス瓶を割ると、水が一部割れて床に飛び散る可能性があります。水は泡を作り、ボトル内の水の量が増えるにつれて泡は大きくなります。

おもちゃの兵隊が入っているガラス瓶を割ると、おもちゃの兵隊がそこまでついてくるかもしれません。

重要なのは、サットンが人間の知識を「一般的な方法」に置き換えることの価値の例に挙げているのは、ゲーム、物体分類、音声認識など、閉じた領域からのものであるのに対し、常識は制限がないという点です。囲碁のようなゲームで勝つことは、ニュース記事を解釈して評価することや、アポロ13号が宇宙飛行士が急速に減少している危機に瀕した宇宙船の空気フィルターの問題を解決する方法を決定した方法など、現実世界での予期しない計画問題を解決することとはまったく異なります。これは、知識フリーの深層強化学習が管理できる範囲を超えていると思われる、1 回限りのソリューションです。ドライクリーニング店がどこにあるか知りたい場合（前の例のように、昨日ドライクリーニング店に服を預けたが、まだ引き取りに来られていない）、世界の内部モデルと、そのモデルを時間の経過とともに更新する方法が必要です。一部の言語学者は、このプロセスを談話更新と呼んでいます（Bender＆Lascarides、2019年）。 GPT-2 のようなシステムには、そのような機能がありません。

会話言語の理解や世界についての推論といった制限のない領域に純粋な計算能力を適用すると、物事は計画通りには進みません。結果は常にあまりにも痛烈かつ断片的であるため、信頼できるものではありません。

今こそ考えるべき時です。もし私たちがディープラーニングの教訓を受け入れ、人間の知識と認知パターンが再び人工知能の探求において第一級の要素となったら、私たちのシステムはどのようなものになるでしょうか。

2. ハイブリッド、知識主導、認知モデルベースのアプローチ

私を含め、多くの認知科学者は、循環的な方法で認知にアプローチします。つまり、生物（人間など）は外部から感覚情報を取り入れ、その情報に対する認識に基づいて内部認知モデルを構築し、それを尊重しながら決定を下します。これらの認知モデルには、外部世界にどのような種類のエンティティが存在するか、それらの特性は何か、そしてそれらのエンティティが互いにどのように関連しているかに関する情報が含まれる場合があります。認知科学者は一般的に、このような認知モデルは不完全または不正確である可能性があることを認識していますが、生物が世界をどのように見ているかの鍵となるものとも考えています (Gallistel、1990 年、Gallistel および King、2010 年)。不完全な形であっても、認知モデルは世界への強力なガイドとして機能することができます。生物がこの世でどれだけ繁栄できるかは、こうした内部認知モデルがどれだけ優れているかに大きく左右されます。

ビデオゲームは基本的に同様のロジックに従って動作します。システムには世界に関する何らかの内部モデルがあり、そのモデルはユーザーの入力 (およびゲームのシミュレートされた世界における他のエンティティのアクティビティ) に基づいて定期的に更新されます。ゲームの内部モデルは、キャラクターの位置、キャラクターの健康状態、所有物などを追跡する場合があります。 ) ゲーム内で何が起こるか (ユーザーが特定の方向に移動した後に衝突が発生するかどうか) は、このモデルが動的に更新される方法によって決まります。

言語学者は、言語を同様のサイクルの観点から理解することがよくあります。つまり、文中の単語は文法に解析され、文法はさまざまなエンティティが参加するイベントなどを指定する意味論にマッピングされます。このセマンティクスは、ワールドモデル (さまざまなエンティティの現在の状態や位置など) を動的に更新するために使用されます。ロボット工学における作業の多く（すべてではありませんが）は、認識、モデルの更新、決定といった同様の方法で行われます。 (物体把握のためのエンドツーエンドのディープラーニングなど、一部の作業は機能しません。)

現在の論文の最も強力で中心的な論点は、このようなことを行わなければ、強力な知能の探求は成功しないだろうということです。 AI システムが、世界とそのダイナミクスに関する膨大な知識を活用して、外部世界の過度に詳細で構造化された内部モデルを記述および推論できない場合、そのシステムは必ず GPT-2 と似たものになります。つまり、膨大な関連データベースを利用していくつかの点を正しく理解しますが、何が起こっているかを理解できず、特に実際の状況がトレーニングデータから逸脱する場合には (よくあることですが)、そのシステムに頼ることはできません。 GPT-2 の入力をテキスト入力だけでなく知覚入力も含めるように拡張すると、パフォーマンスが向上するでしょうか?そうかもしれません。しかし、入力範囲を単純に拡大するだけでは、システムに明確な内部モデルが欠如しているという根本的な問題は解決されないと思います。同時に、視覚障害のある子どもたちが、視覚的な入力をまったく受けずに、豊かな内部モデルを開発し、かなりの量の言語とそのモデルとの関連づけを学習していることは注目に値します (Landau、Gleitman、Landau、2009)。】

世界について堅牢な方法で推論できるシステムを実現するには、どのような計算上の前提条件が必要ですか?ディープラーニング（主に学習に重点を置く）と従来の AI（知識、推論、内部認知モデルに重点を置く）の間のギャップを埋めるには何が必要でしょうか?

ウォーミングアップとして、より大きな課題の代わりに簡単なタスクを実行することを検討してください。少量のデータに基づいて広範囲に一般化する必要のある機械学習システムを構築しているとします。入力と出力の両方が 2 進数として表される次のような少数のトレーニングペアが与えられます。

ここでは、数学的な恒等法則 f(x) = x + 0 のような広範な一般化 (「ルール」と呼ばれる) が適用されていることが、誰の目にもすぐに明らかになります。新しいケース[f(1111) = 1111; f(10101) = 10101、など]でも機能します。

驚くべきことに、一部のニューラルネットワークアーキテクチャ (たとえば、最近教科書でディープラーニングの標準的な例として説明された多層パーセプトロン) には問題があります。これは、入力が下部、出力が上部、隠し層が中央にある多層パーセプトロンの例です。ニューラルネットワークを扱ったことがある人なら、これは見覚えがあるはずです。

恒等関数で訓練された多層パーセプトロン

このようなネットワークは、入力と出力を関連付けることを簡単に学習でき、実際に「普遍関数近似」のさまざまな法則がこれを保証します。十分なトレーニングデータとトレーニングデータの十分な反復処理が与えられれば、ネットワークはトレーニングデータを簡単に習得できます。

すべてがうまくいけば（たとえば、アーキテクチャが正しく設定され、学習中に局所的最小値に陥らない場合）、これまでに見た例と重要な点で類似している他の例にも一般化できます。「研修割り当て」内では、例えば次のようになります。

ただし、トレーニング分布の外部での一般化はまったく別の話です。

このような例は、トレーニング分布内のケースでは良好なパフォーマンスを発揮しているにもかかわらず、MLP ニューラルネットワークは結局、同一性関係を学習していないことを示しています。同じシステムを f(x) = x で偶数のみにトレーニングすると、トレーニング分布に含まれない奇数に恒等関数を拡張できません (Marcus、1998)。いくつか例を挙げると、「1」ビットを表す右端のノードを含む各出力ノードは、同様の方法で処理する必要があります。つまり、左端のビットが右端のビットであるという抽象化を採用します。バックプロパゲーションでトレーニングされた多層パーセプトロンは、さまざまなものに反応します。右端のノードは常にゼロなので、ネットワークは入力の性質に関係なく、右端のノードが常にゼロになると予測し続けます。たとえば、f(1111) = 1110 と結論付けます。ネットワークは独自の方法で一般化しますが、人間の間で自然に発生するアイデンティティ関係を一般化するわけではありません。

隠し層を追加してもネットワークの動作は変わりません (Marcus、1998)。また、隠し層にノードを追加してもネットワークの動作は変わりません (Marcus、1998)。もちろん、任意の数のソリューションを組み合わせて、特定の問題 (偶数とバイナリの例のみからアイデンティティを学習する) を解決できます。ここでは説明のために単純なアイデンティティの例を使用しましたが、トレーニング分布の外部に外挿する問題は一般的であり、ますます認識されています。 Joel Grus はここで、ゲーム fizz buzz で同様の例を挙げており、Lake と Baroni (Lake & Baroni、2017) は、いくつかの現代の自然言語システムが同様の問題の影響を受けやすく、さまざまな方法で抽象的なパターンを新しい単語に一般化できないことを示しています。 Bengio 氏は最近の NeurIPS 講演 (Bengio、2019) で、既存のニューラルネットワークで実行できる機能の限界について概説しました。標準的なニューラルネットワークアーキテクチャ全体にわたる広範な共通性 (アイデンティティなど) の非均一なスケーリングは非常に一般的であり、私の意見では、依然として進歩に対する大きな障壁となっています。

本質的に、既存のニューラルネットワークのいくつかの種類 (ここで説明したバックプロパゲーショントレーニングされた多層パーセプトロンなど) は、トレーニング例を記憶することと、超次元空間内の特定のクラスターの周囲にあるそれらの例を囲むポイントクラウド内のポイントを補間すること (トレーニング空間での一般化と呼んでいます) という 2 つの点で優れていますが、トレーニング空間外 (Bengio の言葉で言えば、トレーニング分布) での一般化は不十分です。

多層パーセプトロン: トレーニングサンプル空間内での一般化は得意ですが、トレーニングサンプル空間外での恒等関数の一般化は得意ではありません。

その結果、密接に関連する 2 つの疑問が生じます。

1. 特異性: オープンエンドのドメインでは、トレーニング例の空間を超えて一般化するための信頼できる方法がない場合は、システムを信頼できません。個々のシステムを関数近似器として考えると、現在人気のシステムは、例を記憶するのが得意で、トレーニング例に近い多くの例（すべてではない）を記憶するのが得意な傾向があるため、分類に関する多くのアプリケーションに役立ちます。しかし、訓練の範囲外では、彼らは貧しいのです。たとえば、最近の数学学習システムは、1+1=2、1+1+1=3 から 1+1+1+1+1+1=6 までは優秀でしたが、1+1+1+1+1+1+1+1=7 およびそれ以上の例で不合格でした。 (7 未満のカウンター値のみが実行可能であると信頼できるコンピュータプログラムで FOR ループを記述することを想像してください)。 (対照的に、Microsoft Excel の Flash-fill は、多くの場合、より効果的な帰納的手続き型合成に基づく記号システムです (Polozov & Gulwani、2015)。

2. トレーニングレジームの特定の詳細への過度の依存: 通常の人間の学習者はすべて母国語と世界の理解を習得しますが、ニューラルネットワークは、環境が非常に多様であるにもかかわらず、トレーニング項目が提示される順序などの正確な詳細に非常に敏感になる傾向があります (そのため、ニューラルネットワークの「カリキュラム」に関する文献がたくさんあります)。同様に、以前の関連付けが後の関連付けによって上書きされる壊滅的な干渉の影響を受けやすいことが 30 年前から知られています (McCloskey & Cohen、1989)。そのため、項目が提示される順序に非常に敏感になります。潜在的な解決策は今でも定期的に提案されていますが (McClelland、2019)、問題は依然として残っています。同様に、最近の論文 (Hill et al.、2019) では、「ネットワークが示す一般化の程度は、特定のタスクがインスタンス化される環境の詳細に大きく依存します」と述べられています。

特異性や、トレーニング分布を超えて外挿できないことは、私たちの常識的な知識の多くと矛盾します。これにより因果関係の評価も難しくなります。Pearl and Mackenzie (2018) も参照してください。

序文の例を拡張すると、ほとんどの普通の大人と子供は（おそらく特定の経験から）次の抽象的な因果帰納法が真実であることを認識します。液体の入ったボトルを割ると、（他の条件が同じであれば）おそらく液体の一部がボトルから漏れ出します。

このような真実は、ボトルの色や形、サイズ、ボトルに水、コーヒー、珍しいソフトドリンクのどれが入っているかに関係なく、特定のアイテムだけでなく、大規模で制限のないエンティティのクラスに適用されるため、抽象的です。これまでのボトル破損の経験では、ほとんど液体の入ったボトルしか破損していませんでしたが、ボールベアリングやゲーム用サイコロの入ったボトルについても同様の一般化が可能であると考えられます。

また、ほとんどの人は、次のような一般化が非現実的であることに気づくでしょう。「液体の入ったボトルを割ると、液体の一部は（他の条件が同じであれば）おそらく 300 メートル運ばれるでしょう。」

繰り返しになりますが、個人的な経験に関係なく、この知識をさまざまな方法で拡張することができます。なぜなら、この主張は、さまざまなサイズのボトル、さらには以前に遭遇したボトルよりも大きいまたは小さいボトルにも当てはまらない可能性が高いからです。

特定の実体だけでなく、物事のクラス全体に関する抽象的な知識を、どのように表現し、操作し、獲得するのでしょうか?

外挿の課題は、バックプロパゲーションでトレーニングされた多層パーセプトロンなどの汎用ツールが、本質的にその作業に適したツールではないことを意味します。代わりに、抽象的な知識を学習、表現、拡張するための代替メカニズムを見つける必要があります。

2.1 ハイブリッドアーキテクチャ

2.1.1 変数に対する記号演算は唯一の既知の解決策であるが、その解決策は限られている

ソリューション変数に対するシンボリック操作は、潜在的な答えを提供します。これは、毎日 1 秒間に何兆回も使用され、世界中のほぼすべてのソフトウェアの基礎となっています。特に、ほぼすべてのコンピューティングプログラムは、変数、インスタンス、変数をインスタンスにバインドするバインディング、および変数に対する操作という 4 つの基本概念で構成されています。

これらの考え方はそれぞれ、x や y などの実体が変数である小学校の代数学でよく知られています。特定の数値 (2、3.5 など) は、これらの変数がバインドされる可能性のあるインスタンスです (たとえば、x は現在 3 に等しい可能性があります)。演算には加算と乗算が含まれます。これらにより、特定のクラス（たとえば、すべての数値）内のすべての値に自動的に拡張される y = x + 2 などの関係を表現することが可能になります。変数をインスタンスに接続するプロセスは、変数バインディングと呼ばれることもあります。

もちろん、コンピュータプログラムも同じ基盤の上に構築されています。アルゴリズムは主に、変数に対して実行される操作に基づいて指定されます。変数をインスタンスにバインドし、アルゴリズムを呼び出し、操作を実行し、値を返します。

重要なのは、コア操作は通常、クラスのすべてのインスタンス (すべての整数、すべての文字列、またはすべての浮動小数点数など) に適用される方法で指定されることです。コア操作には通常、算術演算 (加算、乗算など)、比較 (x の値は y の値より大きいか)、制御構造 (変数 n が現在バインドされている値に対して n 操作を実行する。x の値が y の値を超える場合は代替 a を選択し、それ以外の場合は代替 b を選択する、など) などの基本操作が含まれます。大まかに言えば（バグやプログラマーのロジックのエラーなどを無視すると）、これは、正しく実装された関数が、公開される入力にまったく依存せずに、特定のクラスのすべての入力に対して機能することを意味します。

操作的に定義された関数の観点から物事を定義するこのアプローチは、標準的な機械学習とはまったく異なるパラダイムであることは注目に値します。機械学習システムは通常、Judea Pearl 氏が曲線フィッティングに例えるプロセスを通じて入力変数を出力変数に関連付ける関数を学習し、プログラマーは通常、トレーニングデータとは関係なく、変数に対する操作の観点からアルゴリズムを定義します。言うまでもなく、これは従来のコンピュータプログラマーに大いに役立ち、オペレーティングシステムから Web ブラウザー、ビデオゲーム、スプレッドシートなど、あらゆるものを動かしてきました。

重要なのは、システムの中核となる変数の操作が、経験とは独立して体系的に機能するように構築されていることが多いことです。たとえば、マイクロプロセッサの回転操作のメカニズムは、マイクロプロセッサのワード幅まで、それぞれ 1 ビットの並列サブ操作のセットによって定義されます。以前使用したことがあるかどうかに関係なく、操作は同じなので、学習する必要はありません。プログラマーは、シフト操作が経験に関係なく機能し、経験に関係なく将来もそのように機能し続けることを安全に期待できます。これらすべての仕組み (変数、インスタンス、バインディング、および操作) の優れた点は、プログラマーがある程度抽象化レベルで物事を指定できるようになり、副産物としてある程度の信頼性が得られることです。

変数、バインディング、インスタンス、および変数に対する操作に関するこれら 4 つの仮定は、全体としてシンボル操作の中核を形成します (Newell、1980 年、Marcus、2001 年)。 (シンボル自体は、ASCII コードで文字を表すために使用される 2 進数のパターンや、ニューラルネットワークの出力ノードが特定の単語を表すことを可能にするエンコードなど、他のシステムで使用されるものをエンコードする単純な方法にすぎません。私の知る限り、現在のすべてのシステムはシンボルを使用しています。Marcus 2001、第 2 章を参照してください。一部のシンボル処理システムでは、加算、連結、比較などの少数の操作しか実行できませんが、他のシステムではより豊富な操作 (複雑な論理式の統合など) が実行されます。これは、マイクロプロセッサのコア命令セットのサイズが異なるのと同じです。シンボル処理アーキテクチャで再帰を構築することは可能ですが、ロジックに絶対必要なわけではありません。

私が論じてきたように (Marcus, 2001; Marcus, 1998; Marcus, Vijayan, Bandi Rao, & Vishton, 1999; Berent, Marcus, Shimron, & Gafos, 2002; Berent, Vaknin, & Marcus, 2007)、子供が抽象的な言語パターンを学習するときや、「sister」などの単語の意味が無限の数の家族に当てはまると理解できるとき、または大人がトレーニング分布を超えて新しい方法で馴染みのある言語パターンを拡張するときなど、何らかの形の記号操作が人間の認知に不可欠であると思われます (Berent et al., 2002; Berent et al., 2007)。最も強力な証拠のいくつかは、1999 年の研究 (Marcus 他、1999) から得られています。この研究で、私と同僚は、生後 7 か月の乳児が、ラトル音の ABB パターンなどの単純な抽象パターンを認識し、一連のトレーニング例から、トレーニングセットと音声的に重複しないまったく異なる音節の新しい文字列に外挿できることを示しました。その後の研究では、新生児でさえこの推論が可能であるように見えることが示されています。 Gallistel and King（2010）は、変数の保管と検索が動物認知にとって重要であると主張しています。たとえば、ミツバチは、太陽方位障害を露出していない照明条件に拡張できるようです。（Dyer and Dickinson、1994）。

シンボル処理の一般的なメカニズムは、構造化された表現の基礎も提供します（Marcus、2001）。たとえば、コンピュータープログラムは、さまざまなもの（階層フォルダーやディレクトリなど）を表すために変数の操作を通じて構成されたシンボルで作られたツリー構造を使用します。

同様に、シンボリック操作のメカニズムにより、時間の経過とともに個人の変化する特性を追跡することができます（たとえば、データベースレコードの形式）。これらの能力は、人間の言語（例えば、再帰的な文の構造）や、時間の経過とともに個人やオブジェクトの変化を理解するために重要であると思われます（Marcus、2001）。 [代数思考の第5章では、エリミネーションコネクショニストモデルの範囲外のいくつかの例を提供します。その多くは、時間の経過とともに存在するエンティティに依存しています。）このメカニズムは非常に強力です。世界のすべてのWebブラウザ、世界のすべてのオペレーティングシステム、世界のすべてのアプリケーションなどは、その上に構築されています。（皮肉なことに、同じツールが世界のほぼすべてのニューラルネットワークの仕様と実装で使用されています）。】

しかし、歴史的に、主流の深い学習は、多くの場合、意図的に回避されるシンボル操作メカニズムから遠ざけようとしてきました。 Rumelhart and McClelland（1986、＃39979;）は、PDPに関する有名な本で、シンボルの操作を人間の計算の本質ではなく、限界現象と見なしました。 2015年、ヒントンはシンボルを「明るいエーテル」に例え、人工知能の要素としての象徴的論理の追求は、

光波は、発光エーテルの乱れを引き起こすことによってのみ空間を伝播できるという信念は正しくありません...そして科学者は、説得力のあるが誤った類推によって惑わされており、彼らは望ましい特性を持つシステムを知っていることを知っていることしか知っていません。

驚くべきことに、個人のデータベースのような記録のようなアイデアもニューラルネットワーク上の大規模な作業から欠落していますが、階層文のような複雑な構造化された表現は、非常に小さな研究でのみ見られます。（DeepMindの興味深い新しいメモアーキテクチャ（Banino et al。、2020）は、ほぼレコードのデータベースを表しています。）

こうである必要はありません。たとえば、原則として、シンボル操作と互換性のあるニューラルネットワークを構築しようとするか、それと互換性のあるニューラルネットワークを構築しようとすることもできます。それは、シンボル操作の原則（「コネクショニズムの排除」）または2つの間のハイブリッドに頼らずに行うことができます。これまでの仕事の大部分は排除されていますが、この優勢は社会学的事実を反映しており、論理的な必要性ではありません。

私は数年後に、多くの人々が、なぜ長い間、非常に深い学習が貴重なツールとして象徴的な操作を使用していないのかと思うでしょう。実際、以下で説明するように、物事は最終的に新しい、より広いプラグマティズムのヒントによって変化し始めます。

この記事の最初の主要な主張は、強力で知識主導のAIアプローチを構築するには、ツールキットでシンボル処理メカニズムを使用する必要があるということです。あまりにも多くの有用な知識が抽象的であり、抽象化を表現し、操作するツールなしでは実行できません。これまでのところ、この抽象的な知識を確実に操作できる唯一のマシンは、象徴的な操作デバイスです。

残念ながら、変数自体に関する限り、操作の手段は学習に役立ちません。 [帰納的ロジックプログラミング（Cropper、Morel、＆Muggleton、2019）は、この記事の範囲内ではないにもかかわらず、考慮に値する純粋にルールベースの学習方法です。】

そこから、ハイブリッドアーキテクチャの基本的な要件が象徴的な操作や、深い学習などの他の技術と組み合わされています。深い学習は、特に大規模なデータセットで学習に対する障壁を引き起こします。特に、象徴的な操作は、表現と運用の抽象化の基準を設定します。 2つを組み合わせる必要があることは明らかです（または、象徴的な操作と機械学習メカニズムを組み合わせるために、強力なインテリジェンスが何らかの混合に依存することを非常に確信していますが、深い学習（現在実践されている）が、ドミナントの機械学習メカニズムとしての役割を果たしているのか、それともそのような役割がasediseable in the Enemyのsuped exed exed exed efced efced efced ement exed emanceのsuped exemen Ational Learning（Raedt、Kersing、Natarajan、＆Poole、2016）および確率計画（Bingham et al。、2019）は、概要についてはVan den Broeck（2019年）を参照してください。

2.1.2ハイブリッドは通常効果的です

ハイブリッドは新しいものではありません。ピンカーと私は3年前（Marcus et al。、1992）を提案しました（Marcus et al。、1992）、子供が英語を学ぶ方法についての最良の説明はハイブリッドです。ルール（動詞の茎に追加）は、通常の動詞の過去の緊張と、不規則な動詞を取得および取得するための神経ネットワークのようなシステムを形成します。長い間、象徴的な知識と知覚的知識を組み合わせる必要がありました（たとえば、馬のような言語定義を持つ馬の外観に関する知覚的知識を縞模様の馬とのゼロシュート学習学習文献を統合しようとする既存のゼロシュート学習の試みを組み合わせて、マルチモダルの知識を統合することを望んでいます。

Ron Sun（Sun、1996）のようなコンピューター科学者は、1990年代を通じてハイブリッドモデルを提唱しました。 Shavlik（Shavlik、1994）は、ロジックの（有限）サブセットをニューラルネットワークに変換できることを示しています。 D'Avilagarcez、Lamb and Gabbay（D'Avila Garcez、Lamb and Gabbay、2009年）は、神経の象徴的なアプローチに関する重要な初期の研究でした。

悪いニュースは、これらの初期の混合方法があまり注目されていないことです。当時の結果は説得力がありませんでした（おそらく、TPUの前の数日間はニューラルネットワーク自体が不十分だったため）。そして、ニューラルネットワークコミュニティは、しばしばハイブリッドパワー（および象徴的な操作を含むもの）を却下します。最近まで、混合記号は歴史的に象徴的な方法と神経法の間にクロスファイアに閉じ込められてきました。

良いニュースは、象徴的な操作の世界と深い学習の領域がずっと前に溶けていたはずだということです。たとえば、Yoshua Bengioは、いくつかの初期のコンピューター言語で使用される標準的な象徴的な操作技術である2019年12月の議論で、名前で変数を渡すことができる技術を統合する技術について話しました。ますます多くの努力により、シンボルとニューラルネットワークをより密接に積極的に構築しようとしています。

Google検索など、世界最大かつ最もアクティブな商用AIシステムの一部は、実際には象徴的な操作と深い学習の混合物です。 Google検索は私たちが考える強力な人工知能ではありませんが、高精度と大容量の方法で機能する効率的な人工知能情報検索システムです。そのデザイナーは、高度にデータ駆動型の方法で広く最適化されており、現在（複数のソースによると）古典的な操作された人工知能技術（例えば、Googleの知識グラフを表現してクエリするためのツールがあります。彼らはまだ深い学習の時代でさえもGoogleの知識グラフを使用しています。これは、シンボルの価値とハイブリッドの価値の両方を示しています（残念ながら、個々のコンポーネントの相対的な長所と短所の詳細な議論はありません。

Openaiのルービックソルバー（Openai et al。、2019）（販売されていませんが）は、ルービックキューブの認知的側面と手動の運用面の深い補強学習を解決するために使用される象徴的なアルゴリズムのハイブリッドです。

Mao et al（Mao、Gan、Kohli、Tenenbaum、＆Wu、2019年）は、視覚的な質問と回答のためのハイブリッドニューラルネットワークの象徴を提案しました。 Jannerらによる関連研究（Janner et al。、2018）。予測と物理学ベースの計画をはるかに上回るための個々のオブジェクトの明示的な記録の深い学習は、同等の純粋なブラックボックスの深い学習方法を上回ります。 Evans and Grefenstette（Evans and Grefenstette、2017）は、ハイブリッドモデルが、マルチレイヤーのパーセプトロンに挑戦するゲームフィズバズなど、さまざまな学習の課題をよりよく把握する方法を示しています。 SmolenskyやSchmidhuberなどのチームは、Bertとテンソル製品を組み合わせて（Smolensky et al。、2016）、シンボリック変数とその結合を表す正式なシステムを形成し（Schlag et al。、2019）、TPトランスと呼ばれる新しいシステムを作成し、数学的な問題のセットでより良い結果を達成しました。

ニューラルシンボリックモデルの基本的な研究は（D'Avila Garcez、Lamb、＆Gabbay、2009、2009）であり、シンボリックシステムとニューラルネットワークの間のマッピングを調べ、従来のニューラルネットワークで表現できる種類の知識の重要な制限を示し、象徴的およびNeural Networksの価値を実証します。第1レベルの近似では、従来のニューラルネットワークは、命題論理のエンジンと見なすことができ、すべてや一部のような定量因子を使用するように、量子化ステートメントを表す良い方法を欠いています。論理テンソルネットワーク（Serafini＆Garcez、2016）は、深いテンソルニューラルネットワークに正式な論理を実装することを目的としています。

統計的関係学習（Raedtet al。、2016）は、Vergari et al。の最近の確率的回路に関する研究のように、論理的抽象化と確率と統計を組み合わせることを目的とした別の興味深いアプローチを表しています。

（Vergari、Di Mauro、＆Vanden Broek、2019）。ドミンゴのマルコフ論理ネットワークは、象徴的な操作と機械学習の利点を組み合わせようとします

（リチャードソン＆ドミンゴ、2006年）。

UberのPyro（Bingham et al。、2019）

Arabshahi et al。

（Arabshahi、Lu、Singh、＆Anandkumar、2019）は、外部メモリをスタックとして使用してツリーLSTMを増幅する方法を示しています。 Fawzi et al。

（Fawzi、Malinowski、Fawzi、＆Fawzi、2019）は、最近、多項式不平等の証明を検索するためのハイブリッドシステムを提案しました。 Minervini et al。

（Minervini、Bošnjak、Rocktäschel、Riedel、およびGrefenstette、2019年）は、最近、貪欲な神経定理（GNTP）と呼ばれるハイブリッドニューラルシンボリック推論システムを提案しました。

（Gupta、Lin、Roth、Singh、＆Gardner、2019）も推論を進めています。アレン人工知能研究所

Aristotle（Aristo）の（Alen Institute for AI）は、8年生の科学試験で他のシステムを大幅に上回る複雑なマルチパートハイブリッドシステムです（Clark et al。、2019）。 Battagliaは、シンボリックグラフと深い学習を統合する物理的推論システムに関する多くの興味深い論文を発表しています（例：Cranmer、Xu、Battaglia、＆Ho、2019）

これらはすべて、急速に発展しているフィールドのほんの一部です。勝者を妨げるには時期尚早ですが、象徴的なアプローチと機械学習の洞察を組み合わせたアーキテクチャを構築するための多くの最初のステップがあり、大規模で騒々しいデータセットから抽象的な知識を抽出および一般化するより良いテクノロジーを開発します。

2.1.3ハイブリッドモデルと象徴的な操作に対する一般的な異議

ハイブリッドモデルの研究と複数の考慮事項の研究に関心が高まっているにもかかわらず、機械学習コミュニティの一部での象徴的な操作に対する嫌悪感が高まっています。前述のように、たとえば、ジェフリー・ヒントンは、ハイブリッド車へのヨーロッパの投資は「大きな間違い」になると考えており、ハイブリッド車両に関する研究を電気自動車の時代に時代遅れのガソリンエンジンの使用に例えています。

しかし、私の知る限り、ヒントンは近年、彼がいくつかの象徴的なハイブリッドモデルに反対した理由について多くの記事を書いていません。

ここに私が他の人から聞いたいくつかの一般的な異議があり、それぞれに簡単な応答をしています。

•シンボルは生物学的に不合理です。この異議には少なくとも4つの問題があります（同様の見解については、Gallistel and King（Gallistel＆King、2010）も参照）。

第一に、象徴的な操作をサポートする神経メカニズムを特定していないからといって、私たちが決してしないという意味ではありません。いくつかの有望な可能性のあるニューロマトリックスが特定されています

フランクランド＆グリーンJD、2019;

Marcus、Marblestone、およびDean、2014年。そのようなメカニズムなしに脳の湿った部分に存在することが不可能であるという説得力のある証拠はありません。今年は、XOR（Gidon et al。、2020）を計算できる樹状突起のキュービクルを見てきました。これは、単一のニューロンが通常想定されるよりもはるかに複雑である可能性を高めます。たとえば、シンボリック操作にとって重要な変数値のストレージと検索は、単一のニューロン内で機能する場合があります（Gallistel＆King、2010）。

第二に、大量の心理的証拠（上記のセクション2.1.1を参照）は、乳児が新しいプロジェクトに新しい抽象パターンを拡張する能力、直接データなしで非ネイティブな言語能力に抽象的言語パターンを一般化する能力など、象徴的な操作が脳の具体的であるという考えを裏付けています。人間はまた、外部から表現されたシンボルに正式なロジックを適用し、プログラムをプログラムし、象徴的な表現であるコンピュータープログラムをデバッグすることを学ぶことができます。これらはすべて、神経ソフトウェアが実際に（ある程度、部分的にメモリ制限された）シンボルを少なくとも一部の構成で操作できることを示しています。言語は本質的に無限に多様であり、無数の文章から無数の意味を推測していることを理解できます。可変操作の特性としての自由な一般化は、認知プロセス全体で普遍的です。

第三に、既存の神経認知的証拠の欠如は私たちにほとんどわかりません。ゲイリー・カスパロフレベルでのチェスが脳でどのように達成されるかをまだ詳細に学んでいませんが、それはゲイリー・カスパロフのチェスが非神経メカニズムに多少依存しているという意味ではありません。

最後に、結果が脳がシンボリック操作メカニズムを使用していないことを示していたとしても、人工知能がこれらのメカニズムを使用できない理由についての原則的な議論はありません。人間には浮動小数点コンピューティングチップがありませんが、これは人工知能で冗長であるべきであるという意味ではありません。人間は明らかに一度書くメカニズムを持っていますが、これはすぐに短期の記憶を取得できます。これは、人工知能でこのメカニズムを使用してはならないという意味ではありません。

•過去には、シンボル/ハイブリッドシステムはうまく機能していません。私はこれをよく聞きますが、私の意見では、それは奇妙な声明です。明らかに無効または時代遅れのハイブリッドとしてのハイブリッドモデルの説明は、現実の正確な説明ではありませんが、セクション2.1.2.10で説明されているように、実際には積極的かつ効果的に研究されています。

•シンボル操作/ハイブリッドシステムはスケーリングできません。ここでは解決すべきいくつかの本当の問題があり、複雑な問題をリアルタイムで処理できるようにシンボル検索を制約するのに多くの努力を費やさなければなりませんが、Googleは言います

ナレッジグラフは、ソフトウェアとハードウェアの検証における最近の大成功と同様に、この異議の反論の少なくとも一部のようです。 Minervini et al。、Yang et al。（Yang、＆Cohen、2017）などの論文。同時に。十分なスケーリングが不可能であり、適切なインスピレーションを与えるという正式な証拠はありません。

過去30年にわたって、私はシンボルに対する多くのバイアスを見てきましたが、私は彼らに対する説得力のある議論を見ていません。

2.1.4特定のシステムがハイブリッドシステムであるかどうかを判断するのは必ずしも簡単ではありません

シンボルに対する一般的な（普遍的ではない）バイアスは、特定の社会学的事実を生み出します。研究者は、（事実を考慮せずに）、Marcus、2001でいくつかの具体的な例を挙げていないことを認めることなく、時折システムを構築します。たとえば、上記のように、Openai Rubikのキューブソルバー（Openaiet al。、2019）には、Kociembaアルゴリズムと呼ばれる象徴的なコンポーネントが含まれていますが、非常に丁寧で成熟した読者のみがこれを認識します。「混合」と「シンボル」という言葉は決して言及されていません。「神経質」という言葉は13回現れます。

特定のシステムが大まかなチェックでどのように機能するかを常に教えてくれるとは限らないため、象徴的な操作を実現せずに効率的に実行するマシンを誤って構築することが論理的に可能です。実際、Webデザイナーは、誤って象徴的なFPGAに等等に何かを発見することがあります。

ベンギオが最近の補給後の対話で示唆したように、深い学習システムは、考えられるように、象徴的な操作の本当の代替品を提供できます。

深い学習バリエーションは、人間が実際に実行できる象徴的な形式を実装できるが、ゴファイとは非常に異なる根拠を使用して、人間が経験した人（たとえば、少数の再帰レベルのみ）との類似性を制限することができると確信しています。

特定のニューラルネットワークが代替品を提供することを当然のことと考えることはできません。

システムが「記号のような計算」に代わるものを実行するかどうか、または実際のシンボリック操作操作を使用して計算を実行するかどうかを評価する唯一の方法は、マッピングを探索することです。アーキテクチャとそのコンポーネントがシンボリック操作のコンポーネントにマッピングするかどうかを考慮して（意味で、化学的にマッピングされたもの）。 Marr（Marr、1982）の計算のレベルは、これを明確に示しています。特定の計算は複数の方法で実装でき、すべての実装が透過的ではありません。化学マッピングは物理的ですが、マッピングが簡単に発見できるという意味ではありません。「正しい」ニューラルネットワークは、シンボリックマニピュレーターマシンまたはシンボリックマニピュレーターマシンにマッピングできます。

堅牢なシステムには、バインド後に変数を結合し、それらの変数に操作を実行するメカニズムがあると固く信じています。しかし、私たちはそれを見ることができません。

この奇妙な音を避けるために、マッピングは神経科学とコンピューティングとの関係を理解するためにも同様に重要であることを思い出します。私たちの脳に実装されていても、それらは意識的な意思決定なしに達成されます。それらのほとんどは透明です。これは、AIへの脳に触発されたアプローチに取り組んでいる神経科学者とAIの研究者の研究であり、AIは脳をリバースエンジニアリングして、どの計算が存在するかを調べます。脳を駆り立てるものはすべて、私たちの現在の理論にマッピングされるかもしれません。脳がどのように機能するかについていくつかの理論を評価するとき、脳のメカニズムがこの理論に適合するかどうかを評価しています。一部の理論には、脳で発生する実際のプロセスに等型構造が含まれますが、他の理論はそうではありません。クヌーセンとコニシ

（Knudsen and Konishi、1979）納屋フクロウの音の位置は、神経回路が最終的に解読され、基礎となる計算にマッピングされる方法の良い例です。

人工知能でも同様の問題が発生します。システムが機能する場合、そのパフォーマンスを駆動するものを理解することは価値がありますが、多くの場合重要ではありません。

システムは、取得して計算されるのではなく、別のメモリにすべての経験を保存しますが、「神経」という用語で説明できますが、そのコンポーネントは変数、バインディング、インスタンス、変数操作（検索など）を維持する役割を認識できます。

いくつかの検索プロセス（ランダム、試行錯誤、進化、自動車、またはその他の方法を使用して適切な統合システムを作成する場合、いくつかのエンジニアリングの問題を解決しますが、これらのモデルが機能する理由を必ずしも科学的に理解するわけではありません。後者は、神経科学のように、可能なマッピングを発見し、拒否するリバースエンジニアリングの仕事です。

完全なニューラルネットワークが私たちに来る場合、科学的発見の別の段階がどのように機能するかを理解することで効果的であることがあります。成功したニューラルネットワークを見つけて、そのコンポーネントがシンボリック操作に完全にマッピングされていることがわかった場合、これはニューラルネットワークだけでなく、システムデザイナーの意図に関係なくシンボリック操作にとっても勝利になります。したがって、システムのコンポーネントがシンボリック操作にマッピングされていない場合、これは象徴的な操作の失敗になります。

合理的な人なら誰でも、人間の脳がこれまでどのように機能するかを理解することがどれほど難しいかを認識し、ニューラルネットワークがますます複雑になるにつれて同じ真実が現実になるでしょう。人間の脳自体は、私たちに効果的に降りる印象的なニューラルネットワークの例です（進化を通じて）。対照的に、LampleやChartonの象徴的な統合に関する最近の研究（Lample and Charton、2019）などのニューラルネットワークと呼ばれる一部のモデルは、深刻な制限があり、シンボリックプロセッサに大きく依存しています（Davis、2019）。象徴的な成分と神経成分がどのように連携するかについて、明確で原則的な理解を持つことは非常に価値があります。】

2.1.5要約

シンボル操作、特に変数の動作メカニズムは、トレーニングメカニズムの外側の外挿の課題に対する自然だが不完全なソリューションを提供します。変数の操作を持つアルゴリズムを表し、特定のクラスのすべてのインスタンスに拡張すると本質的に定義されます。また、構造化された表現（生成言語学の基本と見なされるツリー構造など）を表現し、個人とその行動特性を文書化する明確な基礎を提供します。

それが欠けているのは、満足のいく学習フレームワークです。ミキシングは、深い学習に示されているように、大規模なデータセットから学習する能力と、世界のすべてのコンピュータープログラミング言語の構文とセマンティック通貨である抽象表現を表現する能力です。信頼できるインテリジェンスへの安全なアクセスの前提条件だと思います。

ハイブリッドモデルを研究するために使用されるリソースは、象徴的な操作を避ける「純粋な」深い学習システムに使用されるリソースよりもはるかに少ないが、Google検索の成功は言うまでもなく、セクション2.1.2でレビューされた幅広い研究室からの作業の増加は、すべてのハイブリッドアーキテクチャに関するより深い研究の価値を示している。

残念ながら、私たちはまだ苦境から抜け出していません。強力なデータ駆動型の学習手法と表現と象徴的な操作のコンピューティングリソースを組み合わせた混合モデルは、堅牢な知性に必要な場合がありますが、確かに十分ではありません。次に、さらに3つの研究の課題について説明します。

2.2大規模、抽象的、因果的知識

シンボル操作は抽象的な知識の表現を可能にしますが、知識表現と呼ばれる分野である抽象知識を蓄積して表現する古典的な方法は、常に満足のいくものとはほど遠い残酷で勤勉でした。人工知能の歴史の中で、1984年に開始された機械で解釈可能な形式で常識的な知識を生み出すためのダグ・レナットの最大の努力は、CYCと呼ばれるシステムです（Lenat et al。、1985）。数千人の年が必要であり、心理学、政治、経済学、生物学、その他多くの分野で正確な論理的形態で事実を捉えるには、ほとんど多大な努力が必要です。

これまでのところ、報酬は説得力がありません。 CYCについては比較的少ないカバレッジで（この興味深いハッカーのニュースの手がかりを見ることができますが、評価は困難になります）、商用アプリは圧倒的ではなく穏やかに見えます。ほとんどの人は、CYCを知っていれば、それは失敗だと考えており、現在それを広く使用している研究者はほとんどいません。同等の幅で競争力のあるシステムを構築しようとする人はほとんどいません。（GoogleKnowledgeGraph、Freebase、Yagoなどの大規模なデータベースは、常識ではなく、主に事実に焦点を当てています。）

CYCが入力する必要がある努力と、フィールド全体への影響がどれほど小さいかを考えると、GPT-2のような変圧器に触発されることはありません。彼らがうまく機能すると、彼らは世界の多くの常識的な知識を自動的かつほとんど楽に吸収するかのように、ほとんど魔法のように見えます。ある意味では、トランスフォーマーは、それが吸収する知識を人間の言語の一見複雑な理解とシームレスに組み合わせていると感じています。

これは鋭いコントラストです。しかし、知識代表コミュニティは、数十年にわたってコンテナとその内容の関係を正確な方法で説明するために取り組んできましたが、自然言語理解コミュニティは何十年もの間セマンティック分析を実行するために取り組んできました。

とにかく、GPT2のようなトランスフォーマーは、文法の助けを借りることなく、文法の助けを借りずに問題を解決しているようです。

たとえば、GPT-2には知識エンジニアリングのルールはなく、容器に対する液体仕様はなく、水や液体に関する仕様はありません。前の例で

ガラス瓶の水が壊れている場合、全水が流れ出てはねかく音がする可能性があります。

Concept H20（化学における水の発現）から水という言葉へのマッピングも、中断や流れなどの動詞セマンティクスの明示的な表現もありません。

別の例を挙げると、GPT-2も火災をエンコードしているようです。

点火する良い方法は、ライターを使用することです。

火に火をつける良い方法は、試合を使用することです

機械で解釈可能な形で人間の知識を手作りした数十年のプロジェクトと比較して、一見すると、これは成功の夜と見事な労働貯蓄の両方を表しています。

問題は、GPT-2ソリューションは単なる知識の近似であり、知識自体を置き換えることができないことです。特に、それが取得するのは、概念自体の明確な表現ではなく、大規模なコーパスで単語がどのように共存するか、つまり、近似統計です。言い換えれば、それは単語の使用のモデルであり、思考のモデルではなく、前者は後者のおおよそのモデルです。

このような近似は、複雑な3次元の世界の影のようなものです。ボトル関連の概念を使用することにより、ボトルと壊れた概念は、人間の相互作用のサブセットをコードするコーパスに影を落とします。トランスは、プラトンのall話的な洞窟の囚人のように、言葉で残された影を分析します。問題は、影の分析（つまり、これらのコーパスで単語がどのように使用されているかの共起統計分析）が必ずしもボトルの真の意味や壊れた意味を明らかにしないことです。

真実は、GPT-2は、分析する言葉に関連する概念の関連性をほとんど理解していないということです（関係なく）。たとえば、Frank Keil（1992）によると、知覚機能とより深い概念的理解と比較する場合、古典的な実験によると、何が起こったのかを考えてみましょう。

アライグマの上に衣装を着てスカンクのように見せると、スカンクになります。

飛行機がドラゴンのようにスプレー塗装されている場合、それはドラゴンになります。

明らかに、概念で単語がどのように使用されているかについての特定の統計的特性のみを理解するだけでは、ドラゴンではなく飛行機を飛行機に変える理由など、根本的な概念の性質を理解するのに十分ではありません（逆も同様です）。これは最近匿名で、レビュー中の原稿も同様の点を指摘しています。

フランス語の単語はゲームトークンとしてのみ使用され、その意味とは何の関係もない、ナイジェルリチャーズのようなスクラブルチャンピオンを考えています。基本的に、GPT-2は、引用された基本概念を提案することなく、ゲームトークンの属性として単語シーケンスを予測できます。

それは非常にうまくいくので、それは時々、素朴な人々がマシンに属するよりも機械に属する「エリザ効果」を引き起こすことがありますが、表面的な概念の理解しかありません。

火の例を探求し続けると、同様の結果が得られます

点火する良い方法は、ヒューズを乾燥した綿のボールで覆うことです！

火に火をつける良い方法は、パイントサイズのストーブを使用することです

「火」、「融合」、「光」はすべて互いに関連していますが、これはGPT-2が火の性質の概念的理解を引き起こすのに十分ではありません。言い換えれば、Judea Pearlが言ったように、この異常な行動は、世界のより抽象的で因果的な理解を統合するのではなく、統計的単語の使用の近似統計的曲線によって世界がどのように機能するかを誘導しようとするときに得られる結果です。【在深度学习社区的某些部分中，有一种积极的努力试图整合因果方法；我的猜测是，如果不在因果知识的表示和操作上增加一些固有的约束，这就不可能成功，很可能导致某种混合网络。】有时行得通，有时却行不通。

一个人不可能用如此缺乏可靠性保证的零件来设计一个健壮的系统。

用如此低的可靠性试图用零件构建系统的一个问题是，下游推理将不可避免地受到影响。拥有知识的全部目的是将其用于行动，解释和决策中。如果您不知道会引起火灾的原因，或者瓶子破裂时会发生什么，则很难推断周围的情况。同样，您不能可靠地进行计划。想象一下，一个家用机器人无法点燃顽固的炉灶，用干燥的棉球花了几个小时，一个又一个地覆盖了一个保险丝。

语言理解也不可避免地会受到影响，因为我们经常根据话语的真实性和语境来消除话语的歧义（Tanenhaus，Spivey-Knowlton，Eberhard和Sedivy，1995）。像GPT这样的系统具有一定程度的词语用法语境，但缺乏对认知语境和合理性的可靠表示。

在充满了如此浅薄的概念理解的系统中，可解释性和可解释性也将变得难以捉摸。将棉球和打火机凝结成同等有效的点火方式的系统可能没有内部一致性来满足可解释性的需求。

如果对基本概念没有连贯的因果理解，则可能没有办法在复杂的实际环境中设计鲁棒性。Pearl是对的：如果我们的系统仅依赖于曲线拟合和统计近似，则它们的推论必然会很肤浅。

这使我想到了本论文的第二个主要主张：归结，表示和操纵通常具有因果关系的结构化，抽象知识的大型数据库的系统方法是强大情报的先决条件。

2.2.1强大的人工智能将需要什么样的知识？

以下是一些基本注意事项：

•大部分（但重要但并非全部）知识（请参阅下文）都可以学习。没有人生来就知道打火机会着火，干燥的棉球不会起火，玻璃瓶破裂时可能会做什么。可以想象，可以像CYC那样，将这些知识硬连接到AI系统中，对每个事实进行手工硬连接，但是现代机器学习爱好者显然不愿意这样做。而且由于总是有新知识要收集，因此有必要学习新的抽象机制（通常是因果知识）。

• •一个健壮的系统可能利用的知识中，有相当一部分是象征性地表现出来的外部文化知识。例如，维基百科的绝大多数内容都是口头表达的，一个强大的情报机构应该能够利用这种知识。（目前的深度学习系统只能在非常有限的范围内做到这一点。）大部分知识都是根据变量之间的量化关系进行有效编码的（例如，对于所有x、y和z，x、y和z都是人，如果有一个人y是x的父母和z的孩子，那么x就是z的孙子；对于所有x，x是一个物种，x物种的生物体产生的后代也是x物种的后代，等等）。

•健壮的系统需要的知识中有很大一部分可能是抽象的。当前的系统擅长表示特定事实，例如BORN

（ABRAHAMLINCOLN，KENTUCKY）

和CAPITAL（KENTUCKY，FRANKFORT），但缺少表示和有效处理信息的方式，例如如果瓶子坏了，其他条件相等时，瓶子中的内容物可以逃逸。

•规则和例外必须并存。规则动词（walk-walked）与不规则动词（sing-sang）共存。不会飞的企鹅和其他很多会飞的鸟类共存。机器必须能够以某种方式来表示知识，就像语言学家所说的泛型：知识通常是真实的，但也有例外（飞机会飞，但我们认识到，一架特定的飞机可能会被停飞），甚至不必在统计上准确地反映病例（蚊子携带疟疾是重要的知识，但只有一小部分蚊子实际携带疟疾）。只能获取规则而不能获取例外的系统（例如Evans和Grefenstette（Evans和Grefenstette，2017））是构建能够获取抽象知识但还不够的系统的一个有趣步骤。

•一个健壮的系统可能是因果关系，并支持反事实的知识的一个重要部分。例如，封闭的人并不知道国家有首都，他们知道这些首都在政治上是由人民的行动决定的，而且这些决定有时会被改变。奥尔巴尼是纽约州目前的首府，但如果首府（事实上）被烧毁，我们认识到该州可能会选择一个新的首府。孩子们知道，当玻璃瓶落在坚硬的地板上时，那些瓶子可能会碎。

•尽管在网上搜集诸如首都和出生地等事实知识相对容易，但我们掌握的许多抽象知识很难通过网络搜集；例如，很少有人会写关于破碎瓶子及其内容的文章。大多数情况下，正如列纳特曾经指出的，作家不会写下常识，因为他们的读者已经知道了。（盲目拉网也有其他问题；例如，历史偏见，比如医生是男性，往往会被天真的拉网系统自动延续下去。）

•相关知识的范围必须非常广泛。例如，理解一部小说可能需要技术、政治实体、金钱、天气、人际交往、礼仪、性、暴力、贪婪等方面的知识。例如，约翰·格里沙姆（johngrisham）的第一部畅销小说《公司》（TheFirm）中的关键情节转折就建立在对影印机能做什么、能做多快的理解上，与对人类动机和时间推理的深刻理解并列。

很难将知识付诸实践。

拥有一个庞大的知识数据库是一回事，其中包括有关复印机及其运行速度的事实，另一种方法是将这些知识（在大量其他不太相关的信息库中）整合到关键任务的时间推理中，即英雄律师在陷入秘密但高尚的信息收集行为之前所处的狭窄时间窗口。以一种有效的方式将抽象的知识与现实世界中的具体情况联系起来，本质上是一个尚未解决的问题。

人类知识的一些小而重要的子集可能是天生的；

健壮的人工智能也应该从一些重要的先验知识开始。在当代的ML中，人们常常强烈地希望将知识和天赋最小化；正如下面第2.2.3节所讨论的，我认为这是一个错误。

2.2.2案例研究：容器

让我们更详细地考虑一个案例研究-一个事实（在通常情况下），带盖的茶壶中的水只能从壶嘴出来。

正如读者现在所期望的那样，GPT-2有时会做到这一点。

原则上，我们也许可以通过众包获得这一特定事实，但由于人们很少陈述如此明显的事实，而且更不经常精确地陈述，我们不应该指望它。尽管我们可能需要在我们的数据库中有这样一个事实，例如，如果我们正在构建人工智能来支持一个仿人的老年人机器人的决策，我们可能不会提前预料到这种需要。

如果我们能从更一般的知识中得出这样的事实就更好了，例如，如果我们遇到一个外表陌生的茶壶，我们就会知道它是什么，以及如何与它互动。

Ernest Davis、

NoahFrazier Logue和我提出了一个框架（Davis、Marcus和Frazier Logue，2017），可以帮助解决这类挑战：一大套独立动机的逻辑公理，这些公理不是茶壶特有的，都是通用的，主要由大多数普通人在思考后认识到的抽象组成是真的，从中可以对容器做出正确的推断。

总的来说，公理所处的框架是相当普遍的：关于时间、空间、操纵、历史、行动等的公理。这些公理包括如下陈述（这里有一些稍微简化的解释）：

•物理世界由一系列物体组成，这些物体在时间和空间上移动。

•对象是不同的；也就是说，一个对象不能是另一个对象的一部分，也不能在空间上与另一个对象重叠。

•物体占据某个三维范围的区域；它不能是一维的曲线或二维曲面。

•特定数量的液体可以占据特定体积的任何区域。

•封闭容器是完全包裹内腔的一个物体或一组物体。

•直立开口容器是顶部开口的开口容器。

配备了此类知识的探索性机器人（以及将知识与感知模型和认知模型联系起来的其他机械）也许可以推断出带有几乎隐藏的壶嘴的形状异常的水壶的使用和功能：

[[390938]]

理查德·威廉姆斯·宾恩斯（Richard Williams Binns，1837-1903年）设计的茶壶，其右手下方带有隐藏式喷嘴。

经过一定的扩展，这样一个系统可以提供一个系统的基础，这个系统可以推理出送纱器的用途，即使人们以前从未见过送纱器；最终，人们希望，这些基础可以作为机器人系统的一个组成部分，可以在一个动作过程中应用这些知识，比如编织。

[[390939]]

喂纱器。纱线球停留在较大的开口中，并保持在那里，即使将单股纱线拉出也是如此。

并推断出新的供料器（或与用户进行交流），甚至是完全不同的供料器：

[[390940]]

这种情况在目前的神经网络方法中并没有自然地表现出来。首先，这样做可能需要一个对象的先验概念，而这个对象本身在大多数当前的神经网络中并不容易表示。然而，这些知识需要成为健壮的人工智能的核心部分，我们必须拥有获取这些知识的策略和能够获取、表示和操作这些知识的体系结构——其中一些在本质上似乎是象征性的。

原则上，也许我们提出的公理中有一小部分是天生的，其他人是学来的，尽管到目前为止我还不知道有哪个系统能够学习这类公理。（这里再次强调，具有嵌入式知识的神经符号系统可能会有所帮助。）

重要的是，这组框架本身会聚集到一组相当容易识别的域中，例如关于空间、时间和因果关系的知识，如这里所示：

容器知识框架，摘自（Davis et al。，2017）

2.2.3固有的知识框架

把我们带到本土主义。虽然没有人可能认为所有的抽象知识都是与生俱来的，但其中一些可能是与生俱来的，而让某些知识与生俱来的论点最终非常简单：你一开始知道的越多，其他知识就越容易学习；如果你能缩小自己的范围，你就可以限制你试图寻找的假设空间寻找。

LeCun关于卷积的开创性工作（LeCun，1989）事实上是对这一点的一个有力的实证证明，表明在数字识别任务中学习，在一个预连线的层次结构配备了平移不变特征检测器（使用卷积）的系统中，准确度更好，相对于一个更简单的体系结构来说。唯一的先天优势，卷积，已经被证明是非常有价值的。

然而（许多，并非所有）机器学习研究者反对在他们的系统中加入更多的固有约束，画出一条看似任意的线，这样网络参数（有多少层，损失函数是什么，使用什么输入节点编码方案等等）对于先天性来说是公平的游戏，但大多数其他事情通常是公平的预计将被学习（马库斯，2020年）。有些人甚至认为这是一个值得骄傲的地方；正如一位研究人员在一封电子邮件中告诉我的那样，“如果你主要对理解'学习'感兴趣，那自然会导致你贬低'手工编码'。”

我在2019年12月与Yoshua Bengio的辩论同样具有启发性。他说，预先指定卷积是可以接受的，因为它只需要“三行代码”，但担心将先验知识（先天/先验知识的位）的集合远远扩展到卷积之外，特别是如果这些先验知识需要指定多于几位的信息

正如我在那里向他表达的那样，我不会太担心那些零碎的东西。超过90%的基因组在大脑发育过程中表达（Miller et al.，2014；Bakkenet al.，2016），其中相当数量的基因在特定区域选择性表达，从而产生详细的初始结构。有许多机制可以通过使用少量的基因来指定复杂的结构；本质上，基因组是以半自主的方式构建结构的压缩方式（Marcus，2004）；没有理由认为生物大脑仅限于几个“小”先验。凯文·米切尔最近在辩论后的一次跟进中很好地总结了形势。

的确，基因组中没有足够的信息来说明神经发育的确切结果，即大脑中每个神经元的数量、位置和连通性。基因组只编码一组无意识的生化规则，当这些规则在发育中的胚胎的动态自组织系统中发挥作用时，会导致在自然选择定义的操作参数范围内的结果。但这些操作参数有很大的空间，包括我们认为是先天的各种因素。在许多物种中有大量证据表明，根据基因组中的指令，许多不同的先天前驱确实预先连接到神经系统中。

如果基因组有足够的先天先兆的空间，那么现代人工智能系统可能还有更大的空间；我们生活在一个计算机内存以千兆字节和兆字节来衡量的时代，而不是以字节或千字节来衡量的时代。对于人工智能来说，真正的问题不应该是，我们的先验知识库有多小？但是什么样的先验知识能最有效地为学习创造条件呢？就其本身而言，最小化比特数并不是目标。

如果有三个关于先天性的建议反复出现，它们就是时间、空间和因果关系的框架。

例如，康德强调从时间、空间和因果关系的“流形”开始的价值。斯皮尔克长期以来一直认为，一些基本的，核心的知识，对象，集合和地点可能是先决条件，以获得其他知识。正如她所说（斯佩尔克，1994年）,

如果儿童天生具有感知物体、人、场景和地点的能力，那么他们可能会利用自己的感知经验来了解这些实体的属性和行为……然而，如果他们不能在他们的环境中挑出那些实体。儿童如何才能了解某个领域中的实体，这还很不清楚.

戴维斯和我在我们对容器的分析（见上图（Davis等人，2017））和我们最近的书（Marcus＆Davis，2019）中都同样强调了先前的空间，时间和因果关系框架的价值。 ; 多年来，许多其他发展心理学家也指出了类似的方向（Landau，Gleitman和Landau，2009；Carey，2009；Leslie，1982；Mandler，1992）。

正如斯佩尔克（Spelke）和康德（Kant）都强调的那样，一旦您了解了物体及其在时间中的传播方式，就可以了。您可以开始填写其属性，并开始获得环游世界所需的知识。

残酷的事实是，相反的方法（从近乎空白的板块开始，然后在海量数据集上对其进行训练）到目前为止还没有成功（Marcus 2020）。一些大型公司（例如Google，Facebook，Microsoft等）对由大数据集训练的相对空白的模型进行了全面的测试，并提供了几乎无限的时间，金钱，计算人员和研究人员，但他们仍然无法可靠地推理出时间，空间或因果关系。如果没有这样的能力，我们的系统将永远不会足够强大以应付现实世界的变化。

肯定是时候考虑一种更自然的方法了。

好消息是，尽管在深度学习社区中人们常常不赞成本土主义，但从历史上看，越来越多的迹象表明对``先验者''更加开放（例如Burgess等人，2019年; Rabinowitz等人，2018年） ; Maier等人，2017）。

当然，每个神经网络实际上都是先验的，其形式是先天（即预先建立，而不是通过相关系统学习）对特定层数，特定学习规则，特定连通性模式，特定表示方案的承诺（例如输入和输出节点代表什么），等等。但是，这些先验本质上很少是概念性的。

真正的问题可能是关于可以代表什么样的先验，以及我们所需要的先验是否可以自然地用我们已经拥有的工具来代表，或者我们是否需要新的工具来代表更广泛的先验。深度学习社区似乎可以将卷积（自然适合神经网络框架）用作先验，但是到目前为止，该社区对具有更复杂先验的模型的关注程度大大降低，例如关于对事物永恒性的先天认知【参见Marcus（2001），第5章中有关为什么估计对象的轨迹本身不足以进行讨论的讨论】，或用于理解随时间变化的事件的时间演算。

我们应该问的不是我能去掉的的最起码的内在结构是什么？而是我需要什么样的先验呢？以及我现有的体系结构能否有效地将它们合并？我们是否可以建立一个更丰富的具有深层学习基础的内在基础，或者在这个框架中可以方便地内在地表达的东西是否有限制？我们是否需要显式的符号操纵机制来表示其他类型的抽象，比如因果抽象？事实证明，深度学习擅长表达关于物体外观的知识，但不太擅长获取和表达关于物理世界如何运作的知识（Zhang，Wu，Zhang，Freeman&Tenenbaum，2016），关于人类如何相互作用，以及更普遍的因果关系。

其他方法，如概率规划，允许显式表示的符号约束，同时努力学习微妙的统计信息，值得认真考虑。

退一步说，人类对世界的绝大多数了解都是从中学到的：

事实上，船只倾向于漂浮而不是沉没

事实上，如果船只在水线以下形成洞，它们确实会下沉。

打火机比棉球更适合点火

破碎的瓶子会泄漏

一次又一次，几乎没完没了。无论我们拥有什么样的核心知识，都必须有大量的知识来补充。

认为普通人可能知道（或立即承认是真的）数百万或数千万这样的事实并非没有道理；其中绝大多数必须通过经验、明确的指示或其他方式来学习。重要的是，几乎所有这些知识都可以付诸实践，指导行动和决策（例如，如果我们发现船在水线以下有一个洞，我们会选择不上船）。

但重要的是，我们所学到的知识中有相当一部分是因果性和抽象性的，根据上一节的讨论，这可能需要使用某种混合体系结构。

同时，纯粹的预先连线永远不够，因为世界本身在不断变化；例如，总会有新的因果原理与新的技术联系在一起。如果有人介绍一个流行的新玩意儿叫花花公子™，我们很快就会知道虚拟机是做什么的，如何打开和关闭它，以及如何让它做自己的事情。正如Gopnik和Sobel（Gopnik和Sobel，2000）优雅地展示的那样，孩子们很自然地做到了这一点；我们需要能够做到这一点的机器。

但是我们可能不能也不应该仅仅从经验中学习我们所有的抽象和因果知识。当这么多的知识已经被编成法典的时候，这样做将是极其低效的；例如，为什么要让每个系统重新认识到，即使物体被遮挡，它们仍然存在于空间和时间中，而这是一个普遍的真理？此外，正如我们所看到的，例如在GPT-2的讨论中，从无到有的学习到目前为止是不可靠的。如果没有一些先验知识，例如生理和心理推理的基础知识，我们可以称之为常识的东西几乎都学不好。我们需要一些核心知识来指导剩下的学习。

妥协和创新的必要性再次显现出来。我们显然需要能够获得新的因果知识的系统（可能是神经符号的杂种），但为了获得这种知识，我们可能需要比我们迄今使用的更强大的先验知识。

因此，我的第三个主要主张是：我们不应该把每一个新的人工智能系统从零开始，当作一张白板，对世界知之甚少，而应该寻求建立从时间、空间和因果关系等领域的初始框架开始的学习系统，以加快学习速度并大量限制假设空间。

无论这些框架是用形式逻辑（la-Cyc）表示还是用其他方法表示，也许还没有发明出来，我强烈怀疑它们是朝着健壮智能方向取得任何重大进展的先决条件。再多的天赋也不能代替学习，但不专注的学习是不够的。这个游戏的名字是找到一组先天的先验知识，无论是小的还是大的，这将最有利于学习我们系统最终需要的巨大知识库。

尽管如此，光靠知识是不够的。这些知识必须用推理工具付诸实践，在认知模型的背景下，我接下来要谈到的两个主题。

2.3.推理

在一个著名的轶事，可能更好地在复述，但显然是基于一个核心的真相，传奇演员劳伦斯奥利弗是在现场与年轻的达斯汀霍夫曼，谁放弃了一些睡眠，以使他的角色可能会出现疲惫不堪。奥利弗对霍夫曼说：“亲爱的孩子，你看起来真糟糕。你为什么不试着演戏呢？这样容易多了。”

我对记忆和推理的看法是一样的。目前的人工智能方法主要是试图通过记忆（或至少是近似地记忆）整个世界的概率密度函数来应对世界的复杂性，代价是无法满足地需要越来越多的数据。考虑到世界的指数级复杂性，这一策略不太可能奏效。

推理提供了另一种选择；你不需要记住所有的东西，也不需要在你以前可能遇到的近邻之间进行插值，而是进行推理。你没有记住柏拉图、亚里士多德、欧里庇得斯和我们前面的其他数十亿人都是凡人的事实，而是学到了一个普遍的真理，所有的人都是凡人，并根据需要将这个普遍的真理应用到这个范畴的具体实例中。

正如我们所看到的，神经网络，如Transformers（至少像目前通常使用的那样，在端到端的方式中，与符号操作工具隔离）太不可靠，不适合合理的推理。它们可能在某些时候起作用，但不太可靠；只要有足够的知识可用，符号操纵至少提供了朝着正确方向前进的希望。

在经典模型中，推理引擎的最佳例子是CYC（相当于一个符号系统）能够在最佳情况下执行的那种推理。举个例子，CYC的创始人Doug Lenat（Lenat，2019，#3132}，re Romeoand Juliet）最近的一次讨论，在这里用两个图抽象出来，提供了故事的概要，一些与故事相关的知识，一些常识知识，以及CYC推理的一个例子（复杂推理者和大规模知识的结合）在最佳情况下可以得出

下一代人工智能图2罗密欧与朱丽叶，以及一些与故事相关的知识样本，例如故事中的特定时刻和特定时间点的知识；摘自Lenat 2019。正如后面所讨论的，中间和右边的面板反映了CYC对情节的认知模式的一部分。

图3相关常识知识样本，以及CYC得出的复杂推论；Lenat 2019

上图中间和右面板的详细程度——列出了时间点和在这些时间点上保持正确的陈述——是我将称之为丰富认知模型的一个例子。它是一个认知模型，因为它是一个复杂场景的内在升华，它的丰富之处在于它充满了关于特定主人公在特定时间点做什么、知道什么、打算什么和期望什么的微妙信息。

同样地，我们可以认为下图左半部分所示的常识知识相当丰富，因为它所编码的行为、后果和人类互动的信息错综复杂。其中一些知识可能被明确地表示出来（例如，饮用某种毒物的后果可能是立即死亡），一些可以想象的知识可能是从更一般的事实在网上衍生出来的。（例如，“如果一个人死了，他们就不必和任何人结婚”可能是从一个更普遍的观察中得出的，即义务往往只适用于活着的人。）无论哪种方式，拥有如此广泛的知识储备的回报来自于可以得出的推论的复杂程度（下图右侧），以及在他们的可解释性水平上，这两者与迄今为止通过深度学习产生的任何东西都处于完全不同的水平。

一些观察结果：

•如果不广泛使用结构化表示、变量操作和个人记录，这种方法是不可能的。

•这是一个最好的概念证明，表明拥有丰富的认知模型和丰富的生物学、心理理论等知识的潜在价值。

•然而，它在很大程度上依赖于知识工程师手工完成的大量前期工作，这些工程师已将《罗密欧与朱丽叶》手工翻译成形式逻辑；一个能够在可比水平上自动生成此类表示和推理的系统将是一个重大突破。

•推理本身不一定是通往强大人工智能的瓶颈；真正的瓶颈可能在于在现实世界推理的上下文中获得正确的信息。

当然，CYC远非完美。世界上有太少的东西是以充分的预先包装的形式提供给CYC的。CYC没有太多的自然语言前端，也没有远见；要让它变得合理，你需要把你的问题用逻辑的形式表示出来。由于很少有问题是以这种方式预先包装的，因此直接的商业应用相对较少。但是，在一个将大规模抽象知识与以各种形式逻辑实现的高阶推理相结合的系统中，精细推理是可能的，这是一个存在的证明。

即便是CYC的推理能力，无疑也有很大的提升空间。它的表示主要是（或者完全是）高阶逻辑的东西；不清楚它能在多大程度上表示不确定性，以及对统计分布的推理，等等。正如伯特兰·罗素曾经说过的，“人类所有的知识都是不确定的、不精确的和部分的”，现在还不清楚CYC能处理多少不确定性、不完整性和不精确性。

【另一个问题是人类在推理中面临的诸多限制，如确认偏差、动机推理、语境效应、连接谬误等。在一个理想的世界里，我们会从人类做得好的事情中学到东西，但把这些异常现象抛在脑后。关于为什么人类可能进化出这种认知效率低下的讨论，即使这种认知错误在功能上可能不是最优的，

参见Marcus（Marcus，2008）】

有人怀疑，就像经典人工智能和神经人工智能中的许多其他东西一样，它很可能是脆弱的，高度依赖于数据库中的特定知识以及复杂场景映射到其内部逻辑的精确方式。

尽管如此，它——或者其他能够做类似工作的东西，也许使用不同的方法——似乎是通往稳健推理的必经之路。一个不能理解罗密欧和朱丽叶的情节摘要的人工智能不太可能胜任现实世界的复杂性。一个人工智能，可以推理的动机交互人类作为复杂的事件，因为他们随着时间的推移展开有战斗的机会。

乐观的可能性是，一旦混合架构（architecture）知识的先决条件得到更好的发展，推理可能会自行解决；悲观的可能性是，我们可能需要在推理本身方面进行重大改进，至少在可伸缩性和处理不完整知识的能力方面是如此。在我们把前两个房子——建筑学和知识表示——整理好之前，我们可能真的无法分辨。

但我们已经知道：由于世界的复杂性，我们需要这样的东西。很明显，我们需要新的基准来推动我们的系统进行罗密欧与朱丽叶场景所体现的那种复杂的推理。由于我们既不能预先对每一个场景进行编码，也不希望总是在已知的场景之间进行插值，因此一个能够有效地利用大规模背景知识的推理系统，即使在可用信息不完整的情况下，也是鲁棒性的先决条件。

Minervini等人最近的研究（Minervini等人，2019年）给了我希望，一种神经符号混合的方法可以开辟新的领域。Besold等人（Besold、Garcez、Stenning、van der Torre和van Lambalgen，2017）提供了另一个起点。人们在努力这一事实给了我更多的希望；如果我们要前进，推理和知识需要成为一流的公民，看到人们在努力是件好事。

2.4认知模型

一种特殊的知识是随着时间的推移积累起来的关于特定事务状态的知识，例如我们在谈话过程中可能了解到的关于一个朋友的信息，在阅读新闻过程中了解到的关于一个国家的信息，或者在读一本书时了解到的关于一群人的信息。在认知心理学中，我们称这种累积表征为认知模型。你的认知模式可能和我的不同；你的可能更详细，我的可能不太详细，但我们都经常使用它们。但最起码，认知模型可能包括一些实体的知识（例如，故事中的人物和他们拥有的物品），一些属性的知识（例如，物品的大小和颜色，人物的目标等），以及关于时间和事件的信息（角色x在什么时候遇到角色y，以及x在时间t知道什么）。

CYC/罗密欧和朱丽叶插图中的命题和时间标记，例如关于相信什么和什么时候相信的复杂事实的显式表示，是丰富的认知模型在人工智能系统中可能编码的一个例子。人们还可以想到Johnson Laird（Johnson Laird，1983）关于心理模型的工作。如果我告诉你有一个空书架，然后解释说我把两本书放在书架上，你就构建了一个包含两本书的书架的内部表示。如果我告诉你我在书架上又加了一本书，你就更新你的表示，这样你就有了一个包含三本书的书架的内部表示。理解事物在很大程度上就是推断出它是什么的模型，并最终能够推断出它是如何运作的，以及接下来会发生什么。

这绝不是一个微不足道的过程。任何一个GOFAI研究者都可以描述，原则上，一个人如何手动构建（一些）复杂的认知模型，但在特定场合推断正确的认知模型可能是一个复杂的过程，在给定的情况下，往往有一个以上的似是而非的答案，而且目前还不可能自动化。

CYC的例子罗密欧和朱丽叶是令人信服的，因为系统得出的推论是复杂和明智的，但令人失望的是，基本模型是手工编码的，而不是从剧本中归纳出来的。这使得该系统可以很好地用于演示目的，但在现实世界中，为了让认知模型为强大的人工智能铺平道路，我们需要找到从数据流（如视频或文本）中自动推断它们的方法。

这是一个如此困难的问题（在下面讨论的场景理解领域之外）大多数人转而从事其他的工作，并在令人惊讶的程度上尝试完全不使用认知模型。

例如，DeepMind的Atari游戏系统DQN几乎完全缺乏明确的认知模型。当DQN学会玩突围游戏时，它并没有将单个棋盘的位置抽象成表示单个棋盘的位置和范围的场景图；也没有直接表示划桨的位置、球的速度或游戏的基本物理，也没有任何抽象的实现弹跳的动力使游戏如此引人入胜。在强化学习语言中，系统是无模型的。【头发分裂者（不知道怎么翻译hair-splitters）可能会争辩说，存在某种自我生成的内部模型，指出系统的内部状态在某种程度上与经典认知状态相关，而MuZero这样的系统更是如此（Schrittwieser et al.，2019）。在我看来，这种系统转移到新环境的能力有限（见正文）破坏了这类强有力的主张。】然而超人的成就已经实现了。（值得注意的是，在一些游戏中，如Pong，在已知的起始条件下是严格确定的，完全不看屏幕就可以成功地玩（Koul，Greydanus，Fern-arXiv预印本）附件十四：1811.12530, & 2018, ).

但是，像DQN这样的系统的成功有什么教训呢？在我看来，这个领域过于笼统了。在像Breakout这样的封闭领域中，只要有足够的数据（通常远远超过人类在类似情况下所需的数据），无模型强化学习通常效果非常好。但这并不意味着无模型强化学习是解决智力问题的一个好方法。

问题在于，无模型解在诱导它们的精确环境之外，泛化能力很差。Kansky等人（Kansky等人，2017年）通过修补Breakout以令人信服的方式展示了这一点；即使是将拨片向上移动几个像素之类的微小变化也会导致性能大幅下降。人类通过内部认知模型进行工作，可以很快得到补偿；无模型的深度强化学习系统往往无法做到这一点，相反，经常需要大量的再培训，正是因为它们缺乏丰富的环境认知模型。

GPT-2（见Marcus，2019，2020）等电流互感器在语言理解方面的失败范围反映了类似的情况：预测总体趋势之间的分歧（如短语mom's house出现在单词附近的可能性，以及语料库GPT-2中的短语drop、off、pick、up和clothing）以及表达、更新和操纵认知模型的能力。当BERT和GPT-2未能跟踪干洗将在何处时，这直接反映了GPT和BERT不能代表单个实体随时间演化的特性。如果没有认知模型，这样的系统就会消失。

有时他们从统计学中得到好运，但是缺乏认知模型，他们没有可靠的基础来推理。

认知模型的缺乏对于任何希望使用Transformers作为下游推理系统输入的人来说也是一个惨淡的消息。语言理解的全部本质是从语篇中导出认知模型；然后我们可以对我们导出的模型进行推理。Transformers，至少在他们目前的形式，只是没有做到预测词类是令人印象深刻的，但就其本身而言，预测并不等于理解。

正如我们在第4.3节中看到的罗密欧和朱丽叶的例子，CYC是非常好的，因为它可以（至少在一些非琐碎的程度上）超过认知模型的推理（例如它的时间点列表和关于在不同时间点已知的人物和地点的事实，节选于图2），与背景（常识知识）相关，但仍然存在着可悲的缺陷，因为它无法单独推导出相关的认知模型。任何一个系统，如果能够将自然语言维基百科的绘图摘要（如图2左面板中的一个）作为输入，并自动导出自己的详细认知模型（类似于CYC的程序员手工构建的模型），这样下游的推理者就可以对其进行推理，这将是相对于传统推理的一个重大进步当前AI。

不幸的是，很少有人致力于从描述随时间发展的事件的文本（更不用说视频）中推导出丰富的认知模型。Pasupat和Liang的一篇论文（Pasupat和Liang，2015）试图将句子解析成可在表上运行的可编程查询，但该系统并不试图随着时间积累模型。Facebook人工智能研究的一些论文，例如记忆网络（Bordes，Usunier，Chopra，&Weston，2015）和循环实体网络（Henaff，Weston，Szlam，Bordes，&LeCun，2016），可以将简单的故事作为输入并回答一些关于它们的基本问题。但是这些系统（a）需要大量的输入，相对于他们回答的每个问题，（b）似乎范围有限，很大程度上依赖于问答之间的语言重叠，（c）整合先前知识的能力非常有限。也许最重要的是，（d）他们没有产生丰富的认知模型，可以传递给推理者作为他们的输出。彼得·诺维格（Peter Norvig）关于故事理解的论文（Norvig，1986）试图在一个经典的符号操纵框架中做类似的事情，就像沙克和阿贝尔森（Schank&Abelson，1977）的许多开创性工作一样，但据我所知，故事理解不再是当前研究的活跃领域。这是一个被抛弃而不是解决的重要问题。（沙克和阿贝尔森，1977年）

据我所知，最活跃的文献是关于场景理解的研究，其最终目的不仅是解释视觉场景中存在的对象，而且还解释对象之间的关系，例如，不仅仅是识别一个玻璃杯和一张桌子，而是注意到一个特定的玻璃杯在桌子上，在一个特定的房间里玻璃杯靠近桌子边缘，由桌子支撑，依此类推。这已经超出了艺术的范畴【在我看来，目前的工作场景理解能力很差，部分原因是很多工作试图将场景作为一个整体（“人做饭”）来识别，而不是根据一组个人（如人或物体）以及这些实体之间的关系来识别，部分原因是它的目的主要是在没有推理的情况下进行，推理有时对于构建连贯的模型是必不可少的。因为可能性的数量是指数级的，适合于从有限的类别集合中对图像进行分类的技术不太可能满足需要；相反，推理本身必须（与对象分类一起）有助于从场景中归纳认知模型的过程。最近一个很有前途的概率生成模型GENESIS明确地建模了场景组件之间的依赖关系（Engelcke、Kosiorek、Jones和Posner，2019）。另见DeepMind的莫奈（Burgesset al.，2019）和梅林（Wayne et al.，2018）以及（Gregor et al.，2019）中的表达生成模型。e、 g.，inverse graphics papers by Vicarious（Kanskyet al.，2017；George et al.，2017）和Josh Tenenbaum的团队（Mao et al.，2019；Veerapaneniet al.，2019）。】；最终，认知模型归纳需要更进一步；例如，我们还需要确定心理关系，这两种关系都是在表面层面上的，例如，人1正在与人2交谈，最终达到一个更复杂的水平（例如，人1与人2交谈以欺骗人2，这样人2就会给人1钱）。至少我们的一些符号必须以某种方式建立在我们的感知经验中，如果我们要用符号来解释场景，我们必须有从输入中推断符号（以及符号之间的结构化关系）的方法。建立适当的模型还需要能够推断时间边界和时间关系的系统，等等。

场景理解只是一个更大问题的一个例子；每次我们理解一个故事或阅读一篇文章时，我们都需要做同样的事情，在这种情况下，是从文字而不是直接的视觉体验。

在我们第一次对强大智能的探索中，我们不能期望制造出能理解莎士比亚的机器，但我们可以追求比我们所拥有的多得多的东西。我5.5岁和7岁的孩子可能不会自发地理解莎士比亚，但他们所拥有的智力在很大程度上是强大的；他们了解很多关于日常事物的物理相互作用的知识，以及足够了解人类的目标和动机，以理解大量的儿童书籍；已经，早在小学阶段，他们就掌握了欺骗、误解和动机等概念，这些概念在《罗密欧与朱丽叶》的故事中非常关键。他们可以在各种各样的操场上攀爬和机动，还可以谈论各种各样的话题。

最终，推理和认知模型可以以几乎无限的方式结合起来。例如，假设在中午12点，一个孩子被单独留在一个房间里，房间里有一个装有饼干的封闭饼干罐。中午12:05，人们注意到罐子是关着的，但饼干却不见踪影。其间发生了什么？结合时间和空间推理，你可以很容易地推断出（a）孩子打开了罐子（b）孩子拿走了饼干，（c）孩子吃了饼干，（d）孩子关上了罐子。对于加分，你可以推断（b）一定发生在（c）和（d）之前，但是（c）和（d）的顺序是未知的。结合生物学理论，你可以把孩子理解为一个容器，并意识到饼干现在被包含（部分消化）在里面，已经从一个开口（一张嘴）进入另一个容器（胃）。没有任何理由认为，如果没有内部的认知模型和推理机制，人工智能将能够有力地做出这种推论。没有这一点，就不可能可靠地理解一个侦探小说，一个超越闲聊的对话，或者几乎任何人类互动的叙述。

我有两个猜想

•如果没有混合体系结构、丰富的先验知识和复杂的推理技术，我们就无法以适当、自动化的方式构建丰富的认知模型。举一个例子，如果我们看到水体中的涟漪隐约让人想起汽车，在一般情况下，我们应该假设这些涟漪只是涟漪，例如，基于汽车不会漂浮的知识。但我们可能会在黑帮电影的背景下改变我们的前科，在这部电影中，汽车可能会被故意推入水中。场景理解最终不仅仅是标记对象，而是使用最好的可用数据进行连贯的解释，这需要对数据进行一定程度的推理，并结合先验知识。任何单纯依靠标记图像的自下而上方法都可能在各种异常情况下失败，正如我们迄今所看到的，即使是在地图清晰的公共道路上进行自主驾驶的狭窄领域，尽管付出了巨大的努力和数十亿美元的投资。

•如果没有归纳和表现丰富认知模型的能力，我们就无法获得强健的智力。例如，阅读在某种程度上可以被认为是一种以句子为输入，以产生为输出（内部）认知模式的功能。当我们发现罗密欧自杀时，基于对事实的误解，我们更新了我们的模型。一旦我们更新了我们的模型，我们就会对它们进行推理（考虑到朱丽叶的明显死亡，罗密欧会自杀有意义吗？）。我们的情绪反应也来自于我们对所发生事情的内部认知模式的相对判断。（角色刚才表演的动作是否合乎道德？安全吗？愚蠢？悲剧？）。纯粹的共现统计并没有可靠地得出这一点。Cyc有能力表示丰富的认知模型，但由于它没有感知成分，缺乏足够的自然语言前端，因此不能从数据中归纳模型。Transformers，如果他们成功了，就跳过了归纳和表现丰富认知模型的步骤，但这样做是有风险的，因为他们能够做的推理因此是相当有限的。同样，家用机器人最终也会被限制在他们能够安全参与的行动范围内，因为他们能够通过丰富的认知模型进行归纳、表示和推理。

单靠更多的数据可能无法解决这个问题。在我编辑这篇手稿的时候，谷歌发布了Meena（Adiwardana et al.，2020），在341GB的海量语料库上进行训练，几乎是GPT-2训练的10倍，相当于大约341000本书，远远超过大多数人一辈子的阅读量。

根据谷歌的博客“走向一个可以谈论……任何事情的对话代理”，Meena“可以进行比现有最先进的聊天机器人更明智和具体的对话。”像GPT-2一样，Meena创作的散文既非常流畅，也非常有主题性。它最好的对话是惊人的，该报报道说，它设置了一个新的艺术状态，在新的衡量标准“感性和特异性”。但同样的核心基础——世界内部认知模式仍然缺失。

考虑一下这个片段

你最喜欢的乐队是什么？Avengedsevenfold。

人类：哦，这是个好答案！你最不喜欢哪个乐队？Avengedsevenfold。

哦，我以为你喜欢Avengedsevenfold？米娜：是的。那是我最喜欢的乐队。

每个答案都是连贯的，但从一个答案到下一个答案却没有连贯性。Meena抓住了这样一个事实，即某些短语，如乐队名称，往往与短语，如“最喜爱的乐队”；但没有持久的记录，Meena的喜好，即使是一个简短的对话长度，因此完全不一致。

在第77次对话中也可以看到大致相同的情况。Meena在自称“学习”广东话和已经母语流利的广东话之间摇摆不定：

人类：你的新年决心是什么？米娜：减掉60磅学广东话学法语人类：你不觉得，那很牵强吗？

米娜：不是真的。我现在瘦了35磅，我已经能说广东话到一个基本的水平，而且我已经在学校学法语了。

人类：哇！真令人印象深刻！

米娜：我在一边学法语，这对我来说真的很容易，因为我的母语是粤语。

没有认识到你不能学习一门你已经知道的语言（缺少背景知识），也没有内在的模式来判断米娜是否会说广东话。一句一句的预测很突出；总体上是不连贯的。

当我在修改这篇论文的初稿时，我开始用“猫在垫子上”这句话起草一个图表。我的计划是展示如何解释这个句子，从语法到语义，再到可更新的认知模型，跟踪实体（如猫和垫子）及其属性和彼此之间的关系；目标是展示GPT-2是如何试图缩短这条路径，从而得到混合的结果。

我还没来得及画完这幅图，我5.5岁和7岁的孩子们就从我身后望过去，咯咯地笑着大声念着“猫在垫子上”这句话。我转向年长的那个，问他：“你能把一头大象放在垫子上吗？”他回答说，这要看情况；如果这是一个真正的大垫子，你可以，如果这是一个小垫子，你不能。他立即形成了一个虚构的世界和实体的模型，填充了这个世界，并应用他的一般常识知识的理论世界，完全没有标签的例子。

当他离开房间时，我问了他妹妹，我5.5岁的女儿。她很好地理解了前面的谈话，并对我的问题给出了一个同样恰当的答案。当我问她一座房子是否能放在垫子上时，她证明了自己同样擅长构建一个模型，并对其未指明的参数进行推理，从而得出合理的结论。

我们不可能建立可靠、健壮的人工智能系统，因为这些系统无法与小孩子通常做的基本推理和模型构建相匹配。等待认知模型和推理从越来越大的训练语料库中神奇地出现，就像等待奇迹。

底线是：目前针对建立认知模型系统的研究太少。强调端到端的学习和大量的训练集已经从核心的更高层次的认知转移。大多数研究人员甚至没有试图构建围绕认知模型的系统，而且（除了在像自动驾驶这样的狭隘领域之外）越来越少的研究人员专注于发现相对于输入流（如文本或视频）导出和更新认知模型的一般方法这一相关挑战。很少有人把重点放在结合先前的常识来推理这些模型上，例如大象相对于猫的大小，以及这与各种大小的垫子的关系。

在我看来，构建能够将语言和感知输入映射到丰富的、不断发展的认知模型的系统应该是该领域最优先考虑的问题之一。

换言之，更紧迫的是，花在改进大规模单词级预测模型上的每一刻，即lagpt-2和Meena，都是一个可以更好地用于开发派生、更新和推理认知模型的技术的时机。

如果我们想建立健壮的人工智能，我们就不能再等了。

3.讨论

3.1. 一种围绕着持久的抽象知识的智慧

没有我们，或者像我们这样的生物，世界将继续存在，但它将无法被描述、提炼或理解。鸟可以拍打翅膀，也可以带着它飞行。有关联，但没有因果关系的描述。人类生活充满了抽象和因果描述。我们的孩子大部分时间都在问为什么；科学家问这样的问题是为了产生理论。我们的力量很大一部分来自于我们以科学、文化和技术的形式理解和描述世界的努力。

大部分的努力都以知识的形式达到高潮，有些是具体的，有些是一般的，有些是口头的，有些不是。经典人工智能的很大一部分目标是以机器可解释的形式提取这些知识；CYC是这方面最大的项目。

一路上的某个地方，人工智能领域走了一个不同的方向。大多数研究人员，如果他们了解CYC的话，会认为这是一个失败，而目前很少有研究人员会将他们的目标描述为积累知识，就像Lenat所描述的那样。【也许Google知识图（Google Knowledge Graph）最接近，但据我所知，知识图的目标是积累有助于消除搜索查询歧义的具体事实，比如法国有一个叫巴黎的城市，而不是抽象的常识。】

像Transformers这样的系统的部分成功导致了一种虚幻的感觉，即CYC规模的机器可解释的人类知识表示是不必要的，但我认为这是一个错误。然而，正如我们所看到的，尽管Transformers作为统计推断引擎给人留下了深刻的印象，但它们离成为强大智能的坚实基础还有很长的路要走。他们不可靠，他们的知识参差不齐。

他们的推理能力很差，而且随着时间的推移，他们无法建立事件的认知模型；没有明显的方法将它们与更复杂的推理和认知模型建立系统联系起来，也没有办法将它们用作可解释、可调试的智能的框架。

这篇论文的重担是主张研究重点的转变，转向构建健壮人工智能的四个认知前提：混合架构，将大规模学习与符号操作的表征和计算能力相结合，大规模知识库可能利用固有的框架，这些框架将符号知识与其他形式的知识结合起来，推理机制能够以可处理的方式利用这些知识库，丰富的认知模型与这些机制和知识库协同工作。

随之而来的是对可能更加异构的体系结构的需求。到目前为止，许多机器学习都集中在相对同质的体系结构上，其中单个神经元的能力仅限于求和和和集成，通常不超过少数预先指定的模块。正如最近的研究所表明的，这是一种过分简单化的说法；在宏观层面上，仅大脑皮层就有数百个解剖和可能的功能区域（Van Essen、Donahue、Dierker和Glasser，2016）；在微观层面上，如前所述，即使是单个神经元的单个树突室也可以计算XOR的非线性（Gidon等人，2020）。Adam Marblestone、Tom Dean和我认为（Marcus et al.，2014），大脑皮层不太可能用一个标准电路来计算它的所有功能；神经计算中可能存在一个重要的多样性，这在计算神经科学或人工智能中还没有被捕捉到。

两个数字以定性的方式反映了我认为我们近年来一直在做的事情，以及我们应该做的事情。这些数据的第一点也是最重要的一点很简单：潜在的人工智能（和机器学习）模型的空间是巨大的，而且只有一小部分可能存在的东西被探索过。空白板岩经验主义模型已经得到了很好的研究，并且得到了很好的资助，沉迷于人工智能早期难以想象的计算资源和数据库；已经有了一些真正的进展，但如此多种形式的脆性仍然是一个严重的问题；是时候探索具有类似活力的其他方法了。

向前发展至少需要我们建立一个模型，原则上能够代表和学习我们在语言和更高层次认知方面所需要的各种东西。

目前大多数系统甚至都不在正确的范围内。至少，充分的知识框架要求我们能够通过变量运算，以代数的方式表示和操作我们的知识的一部分；很可能这些知识的一些（大的）子集是按照结构化表示进行编码和维护的，这些知识中的大部分必须与特定的个体有关，并允许对其进行追踪。

Transformer体系结构有解决所有这些问题的方法，但如果不加以补充，最终不太可能成功；同时，我们绝对不能期望所有相关知识都是预先固定的。

本文的有力预测是，健壮的人工智能必然存在于图4所示的交叉点。

图4:Venn图在广阔的智能模型空间中勾勒出了一些模型和架构，重点关注学习和符号操作的维度。代数思维的假设（马库斯，2001），以及目前猜想的核心是，成功的智力模型需要对变量、结构表征和个体记录进行运算。NS-CL[第2.1.2节中提到的神经符号概念学习者（Mao et al 2019）]代表了许多此类可能的混合模型之一，其中许多尚待发明。本文认为，在新的十年里，这一交叉区域应该成为通用智能研究的中心。

同时，这个交叉点内可能模型的空间是巨大的，甚至可能是无限的；说正确的架构是有一个开始，但只是一个开始，就像说一个网络浏览器可能应该用一种语言来编写，那就是图灵等价物。很好，很真实，而且。。。次は何をする？拥有一套合适的基本体只是一个开始。

这里有一种方法来思考这个问题：有无限多的可能的计算机程序，其中只有一些例示应用程序，如（例如）web浏览器或电子表格，并且只有一个子集表示健壮的web浏览器或电子表格。类似地，有无限多的系统包含结构化表示、个人记录、对变量的操作，所有这些都在允许学习的框架内，但只有其中一些系统会实例化健壮的智能。如果本文的主旨是正确的，那么结合学习和符号操作的混合体系结构对于健壮的智能是必要的，但还不够。

例如，还需要正确的宏观结构，包括多个领域的丰富知识，如图5所示：

图5:Venn图强调系统的需要，包括空间、物理、心理、时间和因果推理的机制。大多数当前的神经网络缺乏明确的机制来进行这些形式的推理，也缺乏对这些领域进行表示和推理的自然方式（但参见Cranmer et al.，2019）

将这两个数字的要点与当前的趋势相比较。大多数（并非全部）深度学习的当前工作都回避了对变量、结构化表示和个人记录的操作；同样地，深度学习在很大程度上没有大规模抽象知识、丰富的认知模型和明确的推理模块。总的来说，关于合成认知的原语应该是什么的讨论还不够。深度学习在很大程度上取得了它所取得的成就，没有了这种传统的计算精确性，也没有任何看起来像是物理推理、心理推理等明确模块的东西。

但是，如果认为在诸如语音识别和对象标记等主要围绕分类的领域中，效果相当好的东西，必然会可靠地用于语言理解和更高层次的推理，这是一种谬误。可以肯定的是，一些语言基准已经被打破，但一些深刻的东西仍然缺失。当前的深度学习系统可以学习任意一点信息之间无尽的关联，但仍然无法深入；它们无法代表世界的丰富性，甚至根本不了解外部世界的存在。

那不是我们想去的地方。

在重新启动人工智能即将结束时，我和欧内斯特·戴维斯敦促

简言之，我们实现常识和最终的一般智力的方法是：首先开发能够代表人类知识核心框架的系统：时间、空间、因果关系、物理对象及其相互作用的基本知识、人类及其相互作用的基本知识。将这些嵌入到一个可以自由扩展到各种知识的体系结构中，始终牢记抽象性、组合性和个体跟踪的中心原则。

开发强大的推理技术，能够处理复杂的知识，

不确定，不完整，可以自上而下和自下而上自由工作。将这些与感知、操纵和语言联系起来。用这些来建立丰富的世界认知模型。最后一个重点是：构建一种人类启发的学习系统，使用人工智能拥有的所有知识和认知能力；将所学知识融入其先前的知识；像孩子一样，贪婪地从各种可能的信息来源学习：与世界互动，与人互动，阅读，看视频，甚至被明确教导。把这些放在一起，你就可以得到深刻的理解。（马库斯和戴维斯，2019年）。

我们的结论是“这是一个很高的要求，但这是必须要做的。”即使在GPT-2这样的Transformers在我们付印之后出现了戏剧性的增长，我认为没有理由改变我们的要求。

Weconcluded "It's a tall order, but it's what has to be done." Even after the dramatic rise of Transformers such GPT-2,which came out after we went to press, Isee no reason to change ourorder.

3.2我们还能做些什么吗？

很显然，是的。

3.2.1工程实践

首先，实现稳健性不仅仅是发展正确的认知前提，也是发展正确的工程实践。戴维斯和我在第十章“重新启动人工智能”中简要讨论了这一点，而汤姆·迪特里希在他的AAAI Presidential Address 演讲（迪特里希，2017）中有一个非常好的讨论，我在《重新启动人工智能》问世后才发现这一点。Davis和我强调了冗余和指定公差等技术，这些技术长期以来一直适用于其他形式的工程。Dieterich提出了八条建议，非常值得一读，比如构造对奖励敏感的优化函数和直接构造检测模型故障的机器；和我们一样，他也强调了因果模型的必要性和冗余的价值。Joelle Pineau关于可复制性的观点也很重要（Henderson et al.，2017）。

3.2.2.文化

还有一件事需要解决，既与认知前提有关，也与良好的工程实践无关，那就是文化：某些东西与深度学习社区的某些元素严重不符，不利于进步。这是一个房间里的大象，必须承认和解决，如果我们要向前迈进。

尤其是外界的观点，尤其是批评的观点，往往被视为一种极端的侵略（双方几十年的敌对行动所导致的）【第二个文化问题，正如这篇手稿的一位读者所指出的，是深度学习的倡导者经常过于看重大数据，常常假设（有时是错误的）复杂问题的答案基本上可以在越来越大的数据集和越来越大的计算集群中找到。整个领域，如语言学，在很大程度上都被忽视了。这不可能是好事。】，这种侵略不应在知识论述中占有一席之地，特别是在一个几乎肯定需要成为跨学科的领域，如果要取得进展。

学生们并不是对这种动态视而不见，他们逐渐认识到，公开宣称符号操纵是人工智能的一个组成部分，可能会对他们的职业生涯造成损害。例如，在我与Bengio辩论之后，一位来自著名深度学习实验室的年轻研究人员私下给我写信，说“其实我两年来一直想写一些……关于符号人工智能的东西，每次都不想写，因为担心它会对我未来的职业道路产生这样或那样的影响。”

这是一种适得其反的状态。正如辛顿本人曾经说过的那样，“马克斯·普朗克说过，'科学跨过此次葬礼而前进。'未来取决于某个对我所说的一切深表怀疑的研究生。”进步往往取决于学生认识到长辈理论的局限性；如果学生不敢说话，那就是一个严重的问题。

3.3.一点一点地看清整个大象（事物）

好消息是，如果我们能够开始共同努力，进展可能并不遥远。如果健壮智能的问题已经解决了，就完全没有必要写这篇文章了。但是，也许，只是也许已经足够了，如果我们眯着眼睛，看看周围的碎片，如果我们把它们放在一起的话，我们也许能够想象大象的样子。

一些想法：

•深度学习向我们展示了从海量数据中可以学到多少。同现统计等可能只是可靠知识的影子，但确实有很多影子，只要我们敏锐地意识到它们的优点和局限性，也许我们可以利用这些影子，使用更复杂的技术。

•在丰富的知识基础和丰富的认知模型存在的情况下，CYC显示了复杂推理的潜在能力，即使它本身不能直接从语言或知觉输入中推导出这些模型。

•像NS-CL（Mao等人，2019年）这样的系统向我们表明，符号操纵和深度学习至少在原则上可以整合成一个无缝的整体，既能感知又能推理。

这样的例子太多了。如果我们能够打破僵局，停止60年来阻碍进展的敌对行动，转而集中精力，努力在这些世界之间架起桥梁，前景就是好的。稍微混合一些比喻，也许避开下一个可能的人工智能冬天的最好方法可能是让我们的帐篷不是在一根柱子上休息，而是在许多柱子上休息。

3.4结论、前景和影响

没有什么要求我们放弃深度学习，也不放弃正在进行的专注于新硬件、学习规则、评估指标和培训制度等主题的工作，但它促使我们从学习或多或少是唯一一等公民的观点转变为学习是更广泛的联盟的核心成员的观点欢迎使用变量、先验知识、推理和丰富的认知模型。

我提倡一个四步计划：首先开发混合的神经-符号结构，然后构建丰富的、部分先天的认知框架和大规模知识数据库，然后进一步开发对这些框架进行抽象推理的工具，最终开发出更为复杂的认知机制认知模型的表征与归纳。综上所述，朝着这四个先决条件取得进展，可能会为比目前更丰富、更智能的系统提供基础。最终，我认为这将重新定义我们所说的学习的含义，导致一种（也许是新的）学习形式，它通过抽象的、类似语言的概括，从数据中，相对于知识和认知模型，将推理作为学习过程的一部分。

如果我所描述的没有一个是单独的或者甚至是集体的，我相信，它至少足以让我们更接近一个我们可以信任的人工智能框架。

把事情说得稍微不同一点：我呼吁的一种研究方法是，首先确定一组动机良好的初始原语（可能包括对变量的操作、注意机制等），然后学习如何在之后重新组合这些原语，考虑到这些原语，从本质上说，学习什么是良好的实践。直到后来，一旦这些优秀软件工程的原则被确定，我们才有可能进入极其复杂的现实世界能力。大多数机器学习工作基本上都试图跳过开头的步骤，以经验的方式处理复杂的问题，而从未试图建立一个关于语言和更高层次认知真正需要什么初始原语的坚定理解。跳过这些最初的步骤，到目前为止还没有使我们获得语言理解和可靠的、可信赖的、能够应对意外情况的系统；现在是重新考虑的时候了。

在我看来，如果我们不改变方向，我们就不可能解决我们对人工智能最直接的担忧。当前的范式长期依赖数据，但缺乏知识、推理和认知模型，根本无法让我们获得可以信任的人工智能（Marcus&Davis，2019）。无论我们想建造与我们一起生活在家中的通用机器人，还是在不可预知的地方驾驶我们四处走动的自动车辆，或是对罕见疾病和普通疾病同样有效的医疗诊断系统，我们需要的系统不仅仅是挖掘大量数据集以获得更微妙的关联。为了做得更好，实现安全性和可靠性，我们需要对世界有丰富的因果理解的系统，这需要从更加注重如何用抽象的因果知识和详细的内部认知模型来表示、获取和推理开始。

罗马不是一天建成的。孩子们有大量的常识，能够推理，并学习复杂的知识，但他们仍然需要数年的时间才能拥有（大多数）成年人的成熟度、广度和能力。他们已经开始获得一些知识，具体的方面，在这里和现在，但仍然要学习，特别是有关微妙的领域，如政治，经济，社会学，生物学和日常人际交往。

通过利用混合体系结构中的创新，弄清楚如何利用认知模型和大规模背景知识可靠地构建、表示和推理，如第2.1.2节所述，将是一个重要的步骤，并可能在未来十年中占据大部分时间，但不会是整个过程。

重要的是，这些关键认知前提的进步可能会使人工智能成为一个自给自足的学习者，就像一个聪明的学童一样，但它们本身并不能保证产生一个完整的认知存在。也就是说，它们可能会导致自我教育的机器，在某些方面就像一个孩子，对世界有着不完全的了解，但却有着获取新思想的强大天赋。这当然只是一个开始，但它将使已经发生的事情看起来只是序幕，一些我们还不能完全预见的新事物。

4.致谢

为了纪念雅克·梅勒，1936-2020，科学家，《认知》杂志的创始人，跨学科认知科学的伟大倡导者，我们需要将人工智能提升到一个新的水平。

这篇文章的一部分是对我与Yoshua Bengio于2019年12月23日在加拿大蒙特利尔，由蒙特利尔AI的Vince Boucher组织的AI辩论的反思。我感谢约书亚和文斯使这成为可能我也感谢迪恩阿比奥拉，道格贝米斯，艾米莉本德，文斯鲍彻，厄尼戴维斯，汤姆迪特里奇，佩德罗多明戈斯，查兹费尔斯通，阿图尔达维拉加塞兹，丹尼尔卡尼曼，卡蒂娅卡彭科，克里斯蒂安克斯汀，路易斯兰姆，亚当马布尔斯通，梅兰妮米切尔，艾亚德纳瓦尔，巴尼佩尔，Jean-Louis Villecroze和Brad Wyble，他们阅读并评论了本手稿的早期草稿，Mohamed Amer和Dylan Bourgeous进行了有益的讨论。最重要的是，要特别感谢厄尼戴维斯，我在人工智能这么多的共鸣板；这篇论文很大程度上归功于我们的对话，和我们的联合研究。

<<: AIは細胞構造の識別において人間にはできないことができる

>>: 機械学習の巨匠マイケル・ジョーダン：すべてがAIと呼ばれるわけではない

人工知能の舞台裏：マイクロソフトとOpenAIのスーパーコンピューターはアイオワ州で大量の水を消費している

次世代人工知能

人工知能の舞台裏：マイクロソフトとOpenAIのスーパーコンピューターはアイオワ州で大量の水を消費している

機械学習の問題を解決する一般的な方法があります!これを読んでください

インターネット業界における顔認識機能の認知に関する調査報告書

再帰アルゴリズムにおけるリンクリスト操作

このバイオメディカル AI アプリケーションは信頼できますか?まずはシリコンバレーのトップベンチャーキャピタリストに6つの質問に答えてください

岐路に立つ交通：自動運転の未来はどうなるのか？

財務報告分析：マイクロソフトの生成AIへの賭けは成功したが、グーグルは依然として苦戦中

人工知能はますます私たちに近づいている

推薦する

次世代言語モデルパラダイム LAM が登場します! AutoGPTモデルがLLMを席巻、計画、メモリ、ツールの3つの主要コンポーネントの包括的なレビュー

ディープマインドの共同創設者が新たなチューリングテストを提案：AIで10万ドルを100万ドルに増やす

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

驚異的な言語 AI モデルが登場しました!物語を作り上げ、それを現実のように見せたり、質問と回答の要約を書いたりする

人工知能を正しく実装するにはどうすればいいでしょうか?

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

人工知能はインターネットなしでも動作できるようになる

中国の人工知能はどれほど強力か？将来ロボットが手術を行えるようになるか？外国人は信じられないと言う

マイクロソフト、Bing Chat と Bing Search にダークモードを導入開始

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明：堅牢性は一般化の基礎である