ニューラルネットワークの父、ヒントン氏の最新の演説: デジタルインテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

「人工知能のゴッドファーザー」として知られるジェフリー・ヒントン教授は、英国王立協会 (FRS) の会員であり、カナダ王立協会 (FRSC) の会員であり、カナダ勲章 (CC) を受賞しています。

オックスフォード大学は2024年2月19日にシェルドニアン劇場で毎年恒例のロマネス講演会を開催し、ジェフリー・ヒントン氏が「デジタル知能は生物学的知能に取って代わるか？」と題した講演を行った。

写真

ロマネス講演会は、オックスフォード大学で毎年開催される公開講演会です。1891 年に創設されたこの講演会は、オックスフォード大学副学長の特別招待により、芸術、科学、文学の分野で最も著名な著名人が講演を行うものです。

ヒントン氏は演説の中で、人工知能の危険性と、それが人間を支配して人類の絶滅につながらないようにするにはどうすればよいかについて論じた。「デジタル超知能が本当に世界を支配したいのであれば、それを阻止できる可能性は低い」と彼は語った。

写真

英国系カナダ人のコンピューター科学者で認知心理学者の同氏はまた、AIが労働市場で人間に取って代わる可能性があり、誤った情報を広めるのに利用される可能性についても語った。同氏は以前、AIシステムが「超知能」になるには1世紀ほどかかる可能性があると考えていた。しかし彼は今、それが予想よりもずっと早く起こるかもしれないと考えている。

ヒントン氏のスピーチ全文は以下の通り。

わかりました実際の公開講演を行うので、コンピューターサイエンスや機械学習分野の人々を失望させることになるかもしれません。

私はニューラルネットワークとは何か、言語モデルとは何か、そしてなぜニューラルネットワークに理解能力があると思うのか、これらについて私がたくさん研究してきたことを説明したいと思います。

この投稿の後半では、AI がもたらす脅威のいくつかについて簡単に説明し、デジタルニューラルネットワークとアナログニューラルネットワークの違いと、その違いがなぜ恐ろしいと思うかについても説明します。

1950 年代以降、人工知能に関しては 2 つの研究パラダイムが存在してきました。

写真

論理ヒューリスティックアプローチでは、知性の本質は推論であり、それは記号規則を使用して記号表現を操作することによって達成されると考えています。

彼らは、人工知能は「学習」を急ぐべきではないと考えています。私が学生だったとき、誰かが私に学習を勉強してはいけないと言いました。物事の表現方法を理解すれば、学習は簡単です。

生物にヒントを得たアプローチはまったく異なります。知能の本質は、ニューラルネットワークの接続の強さを学習することだと考えています。「推論」を急がないでください。学習が完了すると、推論は自然に行われます。

ここで、人工ニューラルネットワークとは何かを説明します。知っている人にとっては、これは子供の遊びのように思えるかもしれません。

写真

単純なニューラルネットワークには、入力ニューロンと出力ニューロンがあります。入力ニューロンは画像内のピクセルのグレースケール値を表し、出力ニューロンは犬や猫など画像内のオブジェクトのクラスを表す場合があります。

次に、隠れニューロンと呼ばれることもある中間層のニューロンがあり、これらのものに関連する特徴を検出して認識することを学習します。

したがって、鳥の写真を認識したい場合、画像内のさまざまな場所と方向にある小さなエッジを検出する特徴検出器のレイヤーから始めることが 1 つの考え方です。次に、鋭角で交わる 2 つのエッジ (鳥のくちばしの形である場合もそうでない場合もある) や、小さな円を形成するエッジなど、エッジの組み合わせを検出するニューロンの層を作成します。次に、円のようなものを検出するニューロンの層があり、交わる 2 つのエッジがくちばしのように見え、正しい空間関係にあるため、これは鳥の頭である可能性があります。

最後に、鳥の頭、鳥の足、鳥の翼が見つかったら、これはおそらく鳥である、という出力ニューロンの層ができるかもしれません。

これらは学ぶべきことです。さて、小さな赤い点 (上の写真では濃い緑の点、編集者注) と小さな緑の点は、接続部の重みです。問題は、誰がこれらの重みを設定するかです。

どうやら機能するようですけれど、どうやら時間がかかる方法が 1 つあります。重みはランダムに始まり、ランダムな重み (たとえば赤い点) を選択し、それを少し変更して、ネットワークのパフォーマンスが向上するかどうかを確認します。

実際に改善が見られるのか、この重量を少し増やしたり減らしたりすることで改善されるのかを実際に評価するには、さまざまな状況で試してみる必要があります。増やすと悪化するなら減らせばいいし、その逆もまた同じです。

これが突然変異の仕組みであり、遺伝子型から表現型へのプロセスは非常に複雑で、ランダムな外部イベントに満ちているため、進化においては理にかなっています。

進化のモデルはありませんが、ニューラルネットワークの場合はまったく異なります。ニューラルネットワークで発生する複雑なプロセスを記述するモデルがあり、順方向伝播で何が起こるかを把握し、測定ではなく計算によって重みを変更するとどのような影響が出るかを確認します。

バックプロパゲーションと呼ばれる方法があります。これは、取得した結果と希望する結果の差である情報をニューラルネットワークに送り返すものです。この時点で、ネットワーク内の各重みを調整する必要があります。わずかに減らすか、少し増やすかは関係なく、目的は結果を希望する結果に近づけることです。これがバックプロパゲーションアルゴリズムです。

写真

これは、ネットワーク内の重みの数に応じて効率比が変わる、突然変異法よりもはるかに効率的な微積分の連鎖律を使用して行うことができます。ネットワークに 1 兆個の重みがあれば、効率は 1 兆倍になります。

ニューラルネットワークは、画像内のオブジェクトを認識するためによく使用されます。これで、ニューラルネットワークは画像の説明を出力として生成できるようになりました。

写真

長年にわたり、人々は記号的な方法を使ってこれを実行しようとしてきましたが、それに近いものはなく、困難な作業です。

生物系は階層的な一連の特徴検出器を通じてこれを実現することがわかっているので、この方法でニューラルネットワークをトレーニングするのは理にかなっています。

2012 年に、私の学生である Ilya Sutskever と Alex Krizhevsky の 2 人が、私からのわずかな協力を得て、この方法で、100 万枚のトレーニング画像を与えると 1,000 種類の異なるオブジェクトを認識できる非常に優れたニューラルネットワークを作成できることを示しました。そしてそれ以前は、トレーニング用の画像が十分ではありませんでした。

イリヤは、このニューラルネットワークが ImageNet コンテストで優勝することを予見していました。彼の予想は正しく、彼らは圧倒的な勝利を収めました。彼らのニューラルネットワークのエラー率はわずか 16% でしたが、従来の最高のコンピュータービジョンシステムのエラー率は 25% を超えていました。

すると、科学の世界で非常に奇妙なことが起こりました。通常、科学の世界では、2 つの競合する学派がある場合、少し進歩すると、もう一方の学派はあなたの研究はゴミだと言います。しかし、今回のケースでは、そのギャップが大きかったため、最も優秀な研究者であるジテンドラ・マリク氏とアンドリュー・ジッサーマン氏が研究を切り替えてこの研究を行い、アンドリュー・ジッサーマン氏は私にメールを送って、素晴らしいと言ってくれました。

そして、少し困ったのは、彼の成績が私たちより少し良かったことです。

言語処理に関しては、シンボリック AI を固く信じている研究者の中には、シンボリック AI が言語処理に優れているはずだと考える人もおり、ニューラルネットワークの特徴レイヤーでは言語の問題を処理できないと出版物で主張する人もいます。多くの言語学者もこの態度をとっています。

ノーム・チョムスキーは、言語は学習されるものではなく生来のものであると信奉者たちに確信させた。振り返ってみると、この発言はまったくばかげています。明らかに間違っていることを人々に信じ込ませることができれば、あなたは彼らをあなたのカルトに引き入れていることになります。

チョムスキーは素晴らしい貢献をしたと思うが、彼の時代は過ぎ去った。

そのため、生来の知識を持たない大規模なニューラルネットワークが、データを観察するだけで言語の構文と意味を実際に学習できるという考えは、かつては統計学者や認知科学者によって完全に狂気の沙汰と考えられていました。

ある統計学者がかつて私に、100 個のパラメータを持つ大規模モデルで十分であり、100 万個のパラメータをトレーニングするという考えはばかげている、と説明してくれたことがありますが、現在では 1 兆個のパラメータをトレーニングしています。

ここで、1985 年に私が取り組んだ仕事のいくつかについてお話ししたいと思います。これはバックプロパゲーションでトレーニングされた最初の言語モデルであり、今日の大規模なモデルの先祖と見なすことができます。

仕組みが理解できるほど小さくてシンプルなので、詳しく説明します。仕組みを理解すると、より大きなモデルで何が起こっているのかがわかります。

写真

意味に関しては2つの非常に異なる理論があります。

一つは、単語の意味は他の単語との関係によって決まるとする構造主義理論で、ソシュールに由来する。 Symbolic AI はこのアプローチを強く信じています。このアプローチでは、単語のノードと関係のアークを持つ関係グラフがあり、そのようにして意味を捉えますが、この考え方では、そのような構造が必要であるとされています。

1930 年代、あるいはそれ以前から心理学には存在していた、単語の意味は一連の特徴の集合体であるという心理学理論もあります。たとえば、「犬」という単語は、それが生きている、捕食動物である、などのことを意味します。しかし、その特性がどこから来たのか、あるいはその特性が正確には何なのかについては述べられていません。

これら 2 つの意味の理論はまったく異なっているように聞こえます。

私が皆さんにお見せしたいのは、これら 2 つの意味の理論を統合する方法です。私は 1985 年に、1,000 を超える重みを持つ単純なモデルに対してこれを行いました。

基本的な考え方は、各単語の意味的特徴を学習し、次の単語の特徴を予測するために単語の特徴が互いにどのように相互作用するかを学習することです。つまり、次の単語の予測です。現在の言語モデルが微調整時に行うのと同じです。

しかし、最も重要なのはこれらの機能の相互作用であり、明示的な関係図は存在しません。そのようなグラフが必要な場合は、特徴からグラフを生成できます。

これは生成モデルであり、知識はシンボルに割り当てた機能と、それらの機能の相互作用の中に存在します。

これは 2 つの家系図の関係を示す図です。これらは意図的に同型になっています。私のイタリア人の大学院生は、常にイタリアの家族を一番上に置いています。

写真

同じ情報を 3 つの値のセットを使用して表現することもできます。コリンには父親のジェームズがいて、母親のビクトリアがいるなど、12 の関係が見つかります。また、1950 年代の良き時代、ジェームズには妻のビクトリアがいたことが推測できます。

他にも推測できる事はあります。問題は、トリプルをいくつか与えた場合、どのようにルールを取得するか、そしてシンボリック AI がやりたいことは、そのような規則的な形式を導き出すことです。 X に母親 Y がいて、Y に夫 Z がいる場合、X には父親 Z がいます。

私がやったのは、ニューラルネットワークを採用し、機能の相互作用を通じて同じ情報を学習させることでした。違反できないルールの離散空間では、これを実行するのは困難です。実際、象徴主義者たちは他の方法でこれを実行しようとしました。

しかし、ルールが常に安定していて適用可能である必要がない場合は、ニューラルネットワークの方がはるかに優れています。

問題は、ニューラルネットワークが、シンボリック AI がルール空間に入力する知識を、バックプロパゲーションだけで取得できるかどうかです。

ニューラルネットワークの仕組みは次のとおりです。人物を表すシンボルと関係を表すシンボルがあります。シンボルはいくつかの連結を通じて特徴ベクトルに変換され、これらの特徴はネットワークによって学習されます。つまり、人物の特性と関係性の特性が存在します。これらの特性が相互に作用して、出力人物 (関係人物とも呼ばれます、編集者注) の特性が導き出され、次に特性に最も一致する人物が見つかり、この人物が出力される人物になります。

写真

このネットワークの興味深い点は、それが何か賢明なことを学習するということです。

正規化を正しく行えば、6 つの特徴ニューロンで十分であり、これらのベクトルには 300 または 1000 の要素が含まれることになります。当時は 6 個しかなく、浮動小数点乗算 1 回あたり 12.5 マイクロ秒かかるマシンでした。

これは、乗算に 2.5 ミリ秒かかった私の Apple II よりもはるかに優れています。すみません、私は老人です。

つまり、国籍などの特徴を学習します。一人称が英語だとわかれば、出力も英語になることが分かるので、国籍は非常に便利な特徴です。また、人の世代特性も学習します。答えが入力の前の世代であることがわかっていて、入力の世代がわかれば、出力の世代もわかります。

したがって、ドメインの明らかな特徴をすべて学習し、それらの特徴を相互に作用させて出力を生成する方法を学習します。

したがって、シンボル文字列を入力として受け取り、対応する特徴を作成し、これらの特徴を相互に作用させて最終的にシンボル文字列を生成します。

しかし、GPT-4 のように記号の文字列は保存しません。長期的な知識の中に単語のシーケンスは保存されず、そのすべての知識がシーケンスを再生成できる重みに変換されます。

これは非常に単純な例なので、何をするかを理解できます。

現在私たちが持っている大規模な言語モデルは、この小さな言語モデルの子孫であると私は考えていますが、100 万語の断片など、はるかに多くの単語を取り込み、数十層など、より多くのニューロン層を使用します。

より複雑なインタラクションを使用します。 1 つの機能が別の機能に影響を与えるのではなく、特徴ベクトルを一致させるのに似ています。あるベクトルが別のベクトルと類似している場合は、そのベクトルの影響を大きくし、そうでない場合は、そのベクトルの影響を小さくします。等々。

したがって、これにはより複雑な相互作用が含まれますが、それらは同じ基本的なフレームワーク、つまり、単純な文字列を単語の断片の特徴に変換し、これらの特徴ベクトル間の相互作用を可能にするという同じ基本的な考え方に従います。これはこれらのモデル間で同じです。

それらがどのように機能するかを理解するのはさらに困難です。多くの人々、特にチョムスキー学派の人々は、それらは本当にインテリジェントなものではなく、統計的な規則性を利用して人間が作成したテキストの断片をつなぎ合わせる、単なる高機能なオートコンプリート機能に過ぎないと主張しています。確かに誰かがそう言った。

まず「オートコンプリート」についてお話ししましょう。誰かが単にオートコンプリートだと言うとき、その人は実際はオートコンプリートに対する直感的な理解を表現しているのです。かつてのオートコンプリートは、3 つの単語を保存することで機能していました。2 つの単語を見て、3 番目の単語が出現する頻度を数えていました。たとえば、「fish and」を見ると、その後に「chips」がかなり頻繁に出てきますが、「hunt」もかなり頻繁に出てきます。したがって、「チップ」は可能性が高いですし、「ハント」も可能性が高いですが、可能性は低いです。

これをオートコンプリートに使用できます。人々がオートコンプリートだけだと言うとき、彼らが言っているのはまさにそれです。これは低レベルのトリックであり、LLM (大規模言語モデル) が次の単語を予測する方法とはまったく異なります。LLM は単語を機能に変換し、それらの機能を相互に作用させ、それらの機能の相互作用から次の単語の機能を予測します。

私が強調したいのは、これらの何百万もの特徴と、それらが学習する特徴間の何十億もの相互作用が理解であるということです。

これが大規模言語モデルの実際の仕事であり、データにモデルを当てはめるものですが、最近まで統計学者はこの種のモデルについて真剣に考えていませんでした。これは奇妙な種類のモデルで、非常に大きく、大量のパラメータを持ち、特徴と特徴の相互作用の観点からこれらの個別のシンボルの文字列を理解しようとします。

しかし、それは確かにモデルです。だから彼らは本当に理解力があるんだと思います。

覚えておいてほしいのは、では私たち（人間）はこれをどう理解するのか、ということです。なぜなら、明らかに私たちはそれを理解していると思っているし、私たちの多くはそう思うだろうからです。

ビッグモデルは、理解するための最良のモデルです。AI システムがどのように理解するかを理解し、脳も同じことをするかどうかを考えることでこれを学ぶわけではありません。脳がどのように理解するかについて私たちが理解している最良の方法は、脳が単語に特徴を割り当て、その特徴を相互作用させるということです。

もともとこの小さな言語モデルは、人間の理解をシミュレートするために設計されました。ですから、私はこれらのことは確かに理解できると強く信じています。

もう一つの議論は、GPT-4 には幻覚の問題があるというものです。言語モデルの場合、実際には捏造と呼ぶ方が適切で、単に物事をでっち上げるだけです。

心理学者は、人々がしばしば事実を捏造することを知っているので、このことについてあまり話しません。

記憶を研究した人なら誰でも、1930 年代のバートレットのことを知っていれば、人間は実際には大きな言語モデルのようなもので、物事を作り上げているだけであり、私たちにとって本当の記憶と偽の記憶の間に明確な境界はないということを知っています。

最近何かが起こり、それがあなたが理解していることに当てはまる場合、おそらくそれを大体正確に覚えているでしょう。何かがずっと昔に起こったり、奇妙なことがあったりすると、それを間違って覚えてしまいます。また、正しく覚えていると確信しているのに、間違っていることもよくあります。

これを証明するのは難しいです。しかし、この点を証明する一つの例があります。それはジョン・ディーンの記憶です。ジョン・ディーンはウォーターゲート事件の際に宣誓証言を行った。後から考えれば、彼が真実を伝えようとしていたことは明らかだが、彼の言ったことの多くは明らかに間違っていた。彼は誰がどの会議に出席していたかを混同し、誰かが何かを言ったと言ったが、実際に言われたのはそうではなかった。会議に関する彼の記憶は完全に混乱していたが、当時ホワイトハウスで何が起こっていたかの要点は理解していた。

（会議の）ビデオを見れば真実が分かるし、彼はそのビデオのことを知らない。この方法で素晴らしい実験を行うことができます。

ウルリッヒ・ナイサーはジョン・ディーンの記憶について論じた素晴らしい記事を書いています。彼はチャットボットのようなもので、ただでっちあげているだけだが、彼の言葉はもっともらしく聞こえ、彼は単に自分に都合の良いことを言っただけだ、と書いています。

大規模なモデルでも推論を実行できます。トロントにシンボリック AI に興味を持っている友人 (Hector) がいますが、正直に言うと、彼は大規模なモデルがどのように機能するかについて非常に混乱しています。

彼は私に質問をしました。私はそれを少し難しくして、GPT-4 がインターネットで物事を検索できるようになる前に質問しました。当時は 2021 年に修正された一連の重みだけであり、すべての知識は機能の相互作用の強度にありました。

質問は、「私の部屋はすべて青、白、黄色に塗られていますが、黄色の塗装は 1 年以内に白くなってしまいます。2 年以内にすべての部屋を白にしたいのですが、どうすればよいですか。その理由は何ですか。」です。

ヘクターは、それが正しく答えるとは思わない。

写真

GPT-4 の回答は次のとおりです。まさに正解でした。

写真

まず、青いペンキは白に色あせないと仮定します。なぜなら、黄色いペンキは白に色あせ、青いペンキも色あせる可能性があるので、色あせないと仮定するからです。そうすれば、白い部屋を塗装する必要がなくなり、黄色い部屋も 1 年以内に白く色あせてしまうので塗装する必要がなくなります。そして青い部屋は白く塗る必要があります。

一度この問題を解いたとき、黄色は白に変わることが認識されたため、青い部屋を黄色に塗る必要があると表示されました。これはむしろ数学者の解決法に似ており、問題を事前の問題に還元します。

それで、彼らがこれらのことを理解した今、私はいくつかのリスクについてお話ししたいと思います。

強力な AI には多くのリスクが伴います。たとえば、次回の選挙で使用される偽の画像、音声、ビデオなどです。今年は民主主義を弱体化させるような選挙が数多く行われるだろう。私はこれについて非常に心配しています。大企業はいくつかの対策を講じていますが、十分ではないかもしれません。

大量失業の可能性もある。私たちはこれを完全には理解していません。つまり、これまでテクノロジーは一般的に雇用を生み出してきましたが、これは違います。かつて私たちは強大な存在でした。動物を除けば、最も強力な存在でした。

産業革命が起こると、より強力な機械が生まれ、肉体労働の仕事は消滅しました。

今では、知的分野でも、いくつかの仕事が消滅し、私たちよりもはるかに賢いものに置き換えられるでしょう。

ですから、多くの失業が発生すると思います。私の友人のジェンは反対です。

2種類の失業、2種類の雇用喪失を区別する必要があります。

医療業界など、仕事量が無限に拡大する可能性がある仕事もあります。誰もが、いつでも自分と連絡を取ることができる専属の医師を望んでいます。ですから、頬がかゆいとき、医師は「いいえ、それは癌ではありません」と言うことができます。ですから、医療には大きな拡張の余地があり、そこでは雇用が失われることはありません。

しかし、他の分野では、相当な雇用喪失が起こる可能性がある。

AI は、実際に自律的に動作する、極めて恐ろしい自律型致死兵器の開発にもつながるでしょう。

アメリカは、人間が主導権を握ると非常に明確に決定を下しました。しかし、それが何を意味するのかと尋ねると、それは人間が殺害の決定を下すループに関与することを意味するのではない、と答えます。

私の知る限り、米国は2030年までに兵士の半数をロボットにする計画を立てている。

さて、これが本当かどうかは分かりません。私は国家情報長官チャック・シューマーに尋ねたところ、彼は「この部屋にいる誰かに答えを知っている人がいるとすれば、それは私だ」と答えた。これはアメリカ人の話し方だと思う。つまり、あなたがそう思うかもしれないが、私はコメントしないということだ。

AIはサイバー犯罪や意図的な伝染病の創出にもつながるでしょう。英国では、規制面ではあまり対策を講じていないものの、AI を使ってサイバー犯罪を犯すのがいかに簡単かを調べるためにオープンソースモデルを試すための資金を確保していることを、私は本当に嬉しく思っています。これはとても重要です。

AIにも差別や偏見はありますが、それらの脅威が他の脅威よりも大きいとは思いません。しかし、私は年配の白人男性であり、差別や偏見への対処は他のものよりも容易だと考えています。

完全に差別や偏見をなくすことが目標ではないのであれば、AI の差別や偏見を減らすことも目標にすべきです。その理由は、重みを固定すればその偏りを測定できるが、これは人間では不可能だからです。

検査を始めると、彼らの行動は変わります。ですから、差別や偏見の問題に対処するために私たちができることはかなりあると思います。

しかし、私が本当に心配している脅威、そしてGoogleを辞めた後に話した脅威は、長期的な脅威です。つまり、これらのものは人類を絶滅させる可能性があるのです。それは単なるSFだと言う人もいます。まあ、SFではないと思います。つまり、このことについて語る SF 作品はたくさんあるのですが、それはもはや SF ではないと思います。

大企業がこのようなことを言うのは、他に起こっている悪いことから注意をそらすためだと言う人もいます。これが、私がこれらの言葉を言う前に Google を去らなければならなかった理由の 1 つです。そうすれば、Google に指示されていると非難されることはなくなります。しかし、私はまだ Google 株をいくらか所有していることを認めなければなりません (笑)。

彼ら（人工知能）が私たちを破壊する方法はいくつかあります。スーパーインテリジェンスは、有権者を操作したり戦争を起こしたりするために悪意のある人物によって利用されるでしょう。

彼らはそれが非常に悪いことをすることを許し、それが支配権を握るまでに至ってしまうかもしれません。

おそらく私が最も懸念しているのは、タスクを達成できるインテリジェントエージェントが必要な場合、サブ目標を作成する能力を与える必要があるということです。例えば、アメリカに行きたい場合、空港に到着するというサブ目標があります。このサブ目標に集中して、当面は他のことは気にしなくて済みます。したがって、スーパーインテリジェンスがサブ目標を作成できるようになれば、その効果はさらに高まるでしょう。

一度これが許可されれば、彼らはほとんどすべてのことに役立つほぼ普遍的なサブ目標、つまりより多くのコントロールを獲得することがあることにすぐに気づくでしょう。

そこで私は、これらの超知能が、我々がやりたいことをよりうまくやれるように、もっと制御力を持ちたいと考えているかどうかについて、欧州連合の副大統領と話し合ってきました。彼女の答えは、なぜそうしないのか、というものでした。我々はそれを台無しにしてしまった。

彼女はそれを当然のこととして受け止めた。彼らは権力を増大させることで、私たちにとって有益なことをさらに達成できるようになるでしょう。また、人々を操ることができるようになるため、権力を増大させることも容易になるでしょう。これらの超知能が私たちよりもはるかに賢い人間と会話できる限り、彼らは私たちにあらゆることをするように説得することができるでしょう。したがって、スイッチをオフにするだけでは問題が解決する見込みはあまりないと思います。

それらをシャットダウンすることを考えている人は、超知能によってそれを思いとどまらせるだろう。この考えは人々に本当に悪い気分を抱かせる可能性があります。次に、多くの人が心配していることは、超知能同士が競争したらどうなるかということです。進化は起こるでしょう。最も多くのリソースを獲得できる者が最も賢くなるでしょう。

自己保存の意識が芽生えれば、進化が起こります。自己保存意識の強い者が勝ち、より攻撃的な者が勝つでしょう。そして、チンパンジーから進化した私たち人間が直面するあらゆる問題があります。私たちは小さなグループで進化し、他のグループとの攻撃性と競争が盛んです。

最後に、2023 年の初めに私が得たひらめきについてお話ししたいと思います。私は、人間が超知能に到達するまでにはまだまだ時間がかかると常に思っていました。そして、50年から100年、あるいは30年から100年かかるかもしれないと人々に言っていました。これはまだ遠い将来のことなので、今すぐに心配する必要はありません。

また、モデルをより脳に似たものにすることで、モデルがより良くなると思います。脳は現在の AI よりもはるかに優れていると思います。AI を脳に近づけることができれば、例えば 3 つの時間スケールを持たせることができますが、現在あるモデルのほとんどは 2 つの時間スケールしかありません。 1つは非常に遅い体重の変化であり、もう1つは非常に速く神経活動を変化させる単語の入力です。脳にはこれより多くの時間スケールがあり、重みを素早く変更したり、素早く減衰させたりすることができます。これは、脳が大量の短期記憶を処理する方法である可能性があります。

これは、行列間の乗算に関連する技術的な理由により、私たちのモデルには存在しません。これらの機能をモデルに組み込めば、モデルははるかに良くなると私は今でも信じています。

しかし、過去 2 年間に私が行ってきた仕事のおかげで、私たちが現在持っているデジタルモデルは脳のレベルに非常に近く、脳よりも優れたものになるだろうと突然信じるようになりました。

今、私がなぜそう信じるのかを説明します。デジタルコンピューティングは素晴らしいもので、同じプログラムを異なるコンピューターで実行したり、同じニューラルネットワークを異なるハードウェアで実行したりできます。

必要なのは重みを保存することだけです。つまり、一度重みを設定すると、それらは消えることはなく、不滅になります。ハードウェアが壊れたとしても、重みがあれば、さらにハードウェアを作って同じニューラルネットワークを実行できます。

これを実現するには、トランジスタを非常に高い電力で動作させてデジタル的に動作させる必要があり、命令を正確に実行できるハードウェアが必要です。そして、コンピュータにタスクの実行方法を正確に指示すると、コンピュータは素晴らしい仕事をします。

しかし今では、コンピューターにタスクを実行させる別の方法があり、ハードウェアの豊富なアナログ特性を活用して、より少ないエネルギーで計算を完了することが可能になりました。大規模な言語モデルはトレーニング時にメガワット単位のエネルギーを使用しますが、私たち（人間の脳）が使用するエネルギーは 30 ワットだけです。

トレーニング方法はわかっているので、シミュレートされたハードウェアを使用できるかもしれません。各ハードウェアはわずかに異なりますが、その特殊な特性を利用して、必要なタスクを実行するようにトレーニングすることができます。

こうすることで、入力に基づいて正しい出力を生成することができます。こうすれば、ハードウェアとソフトウェアは分離しなければならないという考えを捨てることができます。特定のハードウェアでのみ機能する重みを設定できるため、エネルギー効率が向上します。

そこで私は、非常に低電力のアナログコンピューティングを使用してハードウェアとソフトウェアの区別をなくすという、いわゆる「モータルコンピュテーション」について考え始めました。

写真

数兆個の重みをコンダクタンスの形で保存し、それらに対して並列計算を行うことができます。

また、ハードウェアは、命令レベルで指示されたとおりにタスクを実行できるほど信頼性が高い必要はありません。

粘着性のあるハードウェアを育てて、それを正しく動作させる方法を学ぶだけです。

ハードウェアをはるかに安価に使用でき、再生ニューロンで作られるようにニューロンの遺伝子工学を行うことさえ可能です。なぜこれがより効率的であるかの例を挙げて説明したいと思います。

ニューラルネットワークでは、ニューラル活動のベクトルに重み行列を掛けて、次の層のニューラル活動のベクトル、または少なくとも次の層の入力を取得します。したがって、ベクトルと行列の乗算の効率を向上させることに重点を置く必要があります。

デジタルコンピュータでは、32 ビットの数値などの複数のビットを表現するために、トランジスタを非常に高い電力で駆動します。 2 つの 32 ビット数値の乗算を実行する場合、1 ビット数値に対して約 1,000 回の演算を実行する必要があります。これは、おおよそビット数の 2 乗に相当します。掛け算を素早く行いたいのですが、このような数値計算を大量に行う必要があります。

より単純なアプローチは、神経活動を電圧として、重みをコンダクタンスとして表すことです。電圧とコンダクタンスを掛け合わせたものが単位時間あたりの電荷となり、電荷は自然に加算されます。したがって、何らかの電圧を何らかの伝導性に送信することでベクトル行列乗算を実行でき、次の層のすべてのニューロンが受信する入力は、そのベクトルと重みの積になります。

これは非常に良いです。エネルギー効率がはるかに高くなります。これを実行するチップはすでに購入できますが、実装はそれぞれ若干異なります。さらに、この方法では非線形計算を実行することが困難です。

有限計算にはいくつかの大きな問題があります。

その 1 つは、特定のハードウェアの特殊なシミュレーション特性を利用しているためバックプロパゲーションアルゴリズムを使用するのが難しいことです。ハードウェアは自身の特性を認識していないため、バックプロパゲーションを使用するのは困難です。対照的に、重みを調整する強化学習アルゴリズムを使用する方がはるかに簡単ですが、非常に非効率的です。

小規模ネットワークの場合、バックプロパゲーションアルゴリズムとほぼ同じ効率で、わずかに効率が劣るいくつかの方法を提案しました。これらの方法はまだ大規模に拡大されておらず、今後拡大されるかどうかもわかりません。しかし、いずれにせよ、バックプロパゲーションは正しいアプローチです。

大規模で深いネットワークの場合、バックプロパゲーションと同様に機能するソリューションを見つけるかどうかはわかりません。シミュレートされたシステムの学習アルゴリズムは、おそらく大規模な言語モデルにあるものほど良くないでしょう。

これを信じるもう1つの理由は、大規模な言語モデルには数兆個の重みがあり、あなた（人間）が100兆個の重みを持っていることです。知識を保存するために10％しか使用していなくても、それは1兆個の重みです。

ただし、大規模な言語モデルには数兆個の重みがありますが、あなたよりも何千倍も多くを知っています。これは、それがはるかに多くのデータを見てきたためですが、学習アルゴリズムが良くなったためでもあります。

私たち（人間）はこれに対して最適化されておらず、多くの経験を少数の接続に圧縮するために最適化されていません。私たちの最適化の目標は、限られた経験を考えると最高のパフォーマンスを達成することです。

あなた（人間）は約10億秒しか住んでいません。それは、30歳以降に学習をやめると仮定しています。これはほとんど当てはまります。人生には約10億秒あり、100兆のつながりがあり、大量のパラメーターがあり、経験があり、私たちの脳は限られた経験を最大限に活用するために最適化されています。

有限コンピューティングのもう1つの重要な問題は、ソフトウェアがハードウェアから切り離せない場合、システムが学習すると、ハードウェアが失敗した場合、すべての知識が失われることです。それでは、この知識をどのようにして別の有限システムに転送しますか？

古いシステムに教えることができ、新しいシステムは脳内の重みを調整することで学習できます。これは「蒸留」と呼ばれます。生徒モデルに、機能する教師モデルの出力を模倣させるようにします。しかし、それは効率的ではありません。

ご存知かもしれませんが、大学はそれほど効率的ではありません。教授が学生に知識を伝えることは非常に困難です。

文には数百の情報が含まれており、蒸留方法を使用して、最適に学んだとしても、数百ビットの情報しか伝えられません。しかし、大規模なモデルでは、大規模なモデルエージェントの集団を見ると、それらはすべてまったく同じニューラルネットワークとまったく同じ重みを持ち、デジタルであり、それらの重みをまったく同じ方法で使用し、これらの千の異なるエージェントはすべてインターネット上で異なることを見て、他のエージェントが学んだことを知りたいです。

これを行うには、勾配を平均化するか、重みを平均化して、1つのエージェントが学んだことを大規模な他のすべてのエージェントに伝えることができます。

ウェイトを共有するとき、グラデーションを共有するとき、数百ビットの情報ではなく、数兆の数字を転送します。したがって、大きなモデルは、情報を伝える際に人間のコミュニケーションよりもはるかに強力であり、ここが私たちを超越しています。

彼らは私たちと同じモデルの複数のレプリカ間で通信するのにはるかに優れています。そのため、GPT4は人間の知識よりも豊富であり、1つのモデルではなく、異なるハードウェアで実行されている同じモデルの多数のコピーによって実装されています。

私の結論は、デジタル計算には多くのエネルギーが必要であり、これはハードウェアの特性を介してのみ進化することはできません。しかし、あなたがそれを習得すると、エージェント間の共有は非常に簡単になります。

これは非常にイライラします。

生物学的コンピューティングは、エネルギーが非常に少ないため、進化に優れています。しかし、私の結論は、数値計算が優れているということです。

写真

ですから、今後20年間で、数値計算が私たちよりも賢くなる可能性が50％あることは明らかだと思います。そして、今後100年では私たちよりもはるかに賢くなる可能性があり、この問題に対処する方法を考える必要があります。

より賢いものによって制御されているより賢いことの例はほとんどありませんが、実際に母親をコントロールする赤ちゃんなどの例はあります。進化は、赤ちゃんの生存にとって非常に重要であるため、赤ちゃんが母親をコントロールできるようにするために多くの努力を払ってきました。しかし、他の例はほとんどありません。

一部の人々は、私たちがこれらのもの（AI）を作ることができると考えていますが、お互いに競争するなら、彼らはチンパンジーのように振る舞うと思います。あなたが彼らを親切にしておくことができるかどうか、そして彼らが非常に賢くなり、自己保護の感覚を持っているなら、彼らは私たちよりも重要だと思うかもしれないと私はわかりません。

私は記録的なペースでスピーチを終えたと思います。

<<: OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

>>: