ジェフリー・ヒントンの最新インタビュー: 5年以内に脳の仕組みを解明できるだろうが、それはバックプロパゲーションによるものではない

過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タンパク質フォールディング予測などの分野で飛躍的な進歩を遂げてきましたが、これらの進歩の背後にはディープラーニングが不可欠です。では、ディープラーニングはいつ、どこで生まれ、いつ最も有名な AI 手法になったのでしょうか?

最近、カリフォルニア大学バークレー校の教授でありディープラーニングの専門家であるピーター・アビール氏が、自身のポッドキャスト「Robot Brains」でジェフリー・ヒントン氏にインタビューしました。

2018年にチューリング賞を受賞したヒントン氏は、「ディープラーニングの三大巨頭」の一人として知られ、人工知能の歴史において最も重要な学者の一人です。彼の論文は50万回以上引用されており、それは50万以上の研究論文が彼の研究に基づいていることを意味します。

彼は約半世紀にわたってディープラーニングの分野で研究を続けてきましたが、そのほとんどは比較的無名でした。しかし、2012 年に何かが変わりました。その年、AlexNet が ImageNet コンテストで優勝したことで、画像認識においてディープラーニングが他のコンピュータービジョン手法よりも大きな利点があることが実証されたのです。これは「ImageNet の瞬間」と呼ばれ、AI の分野全体を変え、ディープラーニングの波を引き起こしました。

この会話の中で、ヒントン氏は、学術界から Google Brain で働くまでの経緯、心理学を学んだ経験と大工として働いた経験、視覚化技術 t-SNE アルゴリズムの歴史などについて話し、次のようなさまざまな問題について自身の見解を述べました。

既存のニューラルネットワークとバックプロパゲーションアルゴリズムは、脳の働きとどう違うのでしょうか?
なぜ教師なしローカル目的関数が必要なのでしょうか?
睡眠とボルツマンマシンの機能は何ですか?
コンピューターを作るよりも育てる方がよいのはなぜですか?
なぜネガティブなデータが必要なのでしょうか?
今日の大規模言語モデルは本当に言語を理解しているのでしょうか?
…

AI Technology Review は、元の意味を変えずにインタビューを編集して構成しました。

1.バックプロパゲーションは人間の脳の働きとは異なる

Abbeel: ニューラルネットワークとは何ですか?なぜ私たちはそれを気にする必要があるのでしょうか?

ヒントン：私たちの脳は次のように機能します。

脳にはニューロンと呼ばれる小さな処理要素がたくさんあり、時々ニューロンの 1 つが「ピン」という音を発します。この「ピン」という音は、他のニューロンの「ピン」という音を聞いているからです。他のニューロンから「ピング」音が聞こえるたびに、受け取った入力のメモリに重みを追加し、重みが特定の入力に達すると、「ピング」音も送信します。

したがって、脳がどのように機能するかを理解したいのであれば、ニューロンがこれらの重みを調整する方法を知るだけで十分です。重さを調整する手順があり、それを理解できれば脳がどのように機能するかがわかります。今後 5 年以内にこれらのプログラムが解決されると思います。

既存の AI はすべて、脳が高度なレベルで行っていることとはまったく異なるものに基づいていると思います。収束する必要があり、多数のパラメータ、たとえば数十億のパラメータがある場合、これらのニューロン間の重みが多数のトレーニング例に基づいて調整されると、驚くべきことが起こります。これは脳にも、そしてディープラーニングにも当てはまります。問題は、パラメータを調整するための勾配をどのように取得するかです。そのため、達成したい測定値を改善するために、調整するメトリックとパラメータについて考える必要があります。

しかし、私が現在信じているのは、ディープラーニングの現在の仕組みであるバックプロパゲーションは脳の働きとはまったく異なり、脳は異なる方法で勾配を取得するということです。

Abbeel: あなたは、ニューラルネットワークのトレーニングのためのバックプロパゲーションに関する論文を書きました。この論文は、今日私たちが行っているすべてのことの原動力となりましたが、今こそ、状況を変えるべきかどうかを見極める時だとおっしゃっているのですか?脳に似せる努力をすべきでしょうか？バックプロパゲーションは脳が行っていることよりも優れていると思いますか?

Hinton: Rumelhart、Williams、そして私は、バックプロパゲーションに関する最も引用されている論文を書きました (下記参照)。

論文アドレス: http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf

バックプロパゲーションはよく知られています。私たちが実際にやったことは、興味深い表現を学習できることを示すことでした。私たちはバックプロパゲーションを発明したわけではありませんが、バックプロパゲーションを再定義しました。私たちは、単語の埋め込みなどの興味深い表現を学習できると提案し、そのためバックプロパゲーションは人間の脳よりもはるかに効率的である可能性があると考えました。大量の情報を一握りのつながりに詰め込んでいますが、一握りのつながりは数十億にすぎません。脳の問題は、つながりは非常に安価で、数兆個あるのに対し、経験は非常に高価であるため、少量の経験に多くのパラメーターを投入する傾向があることです。

私たちが使用しているニューラルネットワークは、基本的にその逆のことを行います。彼らは豊富な経験を持ち、入力と出力の情報をパラメータに関連付けようとします。バックプロパゲーションは脳が使用する方法よりも効率的だと思いますが、少量のデータから多くの構造を抽象化するのはあまり得意ではありません。

Abbeel: この点に関して、パフォーマンスを向上させる方法について何か仮説はありますか?

ヒントン:私は長い間、教師なしの目的関数が必要だと考えていました。これは主に知覚学習を指します。世界を観察することでモデルを学習できれば、生のデータではなくこのモデルに基づいて行動を起こすことができ、より正確になります。

脳は多くの小さな局所的な目的関数を使用しており、トレーニングを通じて目的関数を最適化するエンドツーエンドのシステムチェーンではないと私は考えています。

たとえば、画像の小さな部分を見て何らかの表現を抽出しようとする場合、その小さな部分から得られる表現を他の近くの部分の表現から得られるコンテキストと比較して、画像に何が含まれているかを予測できます。

ドメインに精通すると、コンテキストからの予測とローカルに抽出された特徴は通常一致するようになります。一貫性がなくても、そこから多くのことを学ぶことができます。

脳はこのような局所的な意見の相違から多くのことを学べると思います。大きな画像と、その画像内の小さなローカルパッチが多数あるということは、フィードバックが多く、つまり、ローカル抽出と画像内のコンテキスト予測の一貫性が保たれていることを意味するように思われるかもしれません。コンテキスト予測によるこれらのアライメントから、より豊富なフィードバックを得ることができます。そうするのは難しいですが、そういう方向に進んでいると思います。

Abbeel: SimCLR でのこの取り組みについてどう思いますか? また、これは一般的な学習とどう違うのでしょうか?最近の MAE (マスクオートエンコーダ) についてどう思いますか?それは今説明したこととどう関係するのでしょうか?

ヒントン:私が入手した関連証拠は、この目的関数が適切であることを示唆しています。

この論文は私が個人的に書いたものではありませんが、ずっと前にスー・ベッカーと一緒に、画像の 2 つの異なるパッチから一貫した表現を得ることについての論文を書きました。それが、同じ画像の 2 つのパッチ表現の間で合意に達することによって自己教師学習を行うというアイデアの起源だったと思います。

Abbeel: エンドツーエンド学習をサポートするために、エンドツーエンド学習バックプロパゲーションを使用するという、先ほどおっしゃったアプローチについてお話ししましょう。脳の学習方法に近い方法で学習すること、つまり、より少ないデータから学習し、そこからより多くの情報を抽出することが、脳の仕組みを理解する上で進歩を遂げる鍵となると示唆していますね。今日、ラベルなしデータから効率的に学習するという問題に多くの人が取り組んでいます。これは、人間の労力が少なくて済むためですが、バックプロパゲーションと同じメカニズムが依然として使用されています。

Hinton: MAE で気に入らないのは、複数の表現レイヤーを通過する入力パッチがあり、ネットワークの出力で失われた入力パッチを再構築しようとすることです。

脳にはこうした表現レベルがあると思いますが、それぞれのレベルは下のレベルの内容を再構築しようとしています。非常に多くの層があって、また元に戻るということではなく、非常に多くの層があり、各層が次の層にあるものを再構築しようとするということです。これは私には脳のように見えますが、問題は、バックプロパゲーションなしでこれを行うことができるかどうかです。

明らかに、複数のレイヤーを通じて出力の欠落部分を再構築したい場合は、すべてのレイヤーを通じて情報を取得する必要がありますが、バックプロパゲーションはすべてのシミュレータに組み込まれていますが、脳には組み込まれていません。

Abbeel: 脳がこれらのローカル目標を処理するときに 3 つの選択肢があると想像してください。まず、最適化したいローカル目標は何でしょうか?次に、最適化するにはどのようなアルゴリズムを使用すればよいでしょうか? 3 番目に、学習のためにニューロンを接続するアーキテクチャとは何でしょうか?これら 3 つの問題のいずれについても、うまくいっていないようです。どう思いますか？

ヒントン：認知学習に興味があるなら、それは非常に明確です。

視覚的なトピックマップ、つまり、アーキテクチャ的にローカルに接続された、記述されたトピックマップの階層が必要です。このため、反電子マップ上のどこかにあるものが、それに対応する光学マップによって決定されると仮定することで、多くのクレジット割り当て問題を解決できます。システムの奥深くまで入っていくのではなく、ローカルなインタラクションを使用して、システム内でピクセルが何をしているのかを把握します。

現在、ニューラルネットワークでは、各場所で同じ関数が使用されていると想定しており、これは畳み込みニューラルネットワークとトランスフォーマーに当てはまります。脳は必ずしもこれを実行できるわけではありません。なぜなら、重みを共有し、どこでもまったく同じ計算を実行する必要があるからです。重み共有の目的を達成するには畳み込みという方法があり、脳内ではそれがより効果的に機能すると思います。

ローカル抽出とコンテキスト予測を一致させたい場合、ローカル予測を行う多数の列があり、近くの列を参照してコンテキスト予測を取得することを想像してください。コンテキストをローカル予測の教師と考えることができます。逆もまた同様です。コンテキスト内の情報がローカル抽出プログラムに抽出されると考えます。そこから得られるのは相互の改良であり、両者が互いに指導信号を提供し、ある場所で抽出すべき知識が他の場所に転送されることを意味します。

これらが一致しようとしているとき、または異なる場所にあるものを一致させたいとき、たとえば鼻と口が同じ顔の一部であることに同意させたいとき、それらはすべて同じ表現を生成する必要があります。異なる場所で同じ表現を得ようとしているときは、知識をある場所から別の場所に抽出できるようにする必要があります。これは、実際の重みの共有よりも大きな利点があります。

明らかに、生物学的観点から見ると、1 つの利点は、異なる場所の詳細なアーキテクチャが同じである必要がないことであり、もう 1 つの利点は、フロントエンド処理が同じである必要がないことです。

網膜を例に挙げてみましょう。網膜のさまざまな部分には、さまざまなサイズの受容野があります。畳み込みネットワークは、複数の異なる解像度を無視し、各解像度で畳み込みを実行しますが、異なるフロントエンド処理を実行することはできません。ある位置から別の位置へ抽出する場合、必要なのは、光学アレイから異なる位置での同じ機能の表現を取得することです。このとき、異なる位置での光学アレイの異なる前処理も可能です。フロントエンド処理が異なっていても、機能全体を表す知識を抽出できます。

したがって、抽出は重みを実際に表示するよりも効率は劣りますが、より柔軟で神経的にもっともらしいものになります。これは私が 1 年前に指摘した重要な点でもあります。効率を向上させるには重みの共有などのトリックが必要ですが、隣接するものを一致させようとすると、ローカル抽出が機能します。

アビール: 脳の働きが変わったのだから、私たちは体重の共有について別の方法で考え続けるべきでしょうか、それとも体重を共有し続けるべきではないのでしょうか?

ヒントン:畳み込みネットワークで畳み込みを実行し、トランスフォーマーで重みを共有し、重みを共有することで知識を共有し続けるべきだと思います。脳は重みを共有することによって知識を共有するのではなく、抽出を使用して知識を転送し、入力から出力までの機能を共有することによって知識を共有することを覚えておいてください。

2人間の脳のスパイクニューロンとGPU人工ニューロン

Abbeel: 現在、広く議論されている別のトピックがあります。脳は現在のニューラルネットワークとは大きく異なります。ニューロンはスパイク信号で動作しますが、これは GPU の人工ニューロンとは大きく異なります。これについてあなたの考えを知りたいのですが、これは単なるエンジニアリングの違いなのでしょうか、それとももっと理解を深めるために知る必要があることが他にもあるのでしょうか?

ヒントン氏：それは単なるエンジニアリングの違いではありません。ハードウェアがなぜそれほど優れているかを理解すれば、それが脳の地理的タグ付けユニットである網膜に敏感である理由も理解できます。たとえば、網膜はスパイクニューロンを使用せず、非スパイクニューロン処理を大量に行います。大脳皮質がなぜそのように機能するのかを理解すると、これが生物学的に正しいことだと分かります。それは、学習アルゴリズムがスパイクニューロンのネットワークの勾配をどのように取得するかによって決まると思いますが、まだ誰も本当のところは知りません。

スパイクニューロンに関しては、いつスパイクするか、そしてスパイクするかどうかという 2 つの異なる決定が頻繁に発生します。これは個別の意思決定です。人々はシステムを最適化しようと、さまざまな代替機能を考案してきました。

2000 年に、Andy Brown と私はスパイキングボルツマンマシンの学習に関する論文を発表しました。スパイキングコードでうまく機能する学習アルゴリズムがあれば素晴らしいのですが、それがスパイキングニューロンハードウェアの開発を妨げていた主な要因だったと思います。

多くの人が、この方法でよりエネルギー効率の高いハードウェアを作れることに気づき、巨大なシステムを構築してきましたが、本当に欠けているのは、優れた学習成果です。したがって、優れた学習アルゴリズムが開発されるまでは、スパイクニューロンを使って実際に何かを行うことはできないと思います。

したがって、標準的な人工ニューロンを使用する場合、次のように質問するだけです。入力された 2 つの値が同じかどうかを判断できますか?できません。しかし、スパイクニューロンを使用すると、2 つのスパイクが同時に到着すると発火しているような音が鳴り、異なる時間に到着すると発火していないようなシステムを簡単に構築できます。したがって、ピーク時間を使用することは一貫性を測定する良い方法であると思われます。

生物システムと同様に、方向や音が見えるのは、両耳に届く信号の遅延によるものです。片足を例にとると、光は約 1 ナノ秒、最初の音は約 1 ミリ秒です。しかし、何かをあなたの横に数インチ動かすと、2 つの耳の間の遅延時間の差、つまり 2 つの耳の間の経路長はわずか 1 インチの何分の 1 かになり、つまり、2 つの耳に到達する信号間の時間差はわずか 1 ミリ秒になります。したがって、サウンドからステレオ感を得るために、30 ミリ秒の時間に敏感になります。これは、2 つの軸索とスパイクを異なる方向に伸ばすことによって行われます。1 つは片方の耳から、もう 1 つはもう一方の耳から伸びます。スパイクが同時に到着すると、信号を発する細胞があります。

ピーク時間は非常に繊細な作業に使用できるため、その正確なタイミングが使用されていないとしたら驚きです。長い間、スパイク時間を使用して自己教師あり学習などの一貫性を検出できれば、つまり、口と鼻に関する情報を抽出し、口と鼻から顔全体を予測し、口と鼻が正しく顔を形成すると、これらの予測に一貫性が生まれると考えていました。スパイク時間を使用してこれらの予測が一致するかどうかを確認できればよいのですが、ニューロンなどのネットワークをトレーニングするための適切なアルゴリズムがないため、それを実行するのは困難です。

アビール: 網膜はスパイクニューロンをすべて使用していないと言っているのですか?脳には 2 種類のニューロンがあり、人工ニューロンに似たものとスパイクニューロンの 2 種類があります。

ヒントン:網膜が人工ニューロンに似ているかどうかはわかりませんが、大脳新皮質にはスパイクニューロンがあり、これが主要なコミュニケーション手段で、あるパラメータ細胞から別のパラメータ細胞にスパイクを送信します。

私たちが使用する典型的なニューラルネットワークと比較して、脳には多くのパラメーターがあり、データはそれほど多くなく、この状態では強力な正規化を使用しない限り、過剰適合する可能性が高いという説得力のある議論があります。優れた正規化手法は、ニューラルネットワークを使用するたびに、多数のユニット全体を無視し、したがってニューロンがスパイクを送信しているという事実も無視することです。実際に伝えられるのは、基礎となるポアソン率です。それは推移的であると仮定します。このプロセスにはコストがかかり、パルスがランダムに送信されます。このプロセスの速度は、ニューロンに入力される情報によって決まり、尿から尿へ真値速度を送信したい場合があります。多くの正規化を実行したい場合、真値速度にノイズを追加できます。ノイズを増やす 1 つの方法は、大量のノイズを追加するパルスを使用することです。ほとんどの場合、これがやめる動機になります。

任意の 1 つの時間ウィンドウを見ると、ほとんどのニューロンは何も関与しておらず、スパイクは基礎にある個々のレートの代表として考えることができます。うるさいので本当にひどい音です。しかし、正規化を一度理解すれば、それは非常に良いアイデアです。

だから私はまだそのアイデアに愛着を持っていますが、実際にはスパイクタイミングはまったく使用していません。非常にノイズの多い個々のレート表現を使用して適切な正規化を行うだけであり、私は 2 つを切り替えています。何年もの間、私はニューラルネットワークは決定論的であると考えていました。決定論的なニューラルネットワークが実現するはずですが、それは数年後に実現するでしょう。 5年周期だと思います。可能な限り最高のランダム性も非常に重要であり、すべてを変えます。したがって、ボルツマンマシンは本質的に確率的であり、それがボルツマンマシンにとって重要です。しかし、どちらかのシナリオに完全にコミットするのではなく、両方にオープンであることが重要です。

今、あなたがおっしゃったように、スパイクニューロンの重要性についてさらに考えること、そしてスパイクニューロンのネットワークを効率的にトレーニングする方法を見つけることが重要です。

Abbeel: トレーニング部分については心配する必要はない（より効率的であると思われるため）と言うと、人々は純粋な推論チップを配布したいと思うのではないでしょうか。つまり、実質的には個別に事前トレーニングを行い、それをスパイキングニューロンチップにコンパイルして、非常に低消費電力の推論機能を持たせるのです。

ヒントン:多くの人がこれについて考えており、それは非常に理にかなっています。おそらく、ニューラルネットワークを推論に使用するという進化の道筋にあり、誰もがそれを行っており、より効率的であることが証明されています。さまざまな企業がこれらの大規模なスパイクシステムを開発しています。

これらのことを実行すると、ピーク時に利用できるエネルギーをより有効活用する方法を学ぶ方法で、推論にますます興味を持つようになります。つまり、アナログハードウェアではなく、この低エネルギーハードウェアではなく、補助デバイスを使用して学習するシステムを想像することができますが、それを低エネルギーハードウェアに転送できるとしたら素晴らしいでしょう。

3 AlexNetの背景

Abbeel: AlexNet とは何ですか?それはどうやって起こったのですか?制限付きボルツマンマシンの研究から脳の働きを理解しようとするまでの道のりはどのようなものだったのでしょうか?

ヒントン：突然、従来のニューラルネットワークアプローチが実際に機能することを実証したと言えるでしょう。

2005 年頃、私は、スロットリングマシンのバンクを活用して特徴検出器を事前トレーニングし、十分なデータがあれば Backdrop を動作させやすくなるというアイデアに魅了されました。その後、フェイス・アリと彼女の画像認識チームは十分なデータを持っていたため、事前トレーニングは不要になりましたが、再開される予定でした。

GPT-3 には事前トレーニング機能があり、これは良いアイデアですが、事前トレーニングが可能であることがわかった後では、バックグラウンドの作業が改善され、2009 年に George John と Abdul Rahman Muhammad が行ったように、音声認識に大いに役立ちます。その後、私のグループの大学院生であるアレックスが同じアイデアを視覚に適用し始め、ImageNet データがあれば事前トレーニングは不要であることがすぐにわかりました。

ある日、イリヤが研究室にやって来て、「ほら、音声認識ができたから、これは本当に便利だ。誰よりも先に ImageNet をやらなきゃ」と言ったのを覚えています。ジャネラも研究室に来て同じ考えを述べましたが、彼の学生やポスドクも「すごい、でも他のことで忙しいんだ」と言いました。実際、彼には誰かにその研究をさせる方法がありませんでした。その後、彼はアレックスを説得して、データを必要なものに前処理して実験を完了させました。

これは単なる背景です。多くの研究者はこれを知っていると思いますが、Alex の結果が ImageNet 画像認識コンペティションにおける Ilya の以前の研究と比較してエラー率を半分に削減したことは、おそらく誰もが知っているわけではないでしょう。そのため、誰もがコンピュータービジョンに対して手作業によるアプローチをやめ、直接プログラミングしようとしています。

4学術界からGoogleへ

アビール：あなたのキャリアにおいて大きな変化があった瞬間は何でしたか？学術界から Google への移行はあなたにどのような影響を与えましたか?なぜこのような変化が起こったのでしょうか?

ヒントン氏：障害のある息子を養わなければならないので、たくさんのお金が必要です。その方法の一つは教師になることです。 2012 年に、私はニューラルネットワークに関するコースを教えました。しかし、彼らのソフトウェアはあまり良くないので、それを実行するのは非常にイライラします。私は毎週 1 章ずつ説明ビデオを提供しなければなりませんが、大勢の人が視聴することになります。時々、授業の翌日、ヨシュア・ベンジオが「なぜ（授業で）そんなことを言ったの？」と尋ねることがありました。

トロント大学との当初の合意では、これらのコースで収益があった場合、大学は教授たちと収益を分配することになっていた。分配方法は具体的には示されなかったが、50% 程度と考えられており、私はそれで問題なかった。しかし、私がこのコースを教え始めた後、学部長は私や他の誰にも相談せずに一方的に決定を下しました。資金がコースのプラットフォームから提供される場合、大学がすべてのお金を受け取り、教授は何も得られないというものでした。私は学校にビデオの準備を手伝ってくれるよう頼んだのですが、ビデオを作った人が私のところに来て、ビデオを作るのにどれくらいの費用がかかるか知っていますかと尋ねました。

このことで私は学校で本当に腹を立てたので、教授になる以外の職業の選択肢を探し始めました。当時、私たちは突然、さまざまな企業の関心を集め、多額の助成金を出したり、私たちのスタートアップに資金を提供したりして、私たちを採用したいと考えていました。通常なら、研究で余分なお金を稼ぎたくなかったのでノーと答えたでしょうが、学校が私を騙したあの経験から、お金を稼ぐ他の方法を見つけたいと思うようになりました。

アビール：当時のオークションの様子はどんな感じでしたか？

ヒントン:それは NIPS カンファレンスのときで、テリーはカジノでいくつかの小さなイベントを企画しました。ホテルの地下の煙が充満した部屋では、上の階でギャンブルをする人々がいて、まるで映画のセットのようだった。自分たちがどれだけ価値があるのか全く分からない。私は弁護士に相談したところ、プロの交渉人を雇うか、オークションにかけるかのどちらかを勧められました。

私の知る限り、このような小規模なグループによるオークションが開催されるのは初めてです。私たちは Gmail を通じてオークションを行い、参加者はメールのタイムスタンプを添えて入札内容を私にメールで送信する必要がありました。価格は上がり続け、最初は50万ドル、次に100万ドルになりました。とても興奮しましたし、自分たちが思っていたよりもずっと価値があることが分かりました。

振り返ってみると、おそらくもっと多くの金額を得ることができたでしょうが、私たちが見ていた金額は天文学的な額でした。私たちは二人とも Google で働きたかったので、オークションをやめて Google に入社することにしました。

アビール：あなたは今も Google に在籍していると聞いています。

ヒントン氏：私は今も Google で働いています。もう 9 年になります。私が Google を気に入っている主な理由は、コアチームが非常に優れていることです。

私はジェフ・ディーンと本当に仲が良いです。彼はとても頭が良くて、私はとても率直な性格です。彼は私がまさにやりたいと思っていたこと、つまり基礎研究をやらせたかったのです。彼は、私がすべきことはまったく新しいアルゴリズムを考え出すことだと考えました。そして、それがまさに私がやりたかったことであり、まさにぴったりでした。音声認識機能を 1 パーセント向上させるために大規模なチームを管理するのは得意ではありません。しかし、理想的には、この分野にもう一度革命を起こしたいと思っています。

アビール：あなたはトロント大学のコンピュータサイエンスの教授でしたが、コンピュータサイエンスの学位は持っていませんでした。心理学の学位を持っていて、大工として働いていました。心理学を学んでから大工になり、人工知能の分野に入るようになったきっかけは何ですか?

ヒントン：ケンブリッジでの最後の1年間は大変でした。試験の後、私は学校を中退して大工になりました。私は何よりも大工仕事が好きです。高校の授業のおかげで、夜は家にいて大工仕事をすることができたので、約6か月間大工になりました。

しかし、大工として生計を立てることは不可能だ。私はかつて大工と内装工をしていました。リフォームの過程でお金を稼ぎ、大工仕事をする楽しさを味わっていました。本物の大工に会って初めて、私は自分が大工仕事に全く向いていないことに気づいたのです。彼は手鋸を使って木片を完璧に正方形に切ることができます。彼と比べて私は絶望的だったので、人工知能に戻ることにしました。

アビール：私の知る限り、あなたはエディンバラ大学で博士号を取得しましたね。

ヒントン：はい、私はニューラルネットワークの博士号を取得するためにそこに行き、有名なクリストファー・ロンガ・ヒギンズ教授のもとで研究をしました。彼は本当に優秀で、30代でボロヒドリドの構造に関する研究でノーベル賞を受賞するところでした。彼はニューラルネットワークとそれがホログラムとどのように関係しているかに非常に興味を持っていましたが、私がエジンバラに到着したのと同時期に、彼はウィノグラッドの論文を読んで考えを完全に変え、ニューラルネットワークは間違った考え方だと決めつけ、ニューラルネットワークへの興味を失ってしまいました。彼は私がやっていることに全く反対だったにもかかわらず、それを止めようとはしませんでした。

アビール: ミンスキーとパパートが提案したニューラルネットワークはナンセンスだと誰もが言っていた 1970 年代初頭に、なぜこれをやろうと思ったのですか?

ヒントン:実際、私がそのグループに対して最初に行った講演は、ニューラルネットワークで真の再帰を実行する方法についてでした。このスピーチは49年前の1973年に行われたものです。私が見つけたあるプロジェクトでは、図形を描画できるニューラルネットワークが必要な場合、図形をさまざまな部分に分割し、図形の一部を同じニューラルハードウェアで描画し、図形全体をニューラルセンターで描画することが可能です。ニューラルセンターは図形全体を保存し、図形全体のどこにあるか、また図形全体の方向と位置を記憶する必要があります。

しかし今では、同じニューロンを使って図形の一部を描きたいときには、図形全体がどのようなものか、その図形の中をどのくらい歩いたかをどこかに覚えておく必要があると思います。サブルーチンが完了したら、その場所に戻ることができます。形状部分の問題は、ニューラルネットワークがそれをどのように記憶するかということでした。ニューロンをコピーするだけでは明らかに不十分なので、常に機能して適応し、素早く再重み付けすることでニューラルネットワークに記憶させるシステムを作成しようとしました。そこで私は、1973 年に高レベルの呼び出しが行われたのと同じように、同じニューロンと重みを再利用して再帰呼び出しを行う、真の再帰を実行するニューラルネットワークを作成しました。

私のプレゼンテーションが上手ではないので、人々は私のプレゼンテーションを理解していないと思いますが、コンテストでなぜ再帰を行うのかと尋ねられることもあります。彼らが理解していないのは、ニューラルネットに再帰のような処理を行わせない限り、多くのことを説明することはできないということであり、これが再び興味深い問題となっているので、私はこのアイデアが本当に時代遅れになるまであと 1 年待つつもりです。 50年経ったら研究レポートを書きます。

アビール: あなたが他の人たちと同じように博士課程の学生だったとき、あるいは最近博士号を取得したばかりだったとき、ほとんどの人があなたのやっていることは時間の無駄だと言いましたが、あなたはそうではないと固く信じていました。この信念はどこから来たのですか?

ヒントン：それは主に学校教育によるものだと思います。父は私を、科学教育が充実した高額な私立学校に通わせ、私は7歳からそこに通いました。それはキリスト教の学校で、他の生徒は皆神を信じていましたが、私は家でそれは全部でたらめだと教えられていました。そして私にとっては本当にでたらめだったので、他のみんなが間違っていることに慣れていました。

これは非常に重要だと思います。たとえ誰もがそれはでたらめだと言っても、そして実際には誰もがそう思っているわけではないとしても、科学を信じて、明らかに真実である何かを研究する意欲を持つ必要があります。 70 年代初頭、AI に取り組んでいたほぼすべての人が、（私がやっていたことは）ナンセンスだと思っていました。しかし、もう少し遡って 50 年代には、フォンノイマンとチューリングはどちらもニューラルネットワークを信じており、特にチューリングはニューラルネットワークの集中的なトレーニングを信じていました。もし彼らが若くして亡くなっていなかったら、人工知能の歴史全体が大きく変わっていたかもしれないと私は今でも信じています。なぜなら、彼らは分野全体に影響を及ぼすほどの力を持っていたし、脳の働きにも非常に興味を持っていたからです。

5.非不死のコンピュータ：低コスト、学習を通じて知識を獲得

Abbeel: ディープラーニングは現在非常に効果的です。必要なものはこれだけでしょうか、それとも他に何か必要ですか?あなたはかつて（直接引用しているわけではないかもしれませんが）ディープラーニングはあらゆることを実現できると言っていました。

Hinton:私が本当に言いたいのは、確率的勾配の場合、ディープラーニングが勾配を取得する方法はバックプロパゲーションではない可能性があり、取得する勾配は最終的なパフォーマンス指標ではなく、これらのローカルな目的関数である可能性があるということです。脳はそういうふうに働くのだと思いますし、それがすべてを説明していると思います。

もうひとつ言いたいのは、現在あるコンピューターは口座にいくらお金が入っているか記憶できるので、銀行業務に非常に役立つということです。銀行に行って尋ねても、おおよその金額しか教えてくれません。そこまで正確に答えることはできないので、明確な答えを出すことはできず、おおよその答えしか出せません。コンピュータが銀行業務やスペースシャトルの飛行を行うときには、そのようなことが起きてほしくありません。私たちは、コンピュータが正確に正しい答えを出すことを望んでいます。コンピューティングがどのように発展していくかについて私たちが決定を下したこと、つまり私たちのコンピューター、私たちの知識は不滅になるということを人々は十分に理解していないと思います。

既存のコンピューターには、コンピュータープログラム、または多くのウェイトを持つニューラルネットワーク（これは異なるタイプのプログラム）があります。ただし、ハードウェアが壊れた場合は、別のハードウェアでいつでも同じプログラムを実行できます。これにより、知識は不滅になります。生き残るための特定のハードウェアに依存しません。そして、不滅のコストは膨大です。なぜなら、それは異なるビットのハードウェアがまったく同じことをする必要があることを意味するため、これは明らかにすべてのエラー修正が行われた後にゼロ補正であることを意味します。彼らはまったく同じことをしなければなりません。つまり、望ましくはデジタルまたはほとんどデジタル的に意味し、数値を掛けるなどのことをしています。これには、計算を非常に慎重にするために多くのエネルギーが必要であり、それはハードウェアの目標ではありません。プログラムまたはニューラルネットワークを不滅にしたいとすぐに、非常に高価な計算および製造プロセスに投資します。

不滅をあきらめようとするなら、見返りに得られるのは非常に低いエネルギーコンピューティングと非常に安い製造です。したがって、私たちがすべきことは、コンピューターを構築するのではなく、それらを進化させることです。類推を使用するために、鉢植えの植物があり、鍋からそれを引き出した場合、根の形状である根のボールを手に入れるので、すべての異なる鉢植えの植物は同じ形の根を持ち、根系の詳細は異なりますが、それらはすべて同じことをしています。

そして、これは本当の脳がどのように見えるかであり、これは私が非不等式コンピューターをどのように見えるかと呼ぶものです。これらのコンピューターは飼育されており、作られていません。あなたはそれらをプログラムすることはできません、彼らは学ぶ必要があり、彼らは何らかの形で組み込まれた学習アルゴリズムを持っている必要があります。アナログは電圧を撮ったり、抵抗で掛けたり、電荷に変換して電荷を追加したりするのに最適であり、チップはすでにそれを行っているため、コンピューティングのほとんどをアナログで行います。問題は、次に何をしますか、これらのチップでどのように学びますか。現在、人々はBin Packersのバックプロパゲーションまたはさまざまなバージョンを提案しています。私たちには何か他のものが必要だと思いますが、それほど遠くない将来、私たちは、それほど安価であり、彼らのすべての知識を獲得することを学ばなければならない、そして非常に少ないエネルギーを必要とする非不等式コンピューターを見るつもりだと思います。これらの非不調和コンピューターが死ぬと、彼らの知識は彼らと一緒に死にます。重みを見るのは役に立たない。なぜなら、これらの重みはハードウェアにのみ当てはまるからです。したがって、あなたがする必要があるのは、この知識を他のコンピューターに抽出することです。

6大規模な言語モデルは言語をどの程度理解していますか

Abbeel：今日見出しを作っているニューラルネットワークはすべて非常に大きい。ある意味では、大きな言語モデルが脳のサイズに近づき始めていますが、これは非常に印象的です。これらのモデルについてどう思いますか？その中でどのような制限がありますか？一方、たとえば、アリは明らかに人間よりもはるかに小さな脳を持っていますが、人工的に開発された視覚運動システムはまだアリやミツバチのレベルにないと言うのは公平です。それでは、言語モデルの最近の主要な進歩についてどう思いますか？

ヒントン：ミツバチの脳はあなたには小さいように見えるかもしれませんが、ミツバチには約100万のニューロンがあり、ミツバチはGPT-3に近いと思います。しかし、ミツバチの脳は実際には1つの大きなニューラルネットワークです。

私のポイントは、大きなパラメーターを備えたシステムがあり、それらのパラメーターがいくつかの合理的な目的関数の勾配降下で調整されている場合、GPT-3のようなパフォーマンスを得ることができ、Googleの多くの同様のモデルについて言及しました。これは、彼らが私たちと同じことをすることができるかどうかという問題を解決するものではなく、私たちはニューラルネットワークで行う再帰のようなことをしていると思います。

昨年、Glomに関するこの論文のこれらの問題、ニューラルネットワークで部分的な穴の階層を行う方法について詳しく説明しようとしました。あなたが言及した象徴的な計算があなたが部分と全体的な構造を持っていることだけである場合、あなたは構造を持っている必要があります。これは通常、そのような象徴的な計算を意味し、シンボルを使用していることを意味します。

紙の住所：https：//arxiv.org/pdf/2102.12627.pdf

ニューラルネットワークはこれとは大きく異なるため、そのようなハードシンボル処理を行っているとは思いませんが、間違いなく穴の階層をしています。しかし、私たちは巨大なニューラルネットワークでそれを行いましたが、GPT-3がそれが何を言っているかを本当に理解できる程度についてはあまり知りません。それはかなり明確だと思います。以前のチャットボットプログラムであるエリザのようではなく、それが何について話しているのか分からずにシンボル文字列を再配置するだけです。これを信じる理由は、たとえば、英語で「赤い帽子をかぶったハムスターの写真をください」と言うと、赤い帽子をかぶったハムスターの絵を描き、これまでにこのペアリングをしたことがないので、絵を描く前に英語のキャラクターと写真の関係を理解する必要があります。これらのニューラルネットワークの懐疑論者とニューラルネットワークの否定者に「それが理解していることをどのように証明しますか」と尋ねると、彼らはそれを受け入れると思います。絵画を描くように頼み、それがその絵を描くなら、それはそれを理解します。

Abbeel：最近、GoogleのPalmモデルは、ジョークのメカニズムを効果的に説明する方法を示しています。これは言語の非常に深い理解のようです。

ヒントン：いいえ、それはトレーニングで単語を再配置するだけです。「冗談が言っていることを理解するためではない場合、どのようにジョークの説明を生み出すことができるのか」という考えに同意しません。そのフレームワークはバックプロパギングであり、私たちとはまったく異なる理解に行くので、私はまだ開いています。明らかに、敵対的な画像は、オブジェクトがテクスチャによって識別できることを示しています。この意味では、他のオブジェクトインスタンスに一般化するため、正しい場合があります。

しかし、これは私たちとはまったく異なるアプローチであり、私は例として昆虫や花を服用するのが好きです。昆虫は紫外線を見ることができます。私たちに思われる2つの花は、昆虫とはまったく異なるように見えるかもしれません。そして今、花は私たちに同じように見えるので、昆虫は間違っていると言えますか？これらの花は昆虫とともに進化し、UV光は昆虫に合図して、それがどの花であるかを伝えます。昆虫が正しいことは明らかであり、違いを見ることができないだけであり、これは敵対的な例について考える別の方法です。質問は、昆虫の例では、誰が正しいのかということです。 2つの花が私たちに同じように見えるからといって、それらが本当に同じであるという意味ではありません。この場合、昆虫が2つの花について非常に異なる意見を持っていることはおそらく真実です。

Abbeel：ニューラルネットワークの現在の画像認識のために、私たちはそれらを作成し、私たちのために何かをしてほしいので、「わかりました、彼らは正しい、私たちは間違っています」を認めたくないと思うかもしれません。つまり、彼らは車と歩行者を特定する必要があります。

ヒントン：はい。これは、誰が正しいか、誰が間違っているのかほど単純ではないことをみんなに伝えたいだけです。グロムに関する私の論文の重要なポイントの1つは、より人間のような知覚システムを構築しようとすることです。そのため、これらの異常な間違いを犯さずに、彼らは私たちと同じ間違いを犯す可能性が高くなります。たとえば、自動運転車を持っている場合、通常の人間のドライバーが犯す間違いを犯します。これは非常に愚かな間違いを犯すよりも受け入れられるようです。

7ボルツマンマシン、知識蒸留、およびT-SNE次元削減アルゴリズム

Abbeel：私の知る限り、睡眠はあなたが考えているものでもあります。詳細に話してもらえますか？

ヒントン：3日間誰かを興奮させ続けると、彼らは幻覚を始めたように、人々に睡眠を奪うと、彼らは本当に奇妙になります。それが1週間続くなら、彼らは夢中になり、決して回復しません。

問題は、なぜですか？睡眠の計算関数は何ですか？睡眠の剥奪が完全に崩壊すると、熟考する価値のある非常に重要な問題があるかもしれません。現在の理論では、睡眠は記憶を統合するために使用されるか、海馬から大脳皮質に記憶をダウンロードするために使用されます。昔、1980年代初頭、テレンス・セイノウスキと私はボルツマンマシンと呼ばれる理論を持っていました。これは、ホップフィールドネットのことを考えていたフランシスクリックの洞察に一部基づいていました。彼は睡眠に関する論文を持っていました。

紙の住所：https：//www.cs.toronto.edu/~hinton/absps/cogscibm.pdf

そのため、ホップフィールドネットでは、覚えておきたいものを与え、重量を変えます。したがって、このベクトルのエネルギーは低くなります。ランダムベクトルを与えてエネルギーを高めると、効果が向上し、ボルツマンマシンにつながります。ランダムではないものを与えれば、モデル自体のマルコフチェーンによって生成されるものを取得します。この可能性を低下させ、データのランダム性を高めることは、実際には最尤学習です。

それが睡眠の意味だと思います。睡眠は学習のネガティブな段階です。比較学習プロセスでは、同じ画像からの2つのパッチについて、異なる画像の2つのパッチについては、非常に異なるパフォーマンスを行います。それらが異なると、あなたがしなければならないことは、それらをより違うものにすることではありませんが、これがあまりにも似ていません。 Boltzmannマシンを使用すると、肯定的な例と否定的な例を分離することはできません。否定的な例でポジティブな例を越えなければならないか、全体がうまくいかない。私はそれらを交差させず、多くのポジティブな例を挙げてから、多くの否定的な例を挙げようとしましたが、これは困難です。

対照的に、正と負の段階を分離できます。したがって、多くのポジティブな例を実行してから、多くの否定的な例を挙げることができます。したがって、さまざまな時期に正と負の段階を分離し、多くの肯定的な更新を行い、多くの否定的な更新を行うことができれば、これにより比較学習がより合理的になります。標準的な比較学習であっても、より良くすることができ、多くの勢いやその他のものを使用する必要があります。ですから、睡眠機能は忘れたり否定的な例を挙げたりする可能性が高いと思います。そのため、夢を覚えていないのです。目を覚ますと、速い重量は一時的なストレージであるため、速い重量にあるものを覚えています。しかし、あなたが目を覚ますとき、あなたはあなたが目を覚ますときの夢の最後の最後を覚えているだけであり、それは他のどの睡眠理論よりも信頼できる睡眠理論だと思います。この瞬間の記憶を削除すると、システム全体が崩壊する理由と説明を説明できます。あなたは壊滅的な間違いを犯し、幻覚を起こし始め、あらゆる種類の奇妙なことをします。

否定的な例の必要性についてもう少し言ってみましょう。ニューラルネットワークがある場合、内部の目的関数、その顕現、またはコンテキスト予測とローカル予測の一貫性について最適化しようとします。この一貫性が実際のデータのプロパティであることを望んでおり、ニューラルネットワーク内の問題は、入力にあらゆる種類の関連付けを取得できることです。私がニューロンであり、実際のデータに関連していない私の入力にあらゆる種類の相関があると仮定します。それらは、ネットワークの配線とそれがネットワーク内にある方法によってもたらされます。両方のニューロンが同じピクセルを見ている場合、それらは関連付けられます。しかし、それはデータについて何も教えていないので、質問は、ネットワーク接続ではなく、実際のデータの構造を抽出する方法を学ぶ方法です。これを行うには、肯定的な例を与える方法は、ネガティブな例がまったく同じ行を通過するため、否定的な例ではなく、肯定的な例で構造を見つけることです。否定的な例にそのような構造がないが、肯定的な例では、この構造は、ネガティブな例と肯定的な例の違いであり、接続方法ではありません。したがって、人々はこれについてあまり考えていませんが、強力な学習アルゴリズムを持っている場合、ニューラルネットワーク自身の重みやつながりを学ばないでください。

Abbeel：「学生モデルが教師モデルを倒す」という概念についても言及しました。これはどういう意味ですか？

ヒントン：MNISTは、トレーニングデータを間違ったタグに置き換え、20％の精度と80％のエラー率でデータセットを取得できる標準のデジタルデータベースです。問題は、このデータセットから学ぶことができますか？学習はどれほど効果的ですか？答えは、95％の精度を学ぶことができるということです。

教師モデルのエラー率は80％で、学生モデルの精度率は95％であるため、生徒は教師よりもはるかに優れているとします。これらのトレーニングの例を一度に梱包しているため、類似した画像があるさまざまなトレーニングケースのエラーを平均することはできません。尋ねると、汚職ケースがある場合、必要なトレーニングケースの数は、画像データセットが小さいため興味深いです。間違ったラベルを備えた100万枚の画像を用意したいと思っていますか、それとも正確なラベルのある1万枚の画像を持っていますか？重要なのは、ラベルと精度の間の相互情報の量であると仮定しています。タグが正しく破損している場合、90％の症例では、タグと精度の間に相互情報がありません。

最近、SIM-to-Realの仕事をしていることに気付きました。ニューラルネットワークを使用して実際のデータに不完全にラベルを付け、生徒がこれらのタグから学び、生徒は教師よりもよく学びます。人々は混乱しています、どのようにして生徒は教師よりも優れていることができますか？しかし、ニューラルネットワークでは、これは簡単に達成できます。十分なトレーニングデータがある場合、教師が信頼できなくても、生徒は教師よりも優れています。私は数年前にいくつかの医療データを使用して、Melody Y. Guanを使用してこれについて論文を書きました。論文の最初の部分はこれについて語っており、私たちの経験則は、割り当てられたラベルと精度の間の相互情報が重要であるということです。

紙の住所：https：//www.cs.toronto.edu/~hinton/absps/whosaidwhat.pdf

Abbeel：あなたが今言及した作品と最近非常に人気のある仕事のいくつかに関して、教師は通常騒々しいタグを提供しますが、すべてのノイズタグが使用されるわけではありません。より自信のある教師だけを見る必要があるという見解があります。

ヒントン：それはあなたが信じる理由が役立つかもしれないものを持っているものをただ見るのに最適な方法です。 Mnistでは、Melodyはチャートを描きます。このチャートでは、ラベルの20％が正しい限り、学生は95％の正しいレートを持っています。しかし、それが約15％に低下すると、突然フェーズの変更が得られます。この時点でできることは、学生がこれらのラベルについて間違いなくそれを取得するので、生徒はどの例を正しく、どの例を間違っているかを理解する必要があります。学生がラベルと入力の関係を見ると、間違ったラベルのエラー性は明らかです。したがって、それがランダムに誤って有効になっているかどうかは関係ありませんが、学生がこれを理解できるように十分に良くする必要があるフェーズの変化があります。これはまた、私たちの学生が私たちより賢い理由を説明しています。

Abbeel：ニューラルネットワークの学習では、特にモデルを構築するときは、それが何であり、それが何を学んでいるのかを理解する必要があります。通常、人々は学習プロセス中に何が起こったのかを視覚化しようとします。

紙の住所：http：//www.cs.toronto.edu/~hinton/absps/tsne.pdf

ヒントン：高次元データがある場合は、2次元または3次元マップを描画しようとする場合、最初の2つのメインコンポーネントを使用して、最初の2つのメインコンポーネントのみを描画できます。しかし、主なコンポーネントは、大きな距離を正しくする方法を気にしています。したがって、2つのことが非常に異なる場合、主成分は2次元空間で大きく異なることを非常に心配しています。大きな違いの正方形で動作するため、小さな違いはまったく気にしません。したがって、高次元の類似性をうまく維持しないからです。しかし、私たちが興味を持っていることは、得られたデータにとってしばしば、私たちが興味を持っているものと非常に似ており、小さな距離が正しい限り、大きな距離に少しエラーがあるかどうかは気にしません。私はこのアイデアをずっと前に持っていましたが、距離の確率をペアに変換するとどうなりますか？

T-SNEのさまざまなバージョンがあります。それは、高い確率の低い距離ペアや低い確率の大きな距離ペアなど、確率のペアに変えるとします。距離を確率に変換し、わずかな距離が大きな確率に対応し、データポイントの周りにガウス分布を置き、このガウス分布の下で他のデータポイントの密度を計算し、それを正規化します。次に、これらのポイントを2次元空間に配置して、これらの確率を維持します。したがって、2つのポイントが非常に離れているかどうかは気にしません。それらのペアリング確率は非常に低く、2つのポイントの相対的な位置を気にしません。これにより、ランダム隣接埋め込みと呼ばれる非常に美しいマップが得られます。ガウス分布を入れて、非常に単純な導関数を持つガウス分布の下の密度に従って隣人をランダムに選択することを考えています。

私たちが得るマップは、物事を一緒に絞る傾向があります。これは、高次元データを低次元データに変換する際の根本的な問題です。これは、高次元空間と低次元空間の性質によってもたらされます。高次元空間では、データポイントは他の多くのポイントに近づくことができますが、低次元空間では、これらのポイントはそれほど近くにありません。それらがすべてこのデータポイントに非常に近い場合、それらは非常に近い必要があります。したがって、あなたは高から低いものへの埋め込みに問題があります。私がT-SNEをやっていたとき、私は確率を「中通貨」として使用して混合モデルを作成するという考えを持っていました。

私たちはアイデアを成功裏に実装しましたが、私たちはそれをうまくやったことはありませんでした。人々がこのアイデアを利用しなかったことに失望し、それから私は別のよりシンプルなバージョンを作成しました。

アイデアは、1つのマップでは、すべてのペアが等しい確率であり、大きな距離を通過する背景確率を提供します。つまり、別のマップでは、貢献する確率はこのマップである平方距離に比例します。実際、このバージョンは、ガウス分布ミキシングを使用する特別なケースであり、非常に広いガウス分布であり、均一です。ガウス機能レベル全体を使用した場合はどうなりますか？多くのガウス関数には、t分布と呼ばれる幅が異なり、t-sneをもたらします。 T-SNEには、物事に関するマルチスケール情報を提供する優れた特性があり、距離が大きくなると、全体的な構造や微細な構造を含むさまざまなレベルの構造が得られます。

目的関数は、これらのすべてのジョブで、私とアルベルトパチネロが以前に行ったことから、相対密度のガウスで使用され、当時の出版プロセスは困難でした。会議で拒否されたコメントを受け取りました。これらのコメントは、私が非常に革新的なことをしていることを実際に教えてくれたと思います。実際には、比較方法を使用するNCEと呼ばれる関数が含まれており、T-SNEは実際にはこの関数のバージョンです。しかし、T-sneはマップを作成するために使用され、後にハイブリッドバージョンを実行しようとしましたが、これは最初は偶然の一致になるまで機能しませんでした。これは、使用したいT分布です。

<<: 勾配降下法はAI専門家やネットユーザーの間で白熱した議論を巻き起こす：全員の答えは読む価値がある

>>: スマートテクノロジーは小売業界にどのような影響を与えるでしょうか?