ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

「ニューラルネットワークに人間のように画像を理解させたいのであれば、ニューラルネットワークが部分と全体の階層をどのように表現するかを理解する必要があります。」Google 副社長、エンジニアリング研究専門家、Vector Institute 主席科学顧問、トロント大学名誉教授のジェフリーヒントン氏。

2月25日、チューリング賞受賞者ヒントン氏のみが署名した44ページの論文がプレプリント論文プラットフォームarXivにアップロードされ、人工知能コミュニティに波紋を巻き起こした。

論文リンク: https://arxiv.org/abs/2102.12627

これは、ヒントン氏とその協力者が2017年にCapsNetカプセルネットワークをリリースした後、ディープラーニングモデルのアーキテクチャを調査するためのヒントン氏によるもう一つの試みでした。

興味深いことに、この記事を読んだ人々は、この記事が非常に長いにもかかわらず、主にアイデアについて説明していることに気付きました。ヒントン氏は、他の研究者がこの記事に触発され、この考え方に沿ってフォローアップ研究を実施してくれることを願っています。

Hinton 氏は論文の要約で次のように書いています。「この論文は、実際に機能するシステムを説明するものではありません。複数の異なるグループによる進歩を GLOM と呼ばれる仮想システムに組み合わせることを可能にする、表現に関する単一のアイデアを説明するだけです。これらの進歩には、Transformers、ニューラルフィールド、対照表現学習、モデル蒸留、カプセルが含まれます。GLOM は、固定アーキテクチャを持つニューラルネットワークがどのようにして画像を、画像ごとに異なる部分全体階層に解析できるかという疑問に答えます。」

アイデアは、単に同じベクトルの島を使用して、解析ツリー内のノードを表すことです。 GLOM が最終的に実現可能であることが証明されれば、視覚や言語のタスクに適用されたときに、トランスフォーマーのようなシステムによって生成される表現の解釈可能性が大幅に向上する可能性があります。

Hinton 氏は、実際にコードを記述するところまでこのアイデアを実装しようと試みたのでしょうか?これに応えて著者は、ローラ・カルプ氏とサラ・セイバー氏とともにこのアイデアを研究していると述べた。

ヒントン氏が言及した Google の研究科学者サラ・セイバー氏が、カプセルネットワーク論文の第一著者であったこともわかっています。NIPS 2017 論文「Dynamic Routing Between Capsules」が発表された後、サラ氏はカプセルコードのコピーもオープンソース化しました。

GLOMのアイデアは何ですか？

人間は視覚的なシーンを部分と全体の階層に解析し、部分と全体の間の遠近感に依存しない空間関係を、全体と部分に割り当てた固有の座標系間の座標変換としてモデル化するという強力な心理学的証拠があります。ニューラルネットワークに人間のように画像を理解させたい場合、部分と全体の階層をどのように表現するかを理解する必要があります。実際のニューラルネットワークでは、解析ツリー内のノードを表すニューロンのセットを動的に割り当てることができないため、これを実行するのは簡単ではありません。ニューラルネットワークがニューロンを動的に割り当てることができないことが、「カプセル」を使用する一連のモデルの動機となっています。

これらのモデルでは、カプセルと呼ばれるニューロンのグループが、画像の特定の領域に表示される特定のタイプの部分に常に焦点を合わせると想定されています。次に、これらの既存のタイプ固有のカプセルのサブセットとそれらの間の適切な接続をアクティブ化することで、解析ツリーを作成できます。しかし、この論文では、カプセルを使用してニューラルネットワーク内の部分と全体の階層を表す、非常に異なるアプローチについて説明します。

この記事では、単一の静止画像の認識に焦点を当てていますが、GLOM を一連のフレームを処理するパイプラインとして理解するのが最も簡単なので、静止画像は同一のフレームのシーケンスとして表示されます。

GLOM アーキテクチャは、同じ重みを使用する多数の列で構成されています。各列は、小さな画像パッチ内に存在するものの多段階表現を学習する空間的にローカルなオートエンコーダのスタックです。各オートエンコーダは、複数層のボトムアップエンコーダと複数層のトップダウンデコーダを使用して、あるレベルの埋め込みを隣接するレベルの埋め込みに変換します。これらのレベルは、部分全体階層のレベルに対応します。たとえば、顔の画像が表示された場合、1 つの列が、鼻孔、鼻、顔、人物を表す埋め込みベクトルに収束する可能性があります。図 1 は、異なるレベルの埋め込みが 1 つの列内でどのように相互作用するかを示しています。

図 1 では、異なる列内の同じレベルの埋め込み間の相互作用は示されていません。これらの相互作用は、部分から全体への座標変換を実装する必要がないため、列内相互作用よりもはるかに簡単です。

これらは、マルチヘッドトランスフォーマー内の異なる単語フラグメントを表す列間の注目度重み付けされた相互作用に似ていますが、クエリ、キー、および値のベクトルがすべて埋め込みベクトルと同じであるため、より単純です。列間の相互作用の役割は、あるレベルの各埋め込みベクトルが近くの位置にある他の同様のベクトルに回帰できるようにすることで、そのレベルで同一の埋め込みの島を生成することです。これにより、複数のローカル「エコーチェンバー」が作成され、1 つのレベルでの埋め込みが主に他の同様の埋め込みに従います。

各離散時間と各列において、特定のレベルの埋め込みは、次の 4 つのコンテンツの加重平均になるように更新されます。

以前に次のレベルの埋め込みに基づいて動作したボトムアップニューラルネットワークによって生成された予測。
前のレベルの埋め込みに基づいて以前に動作したトップダウンニューラルネットワークによって生成された予測。
前のタイムステップの埋め込みベクトル。
前の隣接列の同じレベルの埋め込みの注目度加重平均。

静止画像の場合、特定のレベルでの埋め込みは時間の経過とともに安定し、異なる島に対してほぼ同一のベクトルを生成するはずです。図 2 に示すように、レベルが高くなるほど、これらの島は大きくなります。

類似性アイランドを使用して画像解析を表現すると、解析ツリーのノードを動的に表現するためにニューロングループを割り当てたり、すべての可能なノードに対して事前にニューロングループを予約したりする必要がなくなります。 GLOM は、解析ツリー内のノードを表すためにニューラルハードウェアを割り当て、ノードにその祖先と子孫へのポインタを提供する代わりに、ノードを特徴付けるために適切なアクティビティベクトルを割り当て、そのノードに属するすべての位置に同じアクティビティベクトルを使用します。ノードの祖先と子孫の両方にアクセスする機能は、ボトムアップとトップダウンの両方のニューラルネットワークを使用して実装されます。テーブル検索に RAM を使用するのではなく。

BERT と同様に、システム全体をエンドツーエンドでトレーニングして、最終タイムステップで欠落領域を含む入力画像から画像を再構築することができます。また、目的関数には、各レイヤーの島ベクトルがほぼ同一になるように強制する 2 つの正規化子も含まれています。正則化子は、特定のレイヤーでの新しい埋め込みとボトムアップおよびトップダウンの予測との間の単純な一致であり、この一致を高めると、ローカルアイランドの生成に役立ちます。

他のニューラルネットワークとどう違うのでしょうか?

カプセルネットワークに対する GLOM の主な利点は、各レイヤーのニューロンを一連の個別のパーツに事前に割り当てる必要がないことです。これにより、類似のコンポーネント (腕や脚など) 間での知識の共有が強化され、特定の種類のオブジェクトに属するパーツの数や種類の柔軟性が向上します。同時に、GLOM は動的パスを必要とせず、そのクラスタリングプロセスはカプセルネットワークよりもはるかに優れています。

最近人気の Transformer モデルと比較すると、GLOM の再配置は Transformer の標準バージョンと同等ですが、いくつかの違いがあります。各レイヤーの重みは同じです。アテンションメカニズムは大幅に簡素化されています。ほとんどの Transformer モデルで表現力を高めるために使用されている複数のヘッドは、部分全体階層の複数のレベルを実装するように再設計されています。

研究の中でヒントン氏は、カプセルネットワークが最初に提案されたのは、畳み込みニューラルネットワーク (CNN) に 3 つの欠陥があると考えられていたためだと述べています。 CNN に精通している場合は、GLOM を、次の点で標準の CNN とは異なる特別な種類の CNN と考えることもできます。

• 1×1 畳み込みのみを使用します (フロントエンドを除く)。

• 位置間の相互作用は、パラメータフリーの平均化によって実現されます。これにより、一致フィルターが実装され、一致フィルターだけでなくハフ変換を使用してユニットをアクティブ化できるようになります。

• 表現階層を通る単一のフィードフォワードパスを使用するのではなく、反復によりニューラルフィールドがトップダウンの影響を実現できるようになります。

• 対照的な自己教師学習が含まれ、階層的セグメンテーションを実行します。これは、別のタスクではなく、認識の一部です。これにより不透明度の問題が解決されます。

GLOM ネットワーク、それは本当に未来でしょうか?

ネットユーザーは次のようにコメントしている。「ジェフリー・ヒントンが提案するものが良いアイデアであるかどうかは別として、人々は彼の文章スタイルをとても心地よいと感じるだろう。」 2018年のチューリング賞受賞者は、長大な論文の中で自身の考えを体系化し、さまざまな観点から具体化するという素晴らしい仕事をしました。このモデルが最終的に技術的に実現不可能であることが証明されたとしても、人々は彼の推論プロセスからかなりのインスピレーションを得ることができるでしょう。

この論文は実装の設計文書として始まりましたが、いくつかの設計上の決定を正当化する必要があったため、すぐにペースが落ちました。 Hinton 氏は、ニューラルネットワークビジョンシステムの内部構造を明らかにすることを目的とした一連の相互に関連するアイデアを伝えるツールとして、仮想的な GLOM アーキテクチャを使用しています。実用的な実装を導入しないことで、ヒントンは自分のアイデアを明確に表現することに集中しやすくなり、人々が「アイデアの品質」と「実装の品質」を一緒に議論することに忙しくなるのを避けることができます。

「科学と哲学の違いは、実験によって極めて合理的な考えが間違っていることが証明され、極めて不合理な考えが正しいことが証明される可能性があるということです。」

Hinton 氏は現在、GLOM アーキテクチャの機能をテストする共同プロジェクトに参加しています。同時に、彼は他の研究グループも上記のアイデアの検証に参加してくれることを期待しています。

構文解析ツリー内のノードが類似のベクトルの島によって表現されるという考え方により、知覚を理解するための 2 つの非常に異なるアプローチが統合されます。最初のアプローチは古典的なゲシュタルト学派であり、人間の脳の働きの原理は全体論的であり、全体は部分の総和とは異なると主張し、知覚をモデル化する「場」の理論も提唱しました。 GLOM では、知覚はフィールドであり、全体を表す共有埋め込みベクトルは、実際には部分を表す共有埋め込みベクトルとは大きく異なります。 2 番目のアプローチは、構造的記述に依存して知覚モデルを構築する、人工知能の古典的な学派です。 GLOM には構造化された記述もあり、解析ツリー内の各ノードには独自の「アドレス」がありますが、アドレスはハードウェアの場所の個別の空間ではなく、可能な埋め込みの連続空間にあります。

ディープラーニングの批評家の中には、ニューラルネットワークは組み合わせ階層を処理できないため、ニューラルネットワークのフロントエンドとバックエンドが高度な推論をよりシンボリックなシステムに引き継ぐことができる「ニューラルシンボリック」インターフェイスが必要であると主張する人もいます。ヒントンは、人間の推論の主な方法は類推を使用することであり、これらの類推は学習された高次元ベクトル間の類似性によって可能になると考えています。彼はまた、ニューラルシンボリックインターフェースについての例えを挙げ、このインターフェースは、電気モーターの欠点を50年かけて説明し、最終的にガソリンエンジンに電気装置を追加した自動車メーカーのようなものだと述べました（ハイブリッド化、電動化）。

BERT の大成功と、タスクで必要な場合にニューラルネットワークが解析ツリーを出力できることを示した以前の研究により、ニューラルネットワークは必要に応じて文を解析できることが明らかになりました。 BERT ヘッド間の相互作用を表現レベルに対応するように構造化し、各レベルで複数のトークンフラグメントにわたるローカルアイランドの一貫性を促進するために対照的に学習された正規化子を追加することで、GLOMBERT が実際に文を解析していることを示すことができる可能性があります。

<<: かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

>>: 頑固なマージソートアルゴリズム