ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

「ニューラル ネットワークに人間のように画像を理解させたいのであれば、ニューラル ネットワークが部分と全体の階層をどのように表現するかを理解する必要がありま す。」Google 副社長、エンジニアリング研究専門家、Vector Institute 主席科学顧問、トロント大学名誉教授のジェフリー ヒントン氏。

2月25日、チューリング賞受賞者ヒントン氏のみが署名した44ページの論文がプレプリント論文プラットフォームarXivにアップロードされ、人工知能コミュニティに波紋を巻き起こした。

論文リンク: https://arxiv.org/abs/2102.12627

これは、ヒントン氏とその協力者が2017年にCapsNetカプセルネットワークをリリースした後、ディープラーニングモデルのアーキテクチャを調査するためのヒントン氏によるもう一つの試みでした。

興味深いことに、この記事を読んだ人々は、この記事が非常に長いにもかかわらず、主にアイデアについて説明していることに気付きました。ヒントン氏は、他の研究者がこの記事に触発され、この考え方に沿ってフォローアップ研究を実施してくれることを願っています。

[[384157]]

Hinton 氏は論文の要約で次のように書いています。「この論文は、実際に機能するシステムを説明するものではありません。複数の異なるグループによる進歩を GLOM と呼ばれる仮想システムに組み合わせることを可能にする、表現に関する単一のアイデアを説明するだけです。これらの進歩には、Transformers、ニューラル フィールド、対照表現学習、モデル蒸留、カプセルが含まれます。GLOM は、固定アーキテクチャを持つニューラル ネットワークがどのようにして画像を、画像ごとに異なる部分全体階層に解析できるかという疑問に答えます。」

アイデアは、単に同じベクトルの島を使用して、解析ツリー内のノードを表すことです。 GLOM が最終的に実現可能であることが証明されれば、視覚や言語のタスクに適用されたときに、トランスフォーマーのようなシステムによって生成される表現の解釈可能性が大幅に向上する可能性があります。

Hinton 氏は、実際にコードを記述するところまでこのアイデアを実装しようと試みたのでしょうか?これに応えて著者は、ローラ・カルプ氏とサラ・セイバー氏とともにこのアイデアを研究していると述べた。

ヒントン氏が言及した Google の研究科学者サラ・セイバー氏が、カプセル ネットワーク論文の第一著者であったこともわかっています。NIPS 2017 論文「Dynamic Routing Between Capsules」が発表された後、サラ氏はカプセル コードのコピーもオープンソース化しました。

GLOMのアイデアは何ですか?

人間は視覚的なシーンを部分と全体の階層に解析し、部分と全体の間の遠近感に依存しない空間関係を、全体と部分に割り当てた固有の座標系間の座標変換としてモデル化するという強力な心理学的証拠があります。ニューラル ネットワークに人間のように画像を理解させたい場合、部分と全体の階層をどのように表現するかを理解する必要があります。実際のニューラル ネットワークでは、解析ツリー内のノードを表すニューロンのセットを動的に割り当てることができないため、これを実行するのは簡単ではありません。ニューラル ネットワークがニューロンを動的に割り当てることができないことが、「カプセル」を使用する一連のモデルの動機となっています。

これらのモデルでは、カプセルと呼ばれるニューロンのグループが、画像の特定の領域に表示される特定のタイプの部分に常に焦点を合わせると想定されています。次に、これらの既存のタイプ固有のカプセルのサブセットとそれらの間の適切な接続をアクティブ化することで、解析ツリーを作成できます。しかし、この論文では、カプセルを使用してニューラル ネットワーク内の部分と全体の階層を表す、非常に異なるアプローチについて説明します。

この記事では、単一の静止画像の認識に焦点を当てていますが、GLOM を一連のフレームを処理するパイプラインとして理解するのが最も簡単なので、静止画像は同一のフレームのシーケンスとして表示されます。

GLOM アーキテクチャは、同じ重みを使用する多数の列で構成されています。各列は、小さな画像パッチ内に存在するものの多段階表現を学習する空間的にローカルなオートエンコーダのスタックです。各オートエンコーダは、複数層のボトムアップ エンコーダと複数層のトップダウン デコーダを使用して、あるレベルの埋め込みを隣接するレベルの埋め込みに変換します。これらのレベルは、部分全体階層のレベルに対応します。たとえば、顔の画像が表示された場合、1 つの列が、鼻孔、鼻、顔、人物を表す埋め込みベクトルに収束する可能性があります。図 1 は、異なるレベルの埋め込みが 1 つの列内でどのように相互作用するかを示しています。

図 1 では、異なる列内の同じレベルの埋め込み間の相互作用は示されていません。これらの相互作用は、部分から全体への座標変換を実装する必要がないため、列内相互作用よりもはるかに簡単です。

これらは、マルチヘッド トランスフォーマー内の異なる単語フラグメントを表す列間の注目度重み付けされた相互作用に似ていますが、クエリ、キー、および値のベクトルがすべて埋め込みベクトルと同じであるため、より単純です。列間の相互作用の役割は、あるレベルの各埋め込みベクトルが近くの位置にある他の同様のベクトルに回帰できるようにすることで、そのレベルで同一の埋め込みの島を生成することです。これにより、複数のローカル「エコー チェンバー」が作成され、1 つのレベルでの埋め込みが主に他の同様の埋め込みに従います。

各離散時間と各列において、特定のレベルの埋め込みは、次の 4 つのコンテンツの加重平均になるように更新されます。

  1. 以前に次のレベルの埋め込みに基づいて動作したボトムアップ ニューラル ネットワークによって生成された予測。
  2. 前のレベルの埋め込みに基づいて以前に動作したトップダウン ニューラル ネットワークによって生成された予測。
  3. 前のタイムステップの埋め込みベクトル。
  4. 前の隣接列の同じレベルの埋め込みの注目度加重平均。

静止画像の場合、特定のレベルでの埋め込みは時間の経過とともに安定し、異なる島に対してほぼ同一のベクトルを生成するはずです。図 2 に示すように、レベルが高くなるほど、これらの島は大きくなります。

類似性アイランドを使用して画像解析を表現すると、解析ツリーのノードを動的に表現するためにニューロン グループを割り当てたり、すべての可能なノードに対して事前にニューロン グループを予約したりする必要がなくなります。 GLOM は、解析ツリー内のノードを表すためにニューラル ハードウェアを割り当て、ノードにその祖先と子孫へのポインタを提供する代わりに、ノードを特徴付けるために適切なアクティビティ ベクトルを割り当て、そのノードに属するすべての位置に同じアクティビティ ベクトルを使用します。ノードの祖先と子孫の両方にアクセスする機能は、ボトムアップとトップダウンの両方のニューラル ネットワークを使用して実装されます。テーブル検索に RAM を使用するのではなく。

BERT と同様に、システム全体をエンドツーエンドでトレーニングして、最終タイム ステップで欠落領域を含む入力画像から画像を再構築することができます。また、目的関数には、各レイヤーの島ベクトルがほぼ同一になるように強制する 2 つの正規化子も含まれています。正則化子は、特定のレイヤーでの新しい埋め込みとボトムアップおよびトップダウンの予測との間の単純な一致であり、この一致を高めると、ローカルアイランドの生成に役立ちます。

他のニューラルネットワークとどう違うのでしょうか?

カプセル ネットワークに対する GLOM の主な利点は、各レイヤーのニューロンを一連の個別のパーツに事前に割り当てる必要がないことです。これにより、類似のコンポーネント (腕や脚など) 間での知識の共有が強化され、特定の種類のオブジェクトに属するパーツの数や種類の柔軟性が向上します。同時に、GLOM は動的パスを必要とせず、そのクラスタリング プロセスはカプセル ネットワークよりもはるかに優れています。

最近人気の Transformer モデルと比較すると、GLOM の再配置は Transformer の標準バージョンと同等ですが、いくつかの違いがあります。各レイヤーの重みは同じです。アテンション メカニズムは大幅に簡素化されています。ほとんどの Transformer モデルで表現力を高めるために使用されている複数のヘッドは、部分全体階層の複数のレベルを実装するように再設計されています。

研究の中でヒントン氏は、カプセル ネットワークが最初に提案されたのは、畳み込みニューラル ネットワーク (CNN) に 3 つの欠陥があると考えられていたためだと述べています。 CNN に精通している場合は、GLOM を、次の点で標準の CNN とは異なる特別な種類の CNN と考えることもできます。

• 1×1 畳み込みのみを使用します (フロントエンドを除く)。

• 位置間の相互作用は、パラメータフリーの平均化によって実現されます。これにより、一致フィルターが実装され、一致フィルターだけでなくハフ変換を使用してユニットをアクティブ化できるようになります。

• 表現階層を通る単一のフィードフォワードパスを使用するのではなく、反復によりニューラル フィールドがトップダウンの影響を実現できるようになります。

• 対照的な自己教師学習が含まれ、階層的セグメンテーションを実行します。これは、別のタスクではなく、認識の一部です。これにより不透明度の問題が解決されます。

GLOM ネットワーク、それは本当に未来でしょうか?

ネットユーザーは次のようにコメントしている。「ジェフリー・ヒントンが提案するものが良いアイデアであるかどうかは別として、人々は彼の文章スタイルをとても心地よいと感じるだろう。」 2018年のチューリング賞受賞者は、長大な論文の中で自身の考えを体系化し、さまざまな観点から具体化するという素晴らしい仕事をしました。このモデルが最終的に技術的に実現不可能であることが証明されたとしても、人々は彼の推論プロセスからかなりのインスピレーションを得ることができるでしょう。

[[384158]]

この論文は実装の設計文書として始まりましたが、いくつかの設計上の決定を正当化する必要があったため、すぐにペースが落ちました。 Hinton 氏は、ニューラル ネットワーク ビジョン システムの内部構造を明らかにすることを目的とした一連の相互に関連するアイデアを伝えるツールとして、仮想的な GLOM アーキテクチャを使用しています。実用的な実装を導入しないことで、ヒントンは自分のアイデアを明確に表現することに集中しやすくなり、人々が「アイデアの品質」と「実装の品質」を一緒に議論することに忙しくなるのを避けることができます。

「科学と哲学の違いは、実験によって極めて合理的な考えが間違っていることが証明され、極めて不合理な考えが正しいことが証明される可能性があるということです。」

Hinton 氏は現在、GLOM アーキテクチャの機能をテストする共同プロジェクトに参加しています。同時に、彼は他の研究グループも上記のアイデアの検証に参加してくれることを期待しています。

構文解析ツリー内のノードが類似のベクトルの島によって表現されるという考え方により、知覚を理解するための 2 つの非常に異なるアプローチが統合されます。最初のアプローチは古典的なゲシュタルト学派であり、人間の脳の働きの原理は全体論的であり、全体は部分の総和とは異なると主張し、知覚をモデル化する「場」の理論も提唱しました。 GLOM では、知覚はフィールドであり、全体を表す共有埋め込みベクトルは、実際には部分を表す共有埋め込みベクトルとは大きく異なります。 2 番目のアプローチは、構造的記述に依存して知覚モデルを構築する、人工知能の古典的な学派です。 GLOM には構造化された記述もあり、解析ツリー内の各ノードには独自の「アドレス」がありますが、アドレスはハードウェアの場所の個別の空間ではなく、可能な埋め込みの連続空間にあります。

ディープラーニングの批評家の中には、ニューラル ネットワークは組み合わせ階層を処理できないため、ニューラル ネットワークのフロント エンドとバック エンドが高度な推論をよりシンボリックなシステムに引き継ぐことができる「ニューラル シンボリック」インターフェイスが必要であると主張する人もいます。ヒントンは、人間の推論の主な方法は類推を使用することであり、これらの類推は学習された高次元ベクトル間の類似性によって可能になると考えています。彼はまた、ニューラルシンボリックインターフェースについての例えを挙げ、このインターフェースは、電気モーターの欠点を50年かけて説明し、最終的にガソリンエンジンに電気装置を追加した自動車メーカーのようなものだと述べました(ハイブリッド化、電動化)。

BERT の大成功と、タスクで必要な場合にニューラル ネットワークが解析ツリーを出力できることを示した以前の研究により、ニューラル ネットワークは必要に応じて文を解析できることが明らかになりました。 BERT ヘッド間の相互作用を表現レベルに対応するように構造化し、各レベルで複数のトークン フラグメントにわたるローカル アイランドの一貫性を促進するために対照的に学習された正規化子を追加することで、GLOMBERT が実際に文を解析していることを示すことができる可能性があります。

<<:  かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

>>:  頑固なマージソートアルゴリズム

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

国際ビデオ品質評価アルゴリズムコンテスト:Volcano Engine が優勝

7月26日、マルチメディア分野の世界最高峰の学術会議であるICME 2021で開催された「圧縮UGC...

人工知能の分野は大きな需要があり、金融​​人材の将来性は有望である

[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...

限定ダウンロード! Alibaba は AI をどのように活用してコードを記述しているのでしょうか?

[[315476]]今年のアリババ経済フロントエンド委員会の4つの主要な技術方向の1つとして、フロ...

...

...

...

李開復:人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

最近、李開復氏は記者との独占インタビューで人工知能に関する自身の観察と洞察について語った。シリコンバ...

130 億個のパラメータを持つモデルをトレーニングするには GPU がいくつ必要ですか?マイクロソフト: 1つで十分

今日のモデルには数千億、あるいは数兆ものパラメータがあります。一般の人がモデルをトレーニングできない...

マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!

今日の情報化時代において、個人の身元を正確に識別し、情報セキュリティを保護する方法は、あらゆる分野の...

マスク氏:ロボットが雇用を奪い、ユニバーサル・ベーシック・インカムが必須に

億万長者のイーロン・マスク氏は最近、一連のツイートで、ロボットが人間の仕事を奪うなら、政府による普遍...

百度のCTO王海鋒が言語と知識の完全なレイアウトを説明する

自然言語理解(NLP)は「人工知能の最高傑作」として知られており、これは言語や知識などの認知面におけ...

Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

Nvidia はビデオ会議を開催しただけで訴えられたのですか? ? ?はい、きっかけはほんの数枚のコ...

専門家:歩行者の安全問題を解決するために都市は自動運転だけに頼ることはできない

自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...

Verdict、2020年第1四半期のTwitterにおけるIoTトレンドトップ5を発表

私たちは、企業や専門家が IoT についてどう考えているかを知りたいと思っていますが、一般の人々はど...

テスラのヒューマノイドロボットは来年オンラインになるでしょうか?専門家:マスク氏は単純すぎる考え方

[[419079]] 「ロボットは、人間が最もやりたがらない、退屈で反復的で危険な作業を処理するため...