73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinton氏が「次世代のニューラルネットワーク」と題する報告を行いました。

ジェフリー・ヒントン氏は、Google の副社長兼エンジニアリング研究者であり、Vector Institute の主任科学顧問、トロント大学の名誉教授です。 2018年、彼はヨシュア・ベンジオ氏、ヤン・ルカン氏とともに、ディープラーニング分野への多大な貢献によりチューリング賞を共同で受賞しました。

ジェフリー・ヒントンは 1980 年代から、人工知能の研究に機械学習手法を利用することを提唱してきました。彼は、人間の脳の働きを通して機械学習システムを探求したいと考えています。人間の脳にヒントを得て、彼と他の研究者は「人工ニューラルネットワーク」を提案し、それが機械学習研究の基礎を築きました。

では、30年以上経った今、ニューラルネットワークの今後の発展の方向性はどこにあるのでしょうか?

このレポートで、ヒントン氏はニューラルネットワークの発展の歴史を振り返り、次世代のニューラルネットワークは教師なし対照学習に属するだろうと述べました

ヒントン氏の報告書の主な内容は以下のとおりです。

人工ニューラル ネットワークにとって最も重要な未解決の問題は、脳と同じくらい効率的に教師なし学習を実行する方法です。

現在、教師なし学習法には主に 2 つの種類があります。

最初のカテゴリの代表的なものとしては、ディープ ニューラル ネットワークを使用して入力を再構築する BERT と変分オートエンコーダ (VAE) があります。ただし、ネットワークの最も深い層で画像の詳細をエンコードする必要があるため、これらの方法は画像には適していません。

1992 年にベッカーとヒントンが提案した別のアプローチでは、ディープ ニューラル ネットワークの 2 つのコピーをトレーニングして、同じ画像の 2 つの異なる切り抜きバージョンを入力として、相互情報量の高い出力ベクトルを生成できるようにします。このような方法は、入力の無関係な詳細から表現を解放するように設計されています。

Becker と Hinton が使用した相互情報量最適化法にはいくつかの欠陥があったため、Pacannaro と Hinton は後に、ベクトル表現が複数のベクトル表現の中から対応するものを選択するという識別目的に置き換えました。

ハードウェアの高速化により、表現対照学習は最近人気が高まり、非常に効率的であることが証明されていますが、依然として大きな欠陥があります。N ビットの相互情報量を持つ表現ベクトルのペアを学習するには、正しい対応ベクトルを 2N 個の誤ったベクトルと比較する必要があります。

ヒントン氏は講演の中で、この問題に対処するための新しい効率的な方法を紹介した。さらに、皮質知覚学習を実現するためのシンプルなアプローチを紹介しています。

次に、ヒントン氏のスピーチの具体的な内容を見てみましょう。

なぜ教師なし学習が必要なのでしょうか?

ニューラル ネットワークの将来の発展を予測する前に、ヒントン氏はまずニューラル ネットワークの開発プロセスを検討しました。

講演の冒頭でヒントン氏はまず、教師あり学習、強化学習、教師なし学習という3つの学習タスクを紹介し、教師なし学習の必要性を強調しました。

なぜ教師なし学習が必要なのでしょうか?

ヒントン氏はそれを生物学的観点から説明した。彼は、人間の脳には 10^14 個のニューロンシナプスがあるのに対し、人生は 10^9 秒しかないことを指摘しました。したがって、人間はすべてのニューロントレーニングを完了するために教師あり学習に完全に依存することはできず、教師なし学習の支援が必要です。

これに触発されて、インテリジェントなモデルを構築するには教師なし学習も必要です。

教師なし学習の発展

教師なし学習はどのように発展してきましたか? Hinton は、教師なし学習における一般的な目的関数を紹介します。

次に、ヒントン氏はオートエンコーダについて詳しく説明しました。

ヒントン氏は、オートエンコーダは教師あり学習を使用して教師なし学習を実現する方法であり、最終的な再構成をデータと一致させることを目標としていると述べた。エンコーダーはデータ ベクトルをコードに変換し、デコーダーはコードに基づいてデータを生成します。

Hinton 氏は、オートエンコーダの定義、ディープ オートエンコーダのトレーニングの難しさや現状について概要を説明した後、変分オートエンコーダと BERT オートエンコーダという2 種類のオートエンコーダに焦点を当てました。

ディープニューラルネットワークを使用した入力の再構築: VAE と BERT

BERT と変分オートエンコーダ (VAE) は、ディープ ニューラル ネットワークを使用して入力を再構築する、教師なし学習の代表的な例です。

変分オートエンコーダは、2013 年に Wellings と Kingma によって提案されました。複数層のエンコーダを使用して実際のコードを選択し、複数層のデコーダを使用してデータを再構築します。 VAE の基本構造を下図に示します。

バート

これは、Google が 2018 年に提案した言語表現モデルであり、すべてのレイヤーの左右のコンテキストに基づいて、双方向の深層表現を事前トレーニングします。

コンテキスト情報は BERT にとって非常に重要です。BERT はマスク言語モデル (MLM) を使用して、左コンテキストと右コンテキストの融合を表現し、深層双方向トランスフォーマーを事前トレーニングします。

ヒントンは例を挙げた。「彼女はフライパンで彼を殴った。」この文では、scromedの意味を知らなくても、文脈から推測することができます。

視覚領域でも同様です。しかし、 BERT などの手法は、ネットワークの最深層で画像の詳細をエンコードする必要があるため、視野にはうまく適用できません

VAE と BERT に代表される教師なし学習法について説明した後、Hinton 氏は別の種類の教師なし学習法を紹介しました。

ベッカーとヒントンは相互情報量を最大化する手法を提案した。

では、オートエンコーダーや生成モデルに代わるものはあるのでしょうか?ヒントン氏は、感覚入力のあらゆる詳細を解釈するのをやめて、代わりに空間的または時間的に一貫した特徴を抽出することに焦点を当てることができると示唆しています。このアプローチの利点は、オートエンコーダとは異なり、ノイズを無視できることです

次にヒントン氏は、1992 年にスザンナ・ベッカー氏と共同で提案した、空間的に一貫した特徴を抽出する方法について詳しく説明します。この方法の中心的な考え方は、入力の 2 つの重複しないパッチ表現間の明示的な相互情報量を最大化することです。 Hinton は、以下に示すように、空間的に一貫した変数を抽出する簡単な例を示しています。

トレーニング後、ヒントンは、空間的に一貫した唯一の特徴は「不一致」(空間的に一貫した唯一の特性は視差)であるため、これも抽出する必要があることを指摘しました。

彼は、相互情報量を最大化するこのアプローチには難しい問題があり、次のような仮定を立てていると述べました。線形マッピングのみが学習され、線形関数が最適化されると、変数は分散されるというものです。ただし、この仮定はそれほど多くの問題を引き起こすことはありません。

これまでの研究方法のレビュー

この部分では、ヒントンは LLE、LRE、SNE、t-SNE などの手法を紹介しました。

局所線形埋め込み (LLE)

Hinton は、2000 年の Science 論文「Nonlinear Dimensionality Reduction by Locally Linear Embedding」で Sam T. Roweis と Lawrence K. Saul が言及した、高次元のデータ ポイントを 2 次元グラフに表示し、非常に類似したデータ ポイントを互いに近づけることができる、局所線形埋め込み法を紹介しました。

ただし、LLE 方式では、データ ポイントの重複や凝固、次元の崩壊などの問題が発生することに注意する必要があります。

次の図は、MNIST データセット内の数字のローカル線形埋め込みを示しています。各色は異なる数字を表しています。

さらに、これらの長い弦はほとんどが 1 次元であり、互いに直交しています。

線形関係埋め込み (LRE) から確率的近傍埋め込み (SNE) へ

このセクションでは、Hinton が線形関係埋め込み (LRE) 手法から確率的近傍埋め込み (SNE) 手法への移行について説明します。彼は、「類似」関係が存在する場合にのみ、LRE が SNE に変換されると述べました。

同時に、ヒントンは、LRE 目的関数が次元削減に使用できることを指摘しました。

下の図は SNE の概略図です。高次元空間内の各点には、他の点を近傍として選択する条件付き確率があり、近傍分布は高次元のペアワイズ距離に基づいています。

確率的近傍埋め込み (SNE) から t 分布確率的近傍埋め込み (t-SNE) へ

t 分布確率的近傍埋め込み (t-SNE) は SNE の変形であり、学生分布を使用して低次元空間の確​​率分布を表します。

Hinton は、MNIST データセット内の数字の t-SNE 埋め込みを次の図に示しています。各色は異なる数字を表しています。

これらの方法を紹介した後、ヒントンは 2 つの疑問を提起しました。1) 非線形マッピングや非パラメトリック マッピングを最適化するときに、分散制約のパフォーマンスが低下するのはなぜですか? 2) 正準相関分析や線形判別分析の非線形バージョンが機能しないのはなぜですか?そして答えました。

最後に、ヒントンは、対照損失を使用して空間的または時間的一貫性のベクトル表現を抽出することを提案し、対照損失の使用を試みた2004年のルスラン・サラクディノフとの調査、および2018年のオード、リー、およびヴィニャルスによる対照損失の使用を紹介し、このアイデアを再現して時間的一貫性の表現を発見するために使用しました。

ヒントン氏は、対照的損失は教師なし学習で非常に人気のある手法であると述べた。

SimCLR、教師なし対照学習の最新実装

講演の最後に、ヒントン氏は、一貫性のある表現を抽出するためにコントラスト損失を使用する、彼のチームの最新の SimCLR 実装について説明しました。これは、視覚表現のコントラスト学習のためのシンプルなフレームワークであり、これまでのすべての研究だけでなく、最新のコントラスト自己教師学習アルゴリズムよりも優れています。

次の図は SimCLR の動作原理を示しています。

では、SimCLR は ImageNet でトップ 1 の精度をどのように実現するのでしょうか?下の図は、SimCLR と ImageNet (ImageNet で事前トレーニング済み) におけるさまざまな以前の自己教師あり手法の Top-1 精度の比較、および ResNet-50 の教師あり学習効果を示しています。

Hinton 氏は、ImageNet の画像ラベルの 1% を微調整した後、SimCLR は 85.8% のトップ 5 精度を達成でき、ラベルのわずか 1% で AlexNet を上回る結果になったと述べました。

<<:  Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

>>:  人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

ブログ    
ブログ    

推薦する

Facebookのスマートスピーカー「フィオナ」と「アロハ」が今月下旬に発売される

Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...

畳み込みニューラルネットワークにおける自己注意メカニズムの理解

導入コンピューター ビジョンにおけるエンコーダー/デコーダー アーキテクチャの制限とそれを改善する方...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

...

企業がより持続可能な推論を通じてより環境に優しい AIGC を実現する方法

モデルとは何か一般人にとって、AIとそのプログラミングの基盤となるアルゴリズムが、これほど広範囲にわ...

...

警告!長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

llama.cppを勉強した後、携帯電話で大規模なモデルを実行するのはとても簡単だと分かりました

最近、オープンソース コミュニティでは、大規模モデルの最適化手法を模索する人が増えています。 LLa...

2020年に注目すべき10のAIトレンド

今後 1 年間で AI テクノロジーはどのように進化するのでしょうか。組織が注目すべき主要な AI ...

科学者はAIを活用して「スーパーバグ」を殺すことができる強力な新しい抗生物質を発見することに成功した

MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...

AIは小売業界をどう変えるのか

コロナウイルスの発生前から、消費者の期待はすでに変化しており、小売業界に課題をもたらしていました。そ...

...

企業がAIアプリケーションの成功を測定する方法

AI を従来のソフトウェアと区別する基本的な特徴は、非決定性です。同じ入力であっても、計算のラウンド...

...