73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinton氏が「次世代のニューラルネットワーク」と題する報告を行いました。

ジェフリー・ヒントン氏は、Google の副社長兼エンジニアリング研究者であり、Vector Institute の主任科学顧問、トロント大学の名誉教授です。 2018年、彼はヨシュア・ベンジオ氏、ヤン・ルカン氏とともに、ディープラーニング分野への多大な貢献によりチューリング賞を共同で受賞しました。

ジェフリー・ヒントンは 1980 年代から、人工知能の研究に機械学習手法を利用することを提唱してきました。彼は、人間の脳の働きを通して機械学習システムを探求したいと考えています。人間の脳にヒントを得て、彼と他の研究者は「人工ニューラルネットワーク」を提案し、それが機械学習研究の基礎を築きました。

では、30年以上経った今、ニューラルネットワークの今後の発展の方向性はどこにあるのでしょうか?

このレポートで、ヒントン氏はニューラルネットワークの発展の歴史を振り返り、次世代のニューラルネットワークは教師なし対照学習に属するだろうと述べました

ヒントン氏の報告書の主な内容は以下のとおりです。

人工ニューラル ネットワークにとって最も重要な未解決の問題は、脳と同じくらい効率的に教師なし学習を実行する方法です。

現在、教師なし学習法には主に 2 つの種類があります。

最初のカテゴリの代表的なものとしては、ディープ ニューラル ネットワークを使用して入力を再構築する BERT と変分オートエンコーダ (VAE) があります。ただし、ネットワークの最も深い層で画像の詳細をエンコードする必要があるため、これらの方法は画像には適していません。

1992 年にベッカーとヒントンが提案した別のアプローチでは、ディープ ニューラル ネットワークの 2 つのコピーをトレーニングして、同じ画像の 2 つの異なる切り抜きバージョンを入力として、相互情報量の高い出力ベクトルを生成できるようにします。このような方法は、入力の無関係な詳細から表現を解放するように設計されています。

Becker と Hinton が使用した相互情報量最適化法にはいくつかの欠陥があったため、Pacannaro と Hinton は後に、ベクトル表現が複数のベクトル表現の中から対応するものを選択するという識別目的に置き換えました。

ハードウェアの高速化により、表現対照学習は最近人気が高まり、非常に効率的であることが証明されていますが、依然として大きな欠陥があります。N ビットの相互情報量を持つ表現ベクトルのペアを学習するには、正しい対応ベクトルを 2N 個の誤ったベクトルと比較する必要があります。

ヒントン氏は講演の中で、この問題に対処するための新しい効率的な方法を紹介した。さらに、皮質知覚学習を実現するためのシンプルなアプローチを紹介しています。

次に、ヒントン氏のスピーチの具体的な内容を見てみましょう。

なぜ教師なし学習が必要なのでしょうか?

ニューラル ネットワークの将来の発展を予測する前に、ヒントン氏はまずニューラル ネットワークの開発プロセスを検討しました。

講演の冒頭でヒントン氏はまず、教師あり学習、強化学習、教師なし学習という3つの学習タスクを紹介し、教師なし学習の必要性を強調しました。

なぜ教師なし学習が必要なのでしょうか?

ヒントン氏はそれを生物学的観点から説明した。彼は、人間の脳には 10^14 個のニューロンシナプスがあるのに対し、人生は 10^9 秒しかないことを指摘しました。したがって、人間はすべてのニューロントレーニングを完了するために教師あり学習に完全に依存することはできず、教師なし学習の支援が必要です。

これに触発されて、インテリジェントなモデルを構築するには教師なし学習も必要です。

教師なし学習の発展

教師なし学習はどのように発展してきましたか? Hinton は、教師なし学習における一般的な目的関数を紹介します。

次に、ヒントン氏はオートエンコーダについて詳しく説明しました。

ヒントン氏は、オートエンコーダは教師あり学習を使用して教師なし学習を実現する方法であり、最終的な再構成をデータと一致させることを目標としていると述べた。エンコーダーはデータ ベクトルをコードに変換し、デコーダーはコードに基づいてデータを生成します。

Hinton 氏は、オートエンコーダの定義、ディープ オートエンコーダのトレーニングの難しさや現状について概要を説明した後、変分オートエンコーダと BERT オートエンコーダという2 種類のオートエンコーダに焦点を当てました。

ディープニューラルネットワークを使用した入力の再構築: VAE と BERT

BERT と変分オートエンコーダ (VAE) は、ディープ ニューラル ネットワークを使用して入力を再構築する、教師なし学習の代表的な例です。

変分オートエンコーダは、2013 年に Wellings と Kingma によって提案されました。複数層のエンコーダを使用して実際のコードを選択し、複数層のデコーダを使用してデータを再構築します。 VAE の基本構造を下図に示します。

バート

これは、Google が 2018 年に提案した言語表現モデルであり、すべてのレイヤーの左右のコンテキストに基づいて、双方向の深層表現を事前トレーニングします。

コンテキスト情報は BERT にとって非常に重要です。BERT はマスク言語モデル (MLM) を使用して、左コンテキストと右コンテキストの融合を表現し、深層双方向トランスフォーマーを事前トレーニングします。

ヒントンは例を挙げた。「彼女はフライパンで彼を殴った。」この文では、scromedの意味を知らなくても、文脈から推測することができます。

視覚領域でも同様です。しかし、 BERT などの手法は、ネットワークの最深層で画像の詳細をエンコードする必要があるため、視野にはうまく適用できません

VAE と BERT に代表される教師なし学習法について説明した後、Hinton 氏は別の種類の教師なし学習法を紹介しました。

ベッカーとヒントンは相互情報量を最大化する手法を提案した。

では、オートエンコーダーや生成モデルに代わるものはあるのでしょうか?ヒントン氏は、感覚入力のあらゆる詳細を解釈するのをやめて、代わりに空間的または時間的に一貫した特徴を抽出することに焦点を当てることができると示唆しています。このアプローチの利点は、オートエンコーダとは異なり、ノイズを無視できることです

次にヒントン氏は、1992 年にスザンナ・ベッカー氏と共同で提案した、空間的に一貫した特徴を抽出する方法について詳しく説明します。この方法の中心的な考え方は、入力の 2 つの重複しないパッチ表現間の明示的な相互情報量を最大化することです。 Hinton は、以下に示すように、空間的に一貫した変数を抽出する簡単な例を示しています。

トレーニング後、ヒントンは、空間的に一貫した唯一の特徴は「不一致」(空間的に一貫した唯一の特性は視差)であるため、これも抽出する必要があることを指摘しました。

彼は、相互情報量を最大化するこのアプローチには難しい問題があり、次のような仮定を立てていると述べました。線形マッピングのみが学習され、線形関数が最適化されると、変数は分散されるというものです。ただし、この仮定はそれほど多くの問題を引き起こすことはありません。

これまでの研究方法のレビュー

この部分では、ヒントンは LLE、LRE、SNE、t-SNE などの手法を紹介しました。

局所線形埋め込み (LLE)

Hinton は、2000 年の Science 論文「Nonlinear Dimensionality Reduction by Locally Linear Embedding」で Sam T. Roweis と Lawrence K. Saul が言及した、高次元のデータ ポイントを 2 次元グラフに表示し、非常に類似したデータ ポイントを互いに近づけることができる、局所線形埋め込み法を紹介しました。

ただし、LLE 方式では、データ ポイントの重複や凝固、次元の崩壊などの問題が発生することに注意する必要があります。

次の図は、MNIST データセット内の数字のローカル線形埋め込みを示しています。各色は異なる数字を表しています。

さらに、これらの長い弦はほとんどが 1 次元であり、互いに直交しています。

線形関係埋め込み (LRE) から確率的近傍埋め込み (SNE) へ

このセクションでは、Hinton が線形関係埋め込み (LRE) 手法から確率的近傍埋め込み (SNE) 手法への移行について説明します。彼は、「類似」関係が存在する場合にのみ、LRE が SNE に変換されると述べました。

同時に、ヒントンは、LRE 目的関数が次元削減に使用できることを指摘しました。

下の図は SNE の概略図です。高次元空間内の各点には、他の点を近傍として選択する条件付き確率があり、近傍分布は高次元のペアワイズ距離に基づいています。

確率的近傍埋め込み (SNE) から t 分布確率的近傍埋め込み (t-SNE) へ

t 分布確率的近傍埋め込み (t-SNE) は SNE の変形であり、学生分布を使用して低次元空間の確​​率分布を表します。

Hinton は、MNIST データセット内の数字の t-SNE 埋め込みを次の図に示しています。各色は異なる数字を表しています。

これらの方法を紹介した後、ヒントンは 2 つの疑問を提起しました。1) 非線形マッピングや非パラメトリック マッピングを最適化するときに、分散制約のパフォーマンスが低下するのはなぜですか? 2) 正準相関分析や線形判別分析の非線形バージョンが機能しないのはなぜですか?そして答えました。

最後に、ヒントンは、対照損失を使用して空間的または時間的一貫性のベクトル表現を抽出することを提案し、対照損失の使用を試みた2004年のルスラン・サラクディノフとの調査、および2018年のオード、リー、およびヴィニャルスによる対照損失の使用を紹介し、このアイデアを再現して時間的一貫性の表現を発見するために使用しました。

ヒントン氏は、対照的損失は教師なし学習で非常に人気のある手法であると述べた。

SimCLR、教師なし対照学習の最新実装

講演の最後に、ヒントン氏は、一貫性のある表現を抽出するためにコントラスト損失を使用する、彼のチームの最新の SimCLR 実装について説明しました。これは、視覚表現のコントラスト学習のためのシンプルなフレームワークであり、これまでのすべての研究だけでなく、最新のコントラスト自己教師学習アルゴリズムよりも優れています。

次の図は SimCLR の動作原理を示しています。

では、SimCLR は ImageNet でトップ 1 の精度をどのように実現するのでしょうか?下の図は、SimCLR と ImageNet (ImageNet で事前トレーニング済み) におけるさまざまな以前の自己教師あり手法の Top-1 精度の比較、および ResNet-50 の教師あり学習効果を示しています。

Hinton 氏は、ImageNet の画像ラベルの 1% を微調整した後、SimCLR は 85.8% のトップ 5 精度を達成でき、ラベルのわずか 1% で AlexNet を上回る結果になったと述べました。

<<:  Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

>>:  人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定

Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStre...

人工知能によるデータ管理の変革

企業は人工知能 (AI) を適用する新しい方法を見つけています。 AI プロジェクトの主な障害の 1...

ネイチャー誌の年間トップ10科学者・イベント:天問1号の主任設計者、張栄橋氏がリスト入り

Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...

医療ロボットが登場し、医療分野は大きな変化を迎える

近年、人工知能の発展、技術の飛躍的進歩、その応用分野の漸進的な拡大に伴い、人々の生活と福祉の重要な一...

...

...

...

数学者を助けたいなら、人工知能の意味は何でしょうか?

AIに対して幻想を抱いている人もいれば、偏見を持っている人もいます。 AIはツールとコンピューティ...

将来のビジネスインテリジェンスにおける人工知能の役割

AI 搭載のチャットボットを導入しているコールセンターから、ディープラーニングを使用して数え切れない...

極端なケースによって引き起こされた議論: アルゴリズムがあなたが死にたいと考えた時...

悲しい話です。2017年、14歳のイギリスの少女モリー・ラッセルが予期せず自殺を選択しました。このよ...

テクノロジーが建設業界に及ぼす8つの影響

人工知能 (AI): ChatGPT などのツールの最近の登場により、AI はビルダーの間で注目を集...

OpenCV を使用した画像の二値化とグレースケール変換

関連概念バイナリ画像とは、2 つの色 (通常は黒と白) のみを含む画像です。バイナリ画像では、各ピク...