73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議（ACM SIGIR2020）で、Geoffrey Hinton氏が「次世代のニューラルネットワーク」と題する報告を行いました。

ジェフリー・ヒントン氏は、Google の副社長兼エンジニアリング研究者であり、Vector Institute の主任科学顧問、トロント大学の名誉教授です。 2018年、彼はヨシュア・ベンジオ氏、ヤン・ルカン氏とともに、ディープラーニング分野への多大な貢献によりチューリング賞を共同で受賞しました。

ジェフリー・ヒントンは 1980 年代から、人工知能の研究に機械学習手法を利用することを提唱してきました。彼は、人間の脳の働きを通して機械学習システムを探求したいと考えています。人間の脳にヒントを得て、彼と他の研究者は「人工ニューラルネットワーク」を提案し、それが機械学習研究の基礎を築きました。

では、30年以上経った今、ニューラルネットワークの今後の発展の方向性はどこにあるのでしょうか?

このレポートで、ヒントン氏はニューラルネットワークの発展の歴史を振り返り、次世代のニューラルネットワークは教師なし対照学習に属するだろうと述べました。

ヒントン氏の報告書の主な内容は以下のとおりです。

人工ニューラルネットワークにとって最も重要な未解決の問題は、脳と同じくらい効率的に教師なし学習を実行する方法です。

現在、教師なし学習法には主に 2 つの種類があります。

最初のカテゴリの代表的なものとしては、ディープニューラルネットワークを使用して入力を再構築する BERT と変分オートエンコーダ (VAE) があります。ただし、ネットワークの最も深い層で画像の詳細をエンコードする必要があるため、これらの方法は画像には適していません。

1992 年にベッカーとヒントンが提案した別のアプローチでは、ディープニューラルネットワークの 2 つのコピーをトレーニングして、同じ画像の 2 つの異なる切り抜きバージョンを入力として、相互情報量の高い出力ベクトルを生成できるようにします。このような方法は、入力の無関係な詳細から表現を解放するように設計されています。

Becker と Hinton が使用した相互情報量最適化法にはいくつかの欠陥があったため、Pacannaro と Hinton は後に、ベクトル表現が複数のベクトル表現の中から対応するものを選択するという識別目的に置き換えました。

ハードウェアの高速化により、表現対照学習は最近人気が高まり、非常に効率的であることが証明されていますが、依然として大きな欠陥があります。N ビットの相互情報量を持つ表現ベクトルのペアを学習するには、正しい対応ベクトルを 2N 個の誤ったベクトルと比較する必要があります。

ヒントン氏は講演の中で、この問題に対処するための新しい効率的な方法を紹介した。さらに、皮質知覚学習を実現するためのシンプルなアプローチを紹介しています。

次に、ヒントン氏のスピーチの具体的な内容を見てみましょう。

なぜ教師なし学習が必要なのでしょうか?

ニューラルネットワークの将来の発展を予測する前に、ヒントン氏はまずニューラルネットワークの開発プロセスを検討しました。

講演の冒頭でヒントン氏はまず、教師あり学習、強化学習、教師なし学習という3つの学習タスクを紹介し、教師なし学習の必要性を強調しました。

なぜ教師なし学習が必要なのでしょうか?

ヒントン氏はそれを生物学的観点から説明した。彼は、人間の脳には 10^14 個のニューロンシナプスがあるのに対し、人生は 10^9 秒しかないことを指摘しました。したがって、人間はすべてのニューロントレーニングを完了するために教師あり学習に完全に依存することはできず、教師なし学習の支援が必要です。

これに触発されて、インテリジェントなモデルを構築するには教師なし学習も必要です。

教師なし学習の発展

教師なし学習はどのように発展してきましたか? Hinton は、教師なし学習における一般的な目的関数を紹介します。

次に、ヒントン氏はオートエンコーダについて詳しく説明しました。

ヒントン氏は、オートエンコーダは教師あり学習を使用して教師なし学習を実現する方法であり、最終的な再構成をデータと一致させることを目標としていると述べた。エンコーダーはデータベクトルをコードに変換し、デコーダーはコードに基づいてデータを生成します。

Hinton 氏は、オートエンコーダの定義、ディープオートエンコーダのトレーニングの難しさや現状について概要を説明した後、変分オートエンコーダと BERT オートエンコーダという2 種類のオートエンコーダに焦点を当てました。

ディープニューラルネットワークを使用した入力の再構築: VAE と BERT

BERT と変分オートエンコーダ (VAE) は、ディープニューラルネットワークを使用して入力を再構築する、教師なし学習の代表的な例です。

変分オートエンコーダは、2013 年に Wellings と Kingma によって提案されました。複数層のエンコーダを使用して実際のコードを選択し、複数層のデコーダを使用してデータを再構築します。 VAE の基本構造を下図に示します。

バート

これは、Google が 2018 年に提案した言語表現モデルであり、すべてのレイヤーの左右のコンテキストに基づいて、双方向の深層表現を事前トレーニングします。

コンテキスト情報は BERT にとって非常に重要です。BERT はマスク言語モデル (MLM) を使用して、左コンテキストと右コンテキストの融合を表現し、深層双方向トランスフォーマーを事前トレーニングします。

ヒントンは例を挙げた。「彼女はフライパンで彼を殴った。」この文では、scromedの意味を知らなくても、文脈から推測することができます。

視覚領域でも同様です。しかし、 BERT などの手法は、ネットワークの最深層で画像の詳細をエンコードする必要があるため、視野にはうまく適用できません。

VAE と BERT に代表される教師なし学習法について説明した後、Hinton 氏は別の種類の教師なし学習法を紹介しました。

ベッカーとヒントンは相互情報量を最大化する手法を提案した。

では、オートエンコーダーや生成モデルに代わるものはあるのでしょうか?ヒントン氏は、感覚入力のあらゆる詳細を解釈するのをやめて、代わりに空間的または時間的に一貫した特徴を抽出することに焦点を当てることができると示唆しています。このアプローチの利点は、オートエンコーダとは異なり、ノイズを無視できることです。

次にヒントン氏は、1992 年にスザンナ・ベッカー氏と共同で提案した、空間的に一貫した特徴を抽出する方法について詳しく説明します。この方法の中心的な考え方は、入力の 2 つの重複しないパッチ表現間の明示的な相互情報量を最大化することです。 Hinton は、以下に示すように、空間的に一貫した変数を抽出する簡単な例を示しています。

トレーニング後、ヒントンは、空間的に一貫した唯一の特徴は「不一致」（空間的に一貫した唯一の特性は視差）であるため、これも抽出する必要があることを指摘しました。

彼は、相互情報量を最大化するこのアプローチには難しい問題があり、次のような仮定を立てていると述べました。線形マッピングのみが学習され、線形関数が最適化されると、変数は分散されるというものです。ただし、この仮定はそれほど多くの問題を引き起こすことはありません。

これまでの研究方法のレビュー

この部分では、ヒントンは LLE、LRE、SNE、t-SNE などの手法を紹介しました。

局所線形埋め込み (LLE)

Hinton は、2000 年の Science 論文「Nonlinear Dimensionality Reduction by Locally Linear Embedding」で Sam T. Roweis と Lawrence K. Saul が言及した、高次元のデータポイントを 2 次元グラフに表示し、非常に類似したデータポイントを互いに近づけることができる、局所線形埋め込み法を紹介しました。

ただし、LLE 方式では、データポイントの重複や凝固、次元の崩壊などの問題が発生することに注意する必要があります。

次の図は、MNIST データセット内の数字のローカル線形埋め込みを示しています。各色は異なる数字を表しています。

さらに、これらの長い弦はほとんどが 1 次元であり、互いに直交しています。

線形関係埋め込み (LRE) から確率的近傍埋め込み (SNE) へ

このセクションでは、Hinton が線形関係埋め込み (LRE) 手法から確率的近傍埋め込み (SNE) 手法への移行について説明します。彼は、「類似」関係が存在する場合にのみ、LRE が SNE に変換されると述べました。

同時に、ヒントンは、LRE 目的関数が次元削減に使用できることを指摘しました。

下の図は SNE の概略図です。高次元空間内の各点には、他の点を近傍として選択する条件付き確率があり、近傍分布は高次元のペアワイズ距離に基づいています。

確率的近傍埋め込み (SNE) から t 分布確率的近傍埋め込み (t-SNE) へ

t 分布確率的近傍埋め込み (t-SNE) は SNE の変形であり、学生分布を使用して低次元空間の確率分布を表します。

Hinton は、MNIST データセット内の数字の t-SNE 埋め込みを次の図に示しています。各色は異なる数字を表しています。

これらの方法を紹介した後、ヒントンは 2 つの疑問を提起しました。1) 非線形マッピングや非パラメトリックマッピングを最適化するときに、分散制約のパフォーマンスが低下するのはなぜですか? 2) 正準相関分析や線形判別分析の非線形バージョンが機能しないのはなぜですか?そして答えました。

最後に、ヒントンは、対照損失を使用して空間的または時間的一貫性のベクトル表現を抽出することを提案し、対照損失の使用を試みた2004年のルスラン・サラクディノフとの調査、および2018年のオード、リー、およびヴィニャルスによる対照損失の使用を紹介し、このアイデアを再現して時間的一貫性の表現を発見するために使用しました。

ヒントン氏は、対照的損失は教師なし学習で非常に人気のある手法であると述べた。

SimCLR、教師なし対照学習の最新実装

講演の最後に、ヒントン氏は、一貫性のある表現を抽出するためにコントラスト損失を使用する、彼のチームの最新の SimCLR 実装について説明しました。これは、視覚表現のコントラスト学習のためのシンプルなフレームワークであり、これまでのすべての研究だけでなく、最新のコントラスト自己教師学習アルゴリズムよりも優れています。

次の図は SimCLR の動作原理を示しています。

では、SimCLR は ImageNet でトップ 1 の精度をどのように実現するのでしょうか?下の図は、SimCLR と ImageNet (ImageNet で事前トレーニング済み) におけるさまざまな以前の自己教師あり手法の Top-1 精度の比較、および ResNet-50 の教師あり学習効果を示しています。

Hinton 氏は、ImageNet の画像ラベルの 1% を微調整した後、SimCLR は 85.8% のトップ 5 精度を達成でき、ラベルのわずか 1% で AlexNet を上回る結果になったと述べました。

<<: Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

>>: 人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

DeepTraffic: MIT シミュレーションゲームがディープラーニングを使用して交通渋滞を緩和

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

DeepTraffic: MIT シミュレーションゲームがディープラーニングを使用して交通渋滞を緩和

マイクロソフト、Windows 10を開発者向けAIプラットフォームに

PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正

世界の技術大国の人工知能＋インテリジェント製造戦略の展開を振り返る

【WOT2018】4人の重鎮専門家が企業ビジネスにおけるNLPの詳細な応用を分析

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか？」

Keras によるステートフル LSTM リカレントニューラルネットワークの理解

2023 ACM フェローがチューリングビッグスリーに授与されました。清華大学の馬衛英氏、マイクロソフトの高建鋒氏、上海交通大学の陳海波氏、その他14名の中国人が選出された。

推薦する

IDC: AI支出は2021年に3,420億ドルに達し、将来的にはハードウェア市場が最も急速に成長する

Alibaba DAMO Academyが2020年のトップ10テクノロジートレンドを発表！人工知能、ブロックチェーン、チップが注目される

機械学習の理解と考察

5G技術と人工知能のインテリジェントな組み合わせ

スポットロボット犬が古代ポンペイの警備員として活躍！墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

ビッグデータ分析と人工知能：技術コンテンツの価値分析

「顔認識」はあなたの「顔」を盗む

人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

検索拡張生成による AI 幻覚問題の解決

OpenAI主任科学者：ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

Python+AIで静止画像を動かす