ディープラーニングの父、ヒントン：次世代ニューラルネットワーク

ディープラーニングの父ヒントン氏：次世代ニューラルネットワーク SIGIRは、情報検索の分野におけるさまざまな新技術と新たな成果を披露する重要な国際フォーラムです。疫病の影響がなければ、今年は中国の西安で開催される予定でした。 7月25日から7月30日まで、第43回SIGIR2020がオンラインで開催されました。 7月27日、2018年チューリング賞受賞者のジェフリー・ヒントン氏が「次世代ニューラルネットワーク」と題した講演を行いました。この講演は、ヨーク大学情報工学部の教授であるジミー・フアン氏が主催し、ACM の著名な科学者であり、吉林大学人工知能学部の教授であるチャン・イー教授がゲストスピーカーとして参加しました。講演の中でヒントン氏は、人工ニューラルネットワークの最も重要な未解決問題の一つは、いかにして脳と同じくらい効果的に教師なし学習を実行するかということであると指摘した。現在、教師なし学習には主に 2 つのアプローチがあります。1 つ目のアプローチは、BERT や変分オートエンコーダに代表され、ディープニューラルネットワークを使用して入力を再構築します。このアプローチは、ネットワークの最も深い層で画像の細部をエンコードする必要があるため、画像の場合は問題があります。 2 番目のアプローチは、1992 年に Becker と Hinton によって提案されました。同じ画像の 2 つの異なるフラグメントを入力として与えられた場合、ディープニューラルネットワークの 2 つのコピーがトレーニングされ、相互情報量の高い出力ベクトルが生成されます。このアプローチは、入力の無関係な詳細によって表現が制約されないように設計されています。 Becker と Hinton が相互情報量を最適化した方法には欠陥があるため (講義で説明する微妙な理由により)、Pacannaro と Hinton はそれを、1 つのベクトル表現が多数の選択肢から対応するベクトル表現を選択する必要がある識別目的関数に置き換えました。表現の対照学習は非常に効果的であることが証明されていますが、大きな欠陥があります。N ビットの相互情報量を持つ表現ベクトルのペアを学習するには、正しい対応するベクトルを約 2^N 個の誤った代替ベクトルと比較する必要があります。 Hinton 氏は、この制限に対処するための斬新かつ強力なアプローチについて説明し、これが皮質における知覚学習を実装するための簡単な方法につながることを示します。ジェフリー・ヒントンは現在、トロント大学のコンピューターサイエンスの名誉教授、Google の副社長兼エンジニアリングフェロー、および Vector Institute の主任科学顧問を務めています。彼はバックプロパゲーションを使用して単語埋め込みを学習した最初の人物であり、ニューラルネットワーク研究へのその他の貢献としては、ボルツマンマシン、分散表現、時間遅延ニューラルネットワーク、専門家の混合、変分学習、ディープラーニングなどがあります。 2018 年、ジェフリー・ヒントンは、ディープラーニングへの貢献により、ヨシュア・ベンジオ、ヤン・ルカンとともにチューリング賞を受賞しました。以下は、AI Technology Reviewが編集・加筆したスピーチの全文です。ディープラーニングの父、ヒントン：次世代ニューラルネットワーク 1 教師なし学習の歴史 1. オートエンコーダこの講演では、ニューラルネットワークの今後の発展方向について説明します。しかしその前に、ニューラルネットワーク、特に教師なし学習の歴史についてお話しします。機械学習には、3 つの異なるタイプの学習モードがあります。1 つ目は教師あり学習で、入力ベクトルが与えられた場合に出力を予測するように学習します。次に強化学習が行われ、報酬を最大化するための行動を選択することを学習します。最後に、入力の内部表現を学習することを目的とする教師なし学習がありますが、何が適切な表現であるかを数学的に定義することは困難です。まず、教師なし学習が必要な理由を説明しましょう。人間には 10^14 個のシナプスがありますが、寿命は 10^9 秒しかありません。つまり、ほとんどのシナプスを学習しようとすると、1 秒あたり 10^5 個のシナプスを学習する必要があるため、明示的なラベルや報酬では十分な情報が得られない可能性があります。人間はすべてのシナプスを学習する必要があるという意見もあります。これを言い換えると、おそらくほとんどのシナプスは学習されず、進化は非効率的であり、進化アルゴリズムはバックプロパゲーションアルゴリズムよりもはるかに効率が低くなるということです。シナプスは高度に冗長化されている可能性があります。しかし、脳の能力が無駄になっている可能性は低いと思います。人間の学習モデルは非常に大規模ですが、大量のデータは必要ありません。これは従来の統計手法とは大きく異なります。人間にとって、経験は高価であり、シナプスは安価です。そのため、多くの経験を使わず、多くのパラメータを持つ学習アルゴリズムを研究する必要があります。教師なし学習に使用される目的関数、つまり最大尤度は明らかな例です。最大尤度を最適化するということは、生成モデルのパラメータを調整して、モデルが観測データを生成する確率を最大化することを意味します。たとえば、データ分布をガウス混合分布に適合させます。もう 1 つの例はオートエンコーダです。オートエンコーダは、データを再構築するための経済的な表現を見つけようとします。このトピックについては、講演の後半で空間的または時間的一貫性の観点からお話しします。空間的または時間的に一貫性のある特性を抽出するという考え方であり、最大尤度とはまったく異なります。ディープラーニングの父、ヒントン氏：次世代ニューラルネットワークオートエンコーダーは、教師あり学習アルゴリズムを使用して教師なし学習を実現する方法です。ネットワークにデータを入力すると、ネットワークは再構成されたデータを出力します。ネットワーク学習の目的は、再構成されたデータを元のデータと同じにすることです。ネットワークはデータをエンコードされたベクトルに変換します。通常、エンコードされたベクトルの次元が小さいか、データを効率的に表現できることが期待されます。デコーダーはエンコードされたベクトルを入力として受け取り、データを再構築しようとするため、デコーダーは条件付き生成モデルです。約 20 年間、ディープオートエンコーダのトレーニングは非常に難しいと考えられてきました。オートエンコーダのアイデアは、バックプロパゲーションが 1980 年代半ばに普及して以来存在していましたが、ディープラーニングはオートエンコーダには適用できません。その理由は、ディープラーニングでトレーニングしやすい ReLU の代わりに、Sigmoid や Tanh といった間違った活性化関数を使用したためです。また、初期化方法もひどいものでした。重みは、逆伝播された勾配が爆発したり消失したりしないように、初期化時にスケーリングする必要があります。最後に、当時のコンピューターも非常に遅かったです。 2. スタックされた浅いオートエンコーダーディープラーニングの父、ヒントン: 次世代のニューラルネットワーク 2006 年に、Salakhutdinov と私は、複数の浅いオートエンコーダーをスタックするという、ディープオートエンコーダーをトレーニングするための新しい方法を提案しました。まず、入力データを受け入れる浅いオートエンコーダーがトレーニングされます。隠し層には特徴検出器があり、データを再構築できる特徴検出器を学習しようとします。次に、特徴検出器の活性化値をデータとして扱い、必要な数のレイヤーで上記の手順を繰り返します。したがって、ラベルを使用せずに、複数層の特徴ベクトルを事前トレーニングすることができ、これを教師なし事前トレーニングと呼びます。それぞれの新しいオートエンコーダは、学習した特徴検出器のアクティベーションをデータとして扱い、さらにエンコーディングを学習します。このアルゴリズムの興味深い点は、オートエンコーダの学習にディープラーニングをうまく適用していることです。浅いオートエンコーダ（制限付きボルツマンマシンなど）の場合、数学的には、新しい浅いオートエンコーダがスタックされたネットワークに追加されるたびに、モデル生成データの対数確率が、以前の変分境界よりも優れた新しい変分境界を取得することが示されています。この問題を解決するには、ディープエンドツーエンドのオートエンコーダーをトレーニングします。より高速なコンピュータとより優れた活性化関数により、ディープオートエンコーダーは非常に効果的になりました。 3. 変分オートエンコーダディープラーニングの父、ヒントン: 次世代ニューラルネットワーク 2013 年に、ウェリングとキングマは変分オートエンコーダを提案しました。そのアイデアは、エンコーダがデータを収集して実数値のエンコードベクトルに変換し、デコーダが実数値のエンコードベクトルを使用してデータを再構築するというものです。エンコーダーには 2 つの目標があります。まず、事前分布の下でコードの確率を最大化するコードを見つけることです。実数値コード空間には事前分布（通常はガウス分布）があり、エンコーダーはこのガウス分布の平均に近いコードを見つけようとします。 2 番目に、データを再構築できるエンコーディングも探しています。デコーダーはエンコードを受け取り、変分近似アプローチを使用してデータを正確に再構築しようとします。ウェリング氏とキングマ氏は巧みな数学を駆使して、エンコーディングがガウス事前分布になる確率を最大化し、変分事後分布を使用してデータに近似する確率を最大化する方法で変分オートエンコーダをトレーニングするために必要なすべての導関数を取得することができました。変分オートエンコーダについてはこれ以上話しませんが、これは現在、教師なし学習に最適な方法の 1 つです。 4. BERT 次に、BERTについて説明します。 BERT は、文中の欠落している単語を補完するようにトレーニングされたディープオートエンコーダです。 BERT は、非常に優れた単語表現を抽出できるため、実際には情報検索に非常に関連しています。これはドキュメントを理解するのに非常に役立ちます。 BERT には多くのレイヤーがあり、各レイヤーには入力単語ごとに埋め込みベクトルがあります。最初の隠し層には単語のベクトル表現があり、2 番目の隠し層には同じ単語のより優れたベクトル表現があります。ネットワークを深く掘り下げていくと、特定の単語の表現がより良くなっていきます。実際、レイヤー L + 1 の単語の表現は、単語の埋め込みをレイヤー L の他の単語の埋め込みと比較することによって生成されます。この比較は、Transformer と呼ばれるアテンションメカニズムを通じて実現されます。このような埋め込みは単語の適切な表現であり、さまざまな自然言語タスクで使用できます。ディープラーニングの父、ヒントン氏：次世代のニューラルネットワーク標準的な 1 次元畳み込みニューラルネットワークを使用して単語の文字列を表す場合、これらのベクトルを使用して文中の単語を表します。情報を組み合わせて単語の重みマトリックスをアクティブにすることで、単語を表す次の層のベクトルを取得できます。したがって、前のアプローチと同様に、前のレベルのすべての近くにある単語の表現を調べるだけで、これらの表現を次のレイヤーでより優れた単語表現に組み合わせることができますが、ここではアテンションメカニズムを使用します。ディープラーニングの父、ヒントン氏：次世代ニューラルネットワーク BERT の仕組みは、実は情報検索に似ています。各単語は学習された重みマトリックスに渡され、クエリベクトル、キーベクトル、および値ベクトルが生成されます。次に、レイヤー L の各単語について、そのクエリベクトルを取得し、それを他のすべての単語のキーベクトルと比較します。クエリベクトルとキーベクトルの一致度が高い場合、つまりクエリベクトルとキーベクトルのスカラー積が大きい場合、近くの位置にある値ベクトルが次のレイヤーでの単語表現に影響を与えます。たとえば、私の名前がジューンだとします。月とよく一致し、女性の名前にもよく一致するクエリベクトルを生成します。文の残りの部分で関連する単語を選択し、これらの関連する単語を使用して June の表現を変更します。文中に他の女性の名前が複数ある場合、June の表現は女性の名前の表現に近くなります。文中に月に関連する単語が出てくる場合、June の表現は「June」の表現に近くなります。つまり、コンテキストに基づいて最適化されるため、情報検索とよく似ていますが、すべてのクエリ、値、キーが学習されます。したがって、このニューラルネットワークを言語モデリングに使用することができます。まず、Transformers を使用して単語フラグメントの埋め込みを事前トレーニングします。文章や長いテキストの断片を取得する場合は、数千もの文章や断片を複数層のトランスフォーマーに入力して、すべてのキー、値、クエリを学習する必要があります。したがって、単語の表現は出力前に洗練され、文脈情報を有効に活用できます。次に、これらの単語の断片表現を別のニューラルネットワークで使用して、前の単語の断片から次の単語の断片を予測します。これは自己回帰モデルです。ただし、考慮されるのはそれらの単語の断片ではなく、BERT によって生成された単語の断片の表現です。ルールモデルよりもうまく機能します。最初の単語のシーケンスを与え、次のセグメントの確率分布を予測するように依頼します。これにより、完全なストーリーになるまで長い単語の文字列を生成できるため、驚くほど効果的です。ディープラーニングの父、ヒントン氏：次世代ニューラルネットワーク BERT は数十億のテキストデータでトレーニングする必要があり、その後、生成された埋め込みを使用して 1,750 億のパラメータを持つ言語モデルをトレーニングします。これには 1,000 ペタフロップス以上の日数がかかります。トレーニングが完了すると、上に示したようなニュース記事を生成できるようになります。これは GPT-3 の例ですが、興味深いことに、ほとんどの人はこのニュース記事がチューリングテストに合格した BERT によって書かれたとは分かりません。さて、教師あり学習がどのように行われるかという基本的な考え方に戻りましょう。変分オートエンコーダ BERT は、エンドツーエンドの学習によって、前の層の隠れユニットが後の層に必要な特徴を抽出することを学習することを保証するため、スタックされたオートエンコーダよりもパフォーマンスが優れています。これは、バックプロパゲーションが得意とするところです。 2 教師なし学習の将来 1. トップダウンとボトムアップ過去数年間、私は、複数層のバックプロパゲーションを必要としない教師あり学習とディープネットワークを実装する新しい方法を見つけることに非常に熱心でした。なぜなら、これが脳の仕組みではないと信じていたからです。次に、新しい修正方法、それが機能しなかった理由、そして機能するように改善するにはどうすればよいかを検討することにほとんどの時間を費やします。解決策は、各レイヤーの特徴を学習して、前のレイヤーのコンテンツを再構築できるようにすることです。さらに、次のレイヤーに簡単に再構築できます。つまり、すべてのレイヤーを同時に学習する必要があるということです。スタックされたオートエンコーダの目的関数である、前のレイヤーを再構築するのに十分な特徴を学習しようとしますが、後のレイヤーを再構築することも簡単です。つまり、後のレイヤーが予測したものと一致します。ここで非常に興味深いが冗談めいた説明があります。つまり、後の層はトップダウン予測を行い、トップダウン予測はボトムアップ接続の学習を監督し、ボトムアップ接続はトップダウン予測のターゲットとして機能する表現を生成し、トップダウン予測は実際にはボトムアップ学習のターゲットでもあります。ボトムアップ学習プロセスとトップダウン学習プロセスは、お互いを監督します。つまり、優れた特徴をローカルかつボトムアップで抽出できると同時に、より大きなコンテキストからトップダウンで予測することもできます。コンテキストプロトコルを使用した例を示しましょう。「彼女はフライパンで彼を殴った」という文を考えてみましょう。おそらくあなたは今まで「scrom」という言葉を聞いたことがないでしょう。文中の位置と単語末尾の「ed」に基づいて、これは動詞であると推測されます。その本来の意味は分かりませんが、ほとんどの人は初めて見たときに「彼女はフライパンで彼の頭を殴った」というような意味だと考えて、大体の意味は分かります。人間は、文章から単語の意味を正確に理解するために何千もの例を必要としません。それがトップダウン予測の優れた点です。同様に視覚認識においても、グローバルコンテキストは、草地に映った白黒のまだら模様の皮膚を持つ四足動物が牛であると推測するなど、画像のローカルエリアで何を見るべきかを上から下まで予測するのに役立ちます。 2. スタックされた浅いオートエンコーダを新しい方法でトレーニングすると何が起こるでしょうか? 私たちの目標は、特徴に対するボトムアップ予測とトップダウン予測の一貫性を実現することです。これは、すべての隠れた活性化ベクトルを縮小することによって簡単に実現できます。これをいわゆる「崩壊問題」といいます。ただし、より適切な合意の定義、つまり 2 つの変数の値が各トレーニング例で一貫しているかどうか、および異なるトレーニング例間で同じ進化をたどるかどうかを使用することで、この問題を回避できます。教師なし学習に対するまったく異なるアプローチについて後で説明した後で、このアプローチに戻ります。少し前に、私と生徒たちは、より良い定義を使用して、この 2 つの間の一貫性を説明する方法を思いつきました。これらは同等であるべきだと言うよりも、類似しているべきだ、つまり、異なるトレーニングケースでどのように変化するかと言う方が適切です。したがって、特定のトレーニングケースでは、ニューラルネットワークの一部のボトムアップ予測がトップダウン予測と一致するようにする必要があります。入力のあらゆる詳細を解釈しようとするのではなく、空間や時間にわたって一貫したプロパティを抽出することに重点を置いてください。オートエンコーダとは異なり、これによりノイズを無視できます。 3. 空間的一貫性特性の抽出ベッカーと私は 1992 年に、2 つの入力重複しない画像パッチの表現の相互情報量を最大化するという空間的一貫性特性を抽出する手法を導入しました。 a と b がスカラーの場合、次世代のニューラルネットワークであるディープラーニングの父である Hinton を最小化することで相互情報量が最大化されます。 a と b がベクトルの場合、次世代のニューラルネットワークであるディープラーニングの父である Hinton を最小化することで相互情報量が最大化されます。関連論文: 2 つのガウス分布変数間の相互情報量の最大化 (Becker および Hinton、1992) 次に、空間一貫性プロパティを抽出する簡単な例を見てみましょう。ディープラーニングの父、Hinton: 次世代のニューラルネットワークまず、明らかな構造がないように、ランダムなポイントで画像を塗りつぶします。次に、最初の画像を水平方向にシフトした別の画像を撮影します。したがって、画像ペアの唯一の構造は、それらの間の相対的な変換です。昔、私たちは非常に小さなコンピューターを使用していました。そこで、左側の画像から 1D ストリップを取得し、右側の画像から 1D ストリップを取得しました。左の画像にランダムな点をいくつか散りばめました。次に、左側の写真を翻訳した右側の写真を見ました。隣接する 2 つの画像パッチを見ると、その視差は同じであることがわかります。左ストリップと右ストリップ間のオフセットは同じです。したがって、ニューラルネットワークをトレーニングして左側のパッチを見てプロパティを抽出する場合は、ニューラルネットワークのコピーをトレーニングして右側のパッチを見てプロパティを引き付けるようにします。唯一一貫した属性が分離されていることがわかります。これが抽出したいものであり、実際に機能します。 4. 対照学習しかし、Becker と私が提案した相互情報量を最大化する手法にも大きな問題があります。非線形マッピングを最適化し始めると、変数がガウス分布であるという仮定によってひどい問題が発生するのです。ただし、線形マッピングを学習したり、線形関数を最適化したりするだけであれば、この仮定は大きな問題を引き起こしません。しかし、非線形関数を最適化すると、悪いことが起こる可能性があります。これらの問題は、埋め込み方法を使用して簡単に視覚化できます。まず、次の特性を持つ局所線形埋め込みから始めます。局所線形埋め込みは、2D プロットで高次元のデータポイントを表すことができます。局所線形埋め込みにより、非常に類似したデータポイントが互いに近くなります。局所線形埋め込みは、すべてのデータポイントの 2D 表現にグローバル共分散を課すことで、マッピング全体が崩壊するのを防ぎます。共分散 (マップされたポイント) = 単位行列ただし、局所線形埋め込みによって、次元の崩壊などの恐ろしいことが起こる可能性があります。下の図に示すように、MNIST データのローカル線形埋め込みによって生成された特徴が表示され、色は分類を表しています。ディープラーニングの父、ヒントン氏：次世代のニューラルネットワーク。数字をあまり自然に分類していないことがわかります。数字はほぼ 1 次元であり、これらの長い数字の列は互いにほぼ直交しています。次の図は、MNIST データの t-SNE 埋め込みです。色は異なる数字に対応しています。非常に良いクラスターが見つかることがわかります。ディープラーニングの父、ヒントン: 次世代ニューラルネットワークでは、t-SNE はどのようにして次元の崩壊を回避するのでしょうか?これは主にターゲット損失関数によるものです。ディープラーニングの父、ヒントン: 次世代のニューラルネットワーク。この関数では、関連データをモデル化するためにコントラスト損失が導入されています。上記の式の 2 番目の項では、すべてのターゲットについて、k は 1 つのターゲットだけでなく、Mj から離れている必要があります。この対照損失の考え方は線形埋め込みから導入され、「類似」関係が 1 つしかない場合、線形関係とそのコスト関数をランダムな隣接埋め込みレイヤーに変換できます。この研究は、線形潜在局所線形埋め込みの問題を克服することを目的としています。線形関係埋め込み法には 1 つの関係しかありません。単位行列となる行列は 1 つだけです。しかし、私たちがやりたいのは、1 つのベクトルを別のベクトルに類似させることだけです。線形相関の埋め込み目的関数を適用すると次元が削減されます。高次元データポイントごとに、データポイント i が別のデータポイント j を隣接データポイントとして選択する確率を含むテーブルを計算します。この確率は、次世代ニューラルネットワークであるディープラーニングの父であるヒントンに比例して拡大されます。各高次元データポイント Xi を 2 次元マッピングポイント yi に変換する方法を学習します。したがって、同じ関数を使用すると、高次元データに見られる類似性をシミュレートできます。ディープラーニングの父、ヒントン: 次世代ニューラルネットワーク高次元空間にはデータポイント i があり、そのデータポイントが各隣接ポイントを選択する確率を計算したいとします。その後、すべてのデータを破棄します。各点が他の点を隣接点として選択する確率には、低次元グラフ内の点を見つけるために必要なすべての情報が含まれています。確率 p_j|i がわかれば、高次元空間で計算を行う必要はありません。入力は、高次元空間内の単一のデータポイントの位置ではなく、データポイントのペア間の「相違点」にすることができます。ディープラーニングの父、ヒントン: 次世代のニューラルネットワークコスト関数は上の図に示されています。 p_ij が大きく、q_ij が小さい点では、コストが高くなります。 q_ij が大きく、p_ij が小さい点の場合、Q_i 分布で確率質量をいくらか無駄にしているため、コストは低くなります。ディープラーニングの父、ヒントン: 次世代ニューラルネットワーク上記の画像は、ランダム近傍埋め込み (SNE) 法によって生成された結果です。この方法では、1 ～ 4 の数字の画像間のユークリッド距離に基づいて、かなり良好な埋め込みを生成できます。 t-SNE は SNE のバリエーションであり、2 次元空間で隣接する点を選択する相対確率を決定するガウス分布をスチューデント t 分布に置き換えます。これにより、2 次元平面に余裕が生まれ、低次元空間の欠点が補われ、異なるクラスター間にギャップが生まれます。共分散制約が非線形または非パラメトリックマッピングの最適化にうまく機能しないのはなぜですか?線形マッピングでは、分布のエントロピーと分散の比率を変更できないためです。したがって、分布のエントロピーを最大化するために線形マッピングを最適化したい場合は、分散を最大化するだけで済みます。しかし、これは非線形マッピングでは実現できません。非線形マッピングでは、離れているが非常に近い 2 つのクラスターを含む分布を生成できます。正準相関分析や線形判別分析の非線形バージョンが実行不可能なのはなぜですか?これらの方法は、分散を最大化して、2 つの変数間の高い相互情報量、または変数とクラス間の高い相互情報量を取得するためです。分布の分散は、最適化されるマッピングが線形である場合に限り、エントロピーの代理として使用できます。もちろん、固定の非線形マッピングをデータに適用し、通常の線形マッピングを最適化することでこれを実行することもできます。対照損失関数を使用して、空間的または時間的に一貫したベクトル表現を抽出します。 2004 年、ルスラン・サラクディノフと私は、ベッカーとの研究のために対照的損失を採用しました。しかし、計算能力が不十分だったため、何も公開されませんでした。 Li氏とVinyals氏は2018年にコントラスト損失の考え方を再提案し、それを用いて時間的に一貫した表現を発見し、良好な結果を達成しました。最近では、対照損失を教師なし学習に使用することが一般的になっています。 3 SimCLR: 教師なしの対比学習のための新しい方法最後に、Ting Chen が開発した、対比損失を使用して表現を抽出する新しい方法である SimCLR について説明します。同じ画像の異なるフラグメントを表示する場合、表現は一貫していますが、この方法では多くの計算能力が必要です。ディープラーニングの父、ヒントン: 次世代ニューラルネットワーク 1. SimCLR はどのように機能しますか? 簡単です。画像 x を撮影し、その画像を 2 回トリミングします。特徴表現を取得するためにディープネットワークを適用しますが、これまでのすべてのプロセスは教師なしです。 h_i と h_j は異なるベクトルを表します。埋め込みベクトルは、比較全体で一貫性を保つように努めます。つまり、同じ画像からの多数のフラグメントによって生成される埋め込みベクトルは一貫している必要があります。ティン氏は、まずこのように教師なし学習を行い、次にその表現に基づいて線形分類器をトレーニングすることで、優れた表現が得られることを発見しました。 2. SimCLR のパフォーマンスはどの程度ですか? 下の図は、さまざまな教師なしモデルの ImageNet Top-1 精度の比較です。教師なし学習を使用して線形層の表現を抽出していることがわかります。この方法はシンプルで効率的であり、達成される精度は他のモデルよりも高くなります。ディープラーニングの父、ヒントン: 次世代ニューラルネットワーク ImageNet データセットでは、SimCLR は 2012 年の AlexNet と同じパフォーマンスを達成できますが、ラベルの 1% しか使用しません。これは次の 2 つの理由によるものです。1. まず、残差接続を持つディープ畳み込みネットワークで、教師なし表現学習が実行されます。 2. 次に、少量のラベル付きデータセットで微調整します。

<<: 人々を幸せにしたり不安にさせたり：注目すべき11の人工知能アプリケーション

>>: AIが人間を支配するのではないかと心配ですか?人工知能の「怖さ」をどう克服するか？