ディープラーニングの将来の発展に向けた3つの学習パラダイム：ハイブリッド学習、コンポーネント学習、簡易学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

ディープラーニングは広大な分野であり、その中核となるのは、絶えず変化する数百万、あるいは数十億のパラメータによってサイズが決まるニューラルネットワークのアルゴリズムです。数日ごとに新しい方法が大量に提案されているようです。

ただし、一般的に、現在のディープラーニングアルゴリズムは、3 つの基本的な学習パラダイムに分けることができます。これらの学習アプローチと信念はそれぞれ、現在のディープラーニングの機能と範囲を改善する上で大きな可能性と関心をもたらします。

ハイブリッド学習 - 現代のディープラーニング手法は、教師あり学習と教師なし学習の境界を越えて、大量の未活用のラベルなしデータに対応するためにどのように機能するのでしょうか。

構成的学習 - 革新的な方法を使用してさまざまなコンポーネントをリンクし、各部分の合計よりも優れたパフォーマンスを発揮するハイブリッドモデルを作成するにはどうすればよいでしょうか。

学習の簡素化 - 同じ予測力またはスケールされた予測力を維持しながら、パフォーマンスと展開の目的でモデルのサイズと情報フローを削減するにはどうすればよいでしょうか。

ディープラーニングの将来は、主にこれら 3 つの学習パラダイムにかかっており、それぞれは密接に関連しています。

ブレンド型学習

この学習パラダイムは、教師あり学習と教師なし学習の境界を越えようとします。ラベル付きデータが不足しており、ラベル付きデータセットを収集するコストが高いため、商業環境でよく使用されます。本質的に、ブレンド型学習がこの問題に対する答えです。

教師あり学習法を使用して、教師なし学習の問題を解決または関連付けるにはどうすればよいでしょうか?

たとえば、半教師あり学習は、ラベル付けされたデータがほとんどない教師あり問題で非常に優れたパフォーマンスを発揮できるため、機械学習の分野でますます人気が高まっています。たとえば、適切に設計された半教師あり生成アンチマリアルネットワークは、わずか 25 個のトレーニングサンプルを使用して MNIST データセットで 90% を超える精度を達成します。

半教師あり学習は、ラベルなしサンプルが多数あり、ラベル付きサンプルが少数あるデータセット向けに特別に設計されています。従来、教師あり学習ではデータセットのラベル付き部分を使用し、教師なし学習ではデータセットの別のラベルなし部分を使用します。半教師あり学習モデルでは、ラベル付きデータとラベルなしデータセットから抽出された情報を組み合わせることができます。

作者が作成した画像

半教師あり生成敵対的ネットワーク (略して SGAN) は、標準的な生成敵対的ネットワークを改良したものです。識別器は、生成された画像かどうかを判定する0と1を出力するだけでなく、サンプルのカテゴリも出力します（多出力学習）。

これは、実際の画像と生成された画像を区別することを学習することで、識別器がラベルなしで特定の構造を学習できるという考えに基づいています。少量のラベル付きデータから追加の拡張を実行することにより、半教師ありモデルは最小限の量の教師ありデータで最適なパフォーマンスを実現できます。

SGAN と半教師あり学習の詳細については、こちらをご覧ください。

GAN にはハイブリッド学習の別の領域である自己教師あり学習も含まれます。自己教師あり学習では、教師なし問題が教師あり問題として明確に定義されます。 GAN はジェネレーターを導入することで教師ありデータを人工的に作成し、作成されたラベルを使用して実際の画像と生成された画像を識別する。教師なし学習を前提として、教師ありタスクが作成されます。

さらに、圧縮にはエンコーダー/デコーダーモデルの使用を検討してください。最も単純な形式では、中央にボトルネックと圧縮の形式を表す少数のノードを持つニューラルネットワークであり、両側の 2 つの部分はエンコーダーとデコーダーです。

作者が作成した画像

このネットワークは、入力ベクトルと同一の入力を生成するようにトレーニングされます (教師なしデータから手動で作成された教師ありタスク)。途中に意図的なボトルネックがあるため、ネットワークは情報を受動的に伝送できません。代わりに、デコーダーがより適切にデコードするためには、入力情報を非常に小さな単位に保存する最善の方法を見つける必要があります。

トレーニング後、エンコーダーはデコーダーから分離され、受信側でエンコーダーを使用してデータを圧縮または送信用にエンコードし、非常に小さなデータ形式を使用して情報を送信しながら、データ損失を最小限に抑えます。データの次元を削減するためにも使用できます。

別の例として、大量のテキストのコレクション（おそらくデジタルプラットフォームからのレビュー）を考えてみましょう。何らかのクラスタリングまたは多様体学習法を使用して、テキストのコレクションに対してクラスターラベルを生成し、それらをラベルとして扱うことができます (クラスタリングが適切に行われていると仮定)。

各クラスターが解釈された後 (例: クラスター A は製品に関する苦情のレビューを表し、クラスター B は肯定的なフィードバックを表すなど)、BERT などのディープ NLP アーキテクチャを使用して、新しいテキストをこれらのクラスターに分類できます。これらはすべて、完全にラベル付けされていないデータと最小限の人間の関与で行われます。

これは、教師なしタスクを教師ありタスクに変換するもう 1 つの興味深いアプリケーションです。データの大半が教師なし学習である時代において、教師あり学習と教師なし学習の境界を越えたハイブリッド学習を通じて創造的な架け橋を構築することは、非常に大きな価値と可能性を秘めています。

材料の学習

構成学習では、1 つのモデルだけでなく複数のモデルの知識が使用されます。情報や入力（静的と動的の両方）の独自の組み合わせにより、ディープラーニングは単一のモデルよりもさらに深い理解とパフォーマンスを実現できると考えられています。

転移学習は、類似の問題で事前トレーニングされたモデルの重みを使用して、特定の問題で微調整できるという考えに基づいた、構成学習の非常にわかりやすい例です。 Inception や VGG-16 などの事前トレーニング済みモデルを構築して、さまざまなカテゴリの画像間を区別します。

動物（猫や犬など）を認識するモデルをトレーニングする予定の場合、良い結果を得るまでに時間がかかりすぎるため、畳み込みニューラルネットワークを最初からトレーニングすることはないでしょう。代わりに、画像認識の基本情報がすでに保存されている Inception のような事前トレーニング済みモデルを使用し、このデータセット (猫と犬のデータセット) で追加の反復処理をトレーニングします。

同様に、NLP ニューラルネットワークの単語埋め込みモデルは、単語間の関係に基づいて、埋め込み空間内の他の単語に近い位置に単語をマッピングします (たとえば、リンゴと文の間の距離は、リンゴとトラックの間の距離よりも小さい)。 GloVe のような事前トレーニング済みの埋め込みは、単語を数値に効率的にマッピングしている意味のあるエンティティから始めて、ニューラルネットワークに取り込むことができます。

あまり知られていないことですが、競争は知識の成長を刺激することもできます。まず、生成的敵対ネットワークは複合学習パラダイムを借用して、2 つのニューラルネットワークを根本的に互いに対立させます。ジェネレータの目的は識別器を騙すことですが、識別器の目的は騙されないことです。

モデル間の競争は「敵対的学習」と呼ばれますが、悪意のある入力を設計し、モデル内の弱い決定境界を発見するという別の種類の敵対的学習と混同しないでください。

敵対的学習は、多くの場合異なるタイプのモデルを刺激し、モデルのパフォーマンスを他のモデルのパフォーマンスとの関係で表現することができます。敵対的学習の分野ではまだ多くの研究が行われていますが、敵対的学習における唯一の傑出した革新は生成的敵対的ネットワークです。

一方、競争学習は敵対的学習に似ていますが、ノードごとに実行されます。つまり、ノードは入力データのサブセットに応答する権利を競います。競合学習は、ランダムに分散された重みを除いてニューロンのグループが同一である「競合層」で実装されます。

各ニューロンの重みベクトルが入力ベクトルと比較され、最も類似性の高いニューロンがアクティブ化されます。これが「勝者がすべてを獲得する」ニューロン (出力 = 1) です。その他は「非アクティブ化」されます (出力 = 0)。この教師なし手法は、自己組織化マップと特徴検出の中核部分です。

コンポーネント学習のもう 1 つの例は、ニューラルアーキテクチャ検索です。簡単に言えば、強化学習のコンテキストでは、ニューラルネットワーク (通常はリカレントニューラルネットワーク) がデータセットに最適なネットワークアーキテクチャを生成することを学習します。アルゴリズムが最適なアーキテクチャを見つけます。理論の詳細については、こちらを参照してください。Python コードを適用するには、こちらをクリックしてください。

コンポーネント学習では統合手法も重要であり、深層統合手法はその有効性を実証しています。また、エンコーダーやデコーダーなどのモデルのエンドツーエンドのスタッキングが非常に普及しました。

多くの構成学習アプローチは、異なるモデル間の接続を構築するための独自の方法を見つけようとします。それらはすべてこの考えに基づいています:

通常、単一のモデルは、たとえ非常に大きなモデルであっても、それぞれがタスクの一部を処理する複数の小さなモデル/コンポーネントよりもパフォーマンスが低下します。

たとえば、レストランのチャットボットを構築するタスクを考えてみましょう。

作者が作成した画像

このボットを雑談、情報検索、アクションボットの 3 つの部分に分割し、各部分に専用のモデルを設計できます。あるいは、3 つのタスクすべてを 1 つのモデルに委任することもできます。

作者が作成した画像

組み合わせたモデルの方が、占有スペースが少なくて済むのにパフォーマンスが向上するのは当然です。さらに、これらのタイプの非線形トポロジは、Keras 機能 API などのツールを使用して簡単に構築できます。

ビデオや 3D データなど、ますます多様化するデータの種類を処理するには、研究者は創造的な組み合わせモデルを構築する必要があります。

原料学習と将来についての詳細は、こちらをご覧ください。

学習をシンプルにする

ディープラーニングの分野、特にNLP（ディープラーニングの研究で最もホットでエキサイティングな分野）では、モデルのサイズが常に増加しています。最新の GPT-3 モデルには 1,750 億個のパラメーターがあります。これを BERT と比較するのは、木星を蚊と比較するようなものです (文字通りではありませんが)。ディープラーニングの将来はさらに大きくなるのでしょうか?

出典: TDS。画像は自由に共有できます

論理的にはそうではありません。GPT-3 は非常に説得力がありますが、「成功した科学」とは人類に最も大きな影響を与える科学であることを過去に繰り返し示してきました。学問の世界は常に現実から遠く離れており、曖昧すぎる。ニューラルネットワークは、19 世紀末に短期間忘れ去られました。利用できるデータが少なすぎたため、そのアイデアがいかに独創的であっても役に立たなかったからです。

GPT-3 は説得力のあるテキストを書くことができるもう一つの言語モデルです。どこに応用できるのでしょうか?はい、たとえば、クエリに対する回答を生成することができます。ただし、これを行うにはより効率的な方法があります (たとえば、ナレッジグラフを走査し、BERT などの小さなモデルを使用して回答を出力するなど)。

計算能力が枯渇した世界では、GPT-3 の巨大なサイズ (さらに大きなモデルは言うまでもありません) は実現不可能であり、必要でもありません。

「ムーアの法則は勢いを失いつつある」マイクロソフトCEOサティア・ナデラ

代わりに、私たちは、スマート冷蔵庫が食料品を自動的に注文し、ドローンが都市全体を自律的に移動できる AI が組み込まれた世界に向かっています。強力な機械学習手法は、パソコン、携帯電話、小型チップにダウンロードできる必要があります。

これには、パフォーマンスを維持しながらニューラルネットワークを小型化する軽量 AI が必要です。

これは、直接的または間接的に、ディープラーニングの研究において、ほぼすべてが、一般化とパフォーマンスの向上に密接に関連して必要なパラメータの量を減らすことに関するものであることを示唆しています。たとえば、畳み込み層の導入により、ニューラルネットワークが画像を処理するために必要なパラメーターの数が大幅に削減されました。リカレントレイヤーは、同じ重みを使用しながら時間の概念を組み込むことで、ニューラルネットワークがより少ないパラメーターでシーケンスをより適切に処理できるようにします。

埋め込みレイヤーは、追加のパラメータで負担をかけずに、エンティティを物理的に意味のある数値に明示的にマッピングします。ある解釈では、ドロップアウトレイヤーは、入力の特定の部分でパラメータが動作することを明示的に防止します。 L1/L2 正則化により、パラメータが大きくなりすぎないようにし、各パラメータの情報値を最大化することで、ネットワークがすべてのパラメータを活用できるようになります。

この特別な特化レイヤーの作成により、ネットワークでは、より複雑で大規模なデータに対して必要なパラメータがますます少なくなります。他の新しいアプローチでは、ネットワークを明示的に圧縮することを目指しています。

ニューラルネットワークの剪定では、ネットワーク出力に価値をもたらさないシナプスとニューロンを削除しようとします。プルーニングにより、ネットワークは自身のほぼすべてを削除しながらパフォーマンスを維持できます。

出典: O'Reilly。共有可能な無料画像

患者知識蒸留などの他のアプローチでは、言語モデルを、たとえばユーザーの携帯電話にダウンロードできる形式に圧縮する方法が見つかります。これは、オフラインでアクセスできる高性能な翻訳サービスを作成する必要があった Google 翻訳を支える Google ニューラル機械翻訳システムにとって必要な考慮事項でした。

基本的に、簡素化された学習は、デプロイメント中心の設計に重点を置いています。そのため、学習の簡素化に関する研究のほとんどは、企業の研究部門から行われています。デプロイメント中心の設計の 1 つの側面は、データセットのパフォーマンスメトリックに盲目的に従うのではなく、モデルをデプロイするときに潜在的な問題に焦点を当てることです。

たとえば、前述の敵対的入力は、ネットワークを欺くために設計された悪意のある入力です。標識に絵を描いたりステッカーを貼ったりすれば、自動運転車を騙して制限速度を超えて加速させてしまう可能性がある。学習の責任ある簡素化により、モデルが軽量化されて使用しやすくなるだけでなく、データセットには見られない特殊なケースにも適応できるようになります。

学習の簡素化は、おそらくディープラーニング研究の中で最も人気のないトピックです。なぜなら、「実現可能なアーキテクチャサイズで優れたパフォーマンスを実現しました」という話は、「数千万のパラメータで構成されるアーキテクチャで最先端のパフォーマンスを実現しました」という話ほど魅力的ではないからです。

必然的に、イノベーションの歴史が示すように、高得点パフォーマンスに関する誇大宣伝が薄れれば、簡素化された学習、つまり実際の実践的な学習が、それにふさわしいより多くの注目を集めるようになるだろう。

要約する

ハイブリッド学習の目標は、教師あり学習と教師なし学習の境界を越えることです。半教師あり学習や自己教師あり学習などの方法では、ラベルなしデータから情報を抽出できます。これは、教師なしデータの量が指数関数的に増加した場合に非常に役立ちます。
タスクが複雑になるにつれて、コンポーネント学習によってタスクがいくつかの単純なコンポーネントに分解されます。これらのコンポーネントが連携して動作したり、互いに競合したりすると、より優れたモデルが生まれます。
ディープラーニングはまだ誇大宣伝段階にあるため、学習の簡素化はあまり注目されていませんが、すぐに実用的で展開に重点を置いた設計が登場するでしょう。

<<: AIはITに顧客体験の向上における優位性を与える

>>: インテリジェント製造の波に乗って、マシンビジョン業界は新たな時代を迎えているのでしょうか?