機械学習のトレンドについて語る - 3つの新しい学習パラダイム

機械学習のトレンドについて語る - 3つの新しい学習パラダイム

  [[349437]]

導入

機械学習/ディープラーニングは広大な研究分野です。まだ若い分野ではありませんが、活気に満ちています。毎日、多数の新しい手法や技術が生まれているようです。

一般的に言えば、従来の機械学習は、教師あり学習、教師なし学習、強化学習という 3 つの基本的な学習パラダイムに分けられます。

しかし、この記事では、モデルの形式に基づいて、現代の機械学習をハイブリッド学習、複合学習、簡易学習という 3 つの新しい学習パラダイムに分類します。それぞれのパラダイムには、現在の機械学習研究の機能と範囲を拡大する大きな可能性を秘めた学習方法と哲学が存在します。

  • ハイブリッド学習 — 教師あり学習と教師なし学習の境界を越えて、大量のラベルなしデータを最大限に活用するにはどうすればよいでしょうか。
  • 複合学習 — モデルやコンポーネントを新しい方法で組み合わせて、各部分の合計よりも強力な複合モデルを作成するにはどうすればよいでしょうか。
  • 学習の削減 — パフォーマンスと展開の目的で、同じかそれ以上の予測力を維持しながら、モデルのサイズと情報フローを削減するにはどうすればよいでしょうか。

機械学習の未来は、それぞれが密接に関連しているこれら 3 つの学習パラダイムにあるのかもしれません。

2. ブレンド型学習

このパラダイムは、教師あり学習と教師なし学習の境界線をまたぐことを試みます。このようなアプローチは、ラベル付けされたデータの不足と高コストのため、ビジネス環境でよく使用されます。本質的に、ブレンド型学習は次の質問に対する答えです。

+ 教師あり手法を使用して教師なし問題を解決または組み合わせるにはどうすればよいでしょうか?

まず、半教師あり学習は、ラベル付けされたデータが少ない教師あり問題で優れたパフォーマンスを発揮できるため、機械学習コミュニティで勢いを増しています。例えば、慎重に設計された半教師ありGAN(Generative Adversarial Network)は、わずか25のトレーニング例を見ただけでMNISTデータセットで90%以上の精度を達成します[1]。

半教師あり学習は、大量の教師なしデータと少量の教師ありデータを含むデータセット向けに設計されています。従来、教師あり学習モデルはデータの一部でトレーニングされ、教師なしモデルは別の部分でトレーニングされていましたが、半教師ありモデルでは、ラベル付きデータとラベルなしデータから抽出された洞察を組み合わせることができます。

〄 半教師ありモデルの例。

半教師あり GAN (SGAN と略される) は、標準的な敵対的ネットワーク モデルを改良したものです。識別器は、生成された画像であるか否かを判定する0/1とカテゴリ情報の両方を出力します(マルチ出力学習)。

実際の画像と生成された画像を区別する識別器を学習することで、特定のラベル付けなしでデータの背後にある構造を学習できるという考えに基づいています。少量のラベル付きデータからの追加拡張により、半教師ありモデルは少量の教師ありデータで最先端のパフォーマンスを実現できます。

SGANと半教師あり学習の詳細については、ここ[2]をご覧ください。

GAN はハイブリッド学習の別の領域、つまり自己教師あり学習にも参加しており、自己教師あり学習では教師なし問題が教師あり問題として明示的に定義されます。 GAN は、ジェネレーターを導入して教師ありデータを人工的に作成し、実際の画像と生成された画像を識別するためのラベルを作成します。監督タスクは監督なしで実施されました。

あるいは、圧縮にエンコーダー/デコーダー モデルの使用を検討してください。最も単純な形式では、ニューラル ネットワークには中央に少数のノードがあり、ある種のボトルネック方式で圧縮を表現します。両側はそれぞれエンコーダーとデコーダーに対応します。


〄 オートエンコーダの例。

ネットワークは、入力と同じ出力を生成するようにトレーニングされます (教師なしデータから教師ありタスクを人工的に作成します)。途中に意図的にボトルネックを設けているため、ネットワークはそのままでは情報を直接渡すことができません。代わりに、デコーダーが適切にデコードできるように、入力を小さな単位に保つ最善の方法を見つける必要があります。

トレーニング後、エンコーダーとデコーダーは分解され、データをデコードしたり、非常に小さな形式でデータを圧縮したりするために使用できます。データの次元削減にも使用できます。

別の例として、大量のテキスト(デジタル プラットフォームからのレビューなど)を考えてみましょう。いくつかのクラスタリングまたは多様体学習方法を通じて、テキスト セットのクラスター タグを生成し、それをタグとして扱うことができます。

各クラスターが解釈された後 (例: クラスター A は製品に関する苦情のレビューを表し、クラスター B は肯定的なフィードバックを表すなど)、BERT などの深層自然言語処理 (NLP) アーキテクチャを使用して、ラベル付けされたデータなしで、人間の関与を最小限に抑えて、新しいテキストをこれらのクラスターに分類できます。

これは、教師なしタスクを教師ありタスクに変換するもう 1 つの優れたアプリケーションです。データの大部分が教師なしデータである時代において、ハイブリッド学習を通じて教師あり学習と教師なし学習の間に創造的なつながりを確立することは、大きな可能性と応用価値を秘めています。

3. 複合学習

複合学習の目的は、1 つのモデルの知識を活用することではなく、複数のモデルの知識を活用することです。静的または動的情報の独自の組み合わせまたは注入により、ディープラーニングは単一のモデルで達成できるよりも深い理解とパフォーマンスを実現できると考えられています。

転移学習は複合学習の典型的な例であり、類似のタスクで事前トレーニングされたモデルからモデルの重みを借用し、特定のタスクに合わせて微調整することができます。 Inception や VGG-16 などの事前トレーニング済みモデルには、画像を分類するために設計された構造と重みがあります。

ニューラル ネットワークをトレーニングして動物 (猫、犬など) を認識する場合、良い結果を得るまでにかなりの時間がかかるため、畳み込みニューラル ネットワークを最初からトレーニングすることはないでしょう。代わりに、画像認識の基礎がすでに備わっており、データセットで追加のトレーニングのみが必要な、Inception のような事前トレーニング済みのネットワークを使用します。

同様に、NLP ニューラル ネットワークの単語埋め込みは、単語間の関係に基づいて、単語を他の単語に意味のある方法で近づけます (たとえば、リンゴはオレンジに近く、リンゴはトラックに近くなります)。 GloVe のような事前トレーニング済みの埋め込みをニューラル ネットワークにドロップして、すでに有効な単語を数値の意味のあるエンティティにマッピングすることができます。

あまり知られていないことだが、競争は知識の成長も刺激する。一方、生成的敵対ネットワークは、基本的に 2 つのニューラル ネットワークを互いに対戦させることで、複合学習パラダイムを借用しています。ジェネレータの目的は識別器を騙すことですが、識別器の目的は騙されないことです。

モデル間の競争は敵対的学習と呼ばれますが、悪意のある入力を作成し、モデル内の弱い決定境界を悪用することを指す別の種類の敵対的学習と混同しないでください。

敵対的学習は、多くの場合異なるタイプのモデルを刺激することができ、モデルのパフォーマンスを他のモデルのパフォーマンスと比較して表現することができます。敵対的学習の分野ではまだ多くの研究が残っており、敵対的学習の分野における唯一の顕著な革新は生成的敵対的ネットワークです。

一方、競争学習は敵対的学習に似ていますが、ノードごとに実行されます。つまり、ノードは入力データのサブセットに応答する権利を競います。競合学習は、ランダムに分散された重みを除いてすべてのニューロンがまったく同じである競合層で実装されます。

各ニューロンの重みベクトルを入力ベクトルと比較し、最も類似性の高いニューロンをアクティブ化し(出力 = 1)、他のニューロンを非アクティブ化します(出力 = 0)。この教師なし手法は、自己組織化マップ[3]と特徴探索[4]の中核コンポーネントです。

複合学習のもう一つの興味深い例は、ニューラル ネットワーク アーキテクチャの検索です。簡単に言えば、強化学習環境のニューラル ネットワーク (通常は再帰的) は、データセットに最適なニューラル ネットワークを生成するように学習します。このアルゴリズムは最適なアーキテクチャを見つけます。

アンサンブル法は複合学習の基本でもあります。ディープ アンサンブル手法は非常に効果的であることが証明されており、エンドツーエンド モデル (エンコーダーとデコーダーなど) のスタッキングは実際のアプリケーションでますます普及しています。

多くの複合学習アプローチは、異なるモデル間の接続を構築するための独自の方法を見つけています。前提は、単一のモデル、たとえ非常に大きなモデルであっても、それぞれがタスクの一部に対して専門的な責任を委任された複数の小さなモデル/コンポーネントの複合モデルよりもパフォーマンスが劣るということです。

たとえば、レストラン用のチャットボットを構築するタスクを考えてみましょう。


〄 チャットボットモデルの設計例。

これを雑談、情報検索、アクションの 3 つのモジュールに分割し、それぞれのタスクに特化したモデルを設計することができます。あるいは、3 つのタスクすべてを 1 つのモデルに委任することもできます。

複合モデルは、より少ないスペースを占有しながら、より優れたパフォーマンスを実現できます。さらに、非線形トポロジを持つこれらのネットワーク アーキテクチャは、Keras 機能 API などのツールを使用して簡単に構築できます。

ビデオや 3D データなど、増加するデータの種類を処理するために、研究者はより複雑な複合モデルを構築する必要があります。

複合学習とその将来の発展については、こちら[5]で詳しく読むことができます。

4. 学習を簡素化する

特に NLP ではモデルのサイズが増加しています。最新の GPT-3 モデルには 1,750 億個のパラメーターがあります。これを BERT と比較するのは、木星を蚊と比較するようなものです。ディープラーニングの未来は明るいのでしょうか?

これは物議を醸すかもしれない?そうでもない。確かに、GPT-3 は非常に強力ですが、人類の歴史は、成功した科学こそが人類に最も大きな影響を与える科学であることを何度も証明してきました。学問が現実からあまりにもかけ離れると、忘れ去られてしまうことがよくあります。これは、ニューラル ネットワークが 20 世紀後半に短期間忘れ去られた理由の 1 つです。アイデアがいかに優れていても、それを役立てるには利用できるデータが少なすぎたためです。

GPT-3 は説得力のあるテキストを書くことができるもう一つの言語モデルです。その応用分野はどこでしょうか? たとえば、クエリに対する回答を生成することは可能です。ただし、これを行うにはより効率的な方法があります (ナレッジ グラフをトラバースし、より小さなモデル BERT を使用して回答を出力するなど)。

計算能力の低下を考えると、GPT-3 の巨大なサイズ (さらに大きなモデルは言うまでもありません) は、単純に実現可能でも必要でもないと思われます。

「ムーアの法則は、ある意味、勢いを失いつつある。」 — マイクロソフト CEO、サティア ナデラ氏。

代わりに、私たちは組み込み AI の世界へと向かっています。この世界では、スマート冷蔵庫が食料品を自動的に注文し、ドローンが都市全体を自力で移動できるようになります。強力な機械学習手法は、PC、携帯電話、小型チップに搭載できるはずです。

これには軽量 AI が必要であり、つまりパフォーマンスを維持しながらニューラル ネットワークを小型化する必要があります。

ディープラーニング研究におけるほぼすべてのことは、必要なパラメータの数を減らすことに直接的または間接的に関係しており、これは一般化とパフォーマンスの向上に密接に関係していることが判明しています。

たとえば、畳み込み層の導入により、ニューラル ネットワークが画像を処理するために必要なパラメーターの数が大幅に削減されました。再帰層は同じ重みを使用しながら時間の概念を組み込むため、ニューラル ネットワークはより少ないパラメータで順次データをより適切に処理できます。

埋め込みレイヤーは、他のパラメータに負担がかからないように、エンティティを物理的に意味のある数値に明示的にマッピングします。ある解釈では、ドロップアウト レイヤーは、入力の特定の部分でパラメータが動作することを明示的に防止します。 L1/L2 正規化により、ネットワークがすべてのパラメータを利用し、パラメータが大きすぎないこと、各パラメータが情報値を最大化することが保証されます。

プロフェッショナル レイヤーが構築されるにつれて、より複雑で大規模なデータに対するネットワークの要件はますます少なくなり、圧縮ネットワークへの傾向がより顕著になります。

ニューラル ネットワークの剪定では、ネットワーク出力に価値をもたらさないシナプスとニューロンを削除しようとします。プルーニングにより、ネットワークはほぼ完全に自身を削除しながらパフォーマンスを維持できます。


〄 ニューラルネットワークの剪定例。

患者知識蒸留検索などの他のアプローチでは、大規模な言語モデルをユーザーの携帯電話にダウンロードできる形式に圧縮します。これは、Google 翻訳を支える Google ニューラル マシン翻訳 (GNMT) システムが実現するもので、オフラインでもアクセスできる高性能な翻訳サービスを作成できます。

基本的に、簡素化された学習は、デプロイメント中心のアーキテクチャに基づいて設計されています。そのため、学習の簡素化に関する研究のほとんどは、企業の研究部門から行われています。デプロイメント中心の設計の 1 つの側面は、データセットのパフォーマンス メトリックに盲目的に従うのではなく、モデルをデプロイするときに潜在的な問題に焦点を当てることです。

たとえば、前述の敵対的入力は、ネットワークを欺くために設計された悪意のある入力です。標識の上に塗料やステッカーを吹き付けると、自動運転車が制限速度を超えて加速してしまう可能性がある。責任ある簡素化学習の一環として、モデルを軽量化して実用的なものにするだけでなく、データセットに示されていないコーナーケースにも適応できるようにすることも重要です。

学習の簡素化は、おそらくディープラーニングの研究では最も注目されていない。実現可能なアーキテクチャ サイズで優れたパフォーマンスを達成することの成功は、無数のパラメータを持つアーキテクチャで最先端のパフォーマンスを達成することの成功よりもはるかに魅力的ではないからだ。

必然的に、イノベーションの歴史が示すように、より高い割合を求める傾向が薄れれば、簡素化された学習(実際には実践的な学習と見なすことができる)が、それにふさわしいより多くの注目を集めるようになるだろう。

5. 結論

ハイブリッド学習は、教師あり学習と教師なし学習の境界を越えようとします。半教師あり学習や自己教師あり学習などの手法は、ラベルのないデータから貴重な洞察を引き出すことができます。教師なしデータの量が飛躍的に増加するにつれて、このアプローチは非常に価値が高まります。

タスクが複雑になるにつれて、複合学習によってタスクがいくつかのより単純な部分に分割されます。異なる部分に対応するこれらのモデルが連携して動作したり、互いに反対に動作したりすると、より強力なモデルが生まれます。

ディープラーニングは誇大宣伝の段階に入っており、学習の簡素化はあまり注目されていませんが、実用性と展開中心のネットワーク設計にはすぐに十分になるでしょう。

[1] 半教師ありGAN: https://coursys.sfu.ca/2020sp-cmpt-726-x1/pages/SSL_GAN_report/view

[2] SGANと半教師あり学習: https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781

[3] 自己組織化マップ: https://en.wikipedia.org/wiki/Self-organizing_map

[4] 特徴探索: https://onlinelibrary.wiley.com/doi/pdf/10.1207/s15516709cog0901_5

[5] 構成的学習: https://medium.com/analytics-vidhya/compositional-learning-is-the-future-of-machine-learning-22b56ad09edc

[6] アンドレ・イェ:https://towardsdatascience.com/the-future-of-deep-learning-can-be-broken-down-into-these-3-learning-paradigms-e7970dec5502

この記事はWeChatの公開アカウント「機械学習と数学」から転載したものです。下のQRコードからフォローできます。この記事を転載する場合は、機械学習と数学の公開アカウントにご連絡ください。

<<:  IDC、2021年以降のITトレンドトップ10を発表

>>:  「アルゴリズムとデータ構造」トライ木の美しさ

ブログ    

推薦する

...

人工知能は人間に取って代わるでしょうか?将来、誰もがスーパーパワーを持つようになると思いますか?

ここ数十年、人類の技術は驚くほど急速に発展してきました。多くの映画、テレビ番組、小説などの影響で、多...

ウルトラマンが解雇されるのは今回が初めてではない! YCを去った人物は「創設者から去るように言われた」

ウルトラマンニウフルが「追い出される」のは初めてではないでしょうか? ? !予想外にも、OpenAI...

...

AI テクノロジーはヘルスケアの変革にどのように役立つのでしょうか?

【51CTO.comオリジナル記事】近年、「人工知能」(AI)という言葉が頻繁に登場し、今日ではこ...

AIがコンテンツ業界に力を与える: 確実に勝利するのは誰か、流れを変えるのは誰か

[51CTO.comより引用] 近年、AI技術は徐々にコンテンツ業界に浸透し、さまざまなコンテンツプ...

人間と人工知能がどのように関係を築くか

人間関係を構築するのに優れているのは人間か人工知能か?実際、この革新的な技術は長い間存在していました...

ディープラーニング時代の物体検出アルゴリズムのレビュー

物体検出とその他のコンピュータビジョンの問題分類問題これはおそらくコンピュータービジョンにおける最大...

シンボリック AI がビジネス運営にとって重要な理由は何ですか?

シンボリック AI は、ビジネスに関する洞察を解釈し、すべての目標の達成を支援します。多くの企業が基...

K 分割交差検証とグリッドサーチ

みなさんこんにちは、私はZhibinです〜今日は、GridSearch グリッド検索と K 分割相互...

GoogleとHuawei、AI市場獲得に向け音声アシスタントの導入を急ぐ

Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...

...

業界丨2020年のインテリジェントウェーブを理解するには、BaiduとGoogleのAIの足跡から始める

2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...

...

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...