知っておくべき6種類のニューラルネットワーク

[51CTO.com クイック翻訳]ニューラルネットワークは人工知能の分野で非常に人気が高まっていますが、まだ多くの人が理解していません。まず、多くの人は、ニューラルネットワークのさまざまなタイプとそれらが解決する問題を識別するのに苦労しており、それらを区別する方法についてはなおさらです。 2 番目で、やや悪いのは、ニューラルネットワークについて話すときに、「ディープラーニング」という用語が無差別に使用されることが多いことです。

以下では、業界で主流となっているニューラルネットワークアーキテクチャのいくつかについて説明します。人工知能業界の人々は、これらのアーキテクチャに非常に精通しているはずです。

1. フィードフォワードニューラルネットワーク

これは最も基本的なタイプのニューラルネットワークであり、テクノロジの進歩により、開発者は計算時間をあまり気にせずに、より多くの隠しレイヤーを追加できるようになりました。ディープラーニング技術の「ゴッドファーザー」であるジェフ・ヒントンが 1990 年にバックプロパゲーションアルゴリズムを導入して以来、フィードフォワードニューラルネットワークが広く使用されるようになりました。

このタイプのニューラルネットワークは、基本的に入力層、複数の隠し層、および出力層で構成されます。動作にループはなく、情報は前方にのみ流れます。フィードフォワードニューラルネットワークは、数値データの教師あり学習に適していることが多いですが、いくつかの欠点もあります。

連続データでは使用できません。
モデルのパフォーマンスは特徴に大きく依存しており、画像やテキストデータの特徴を手動で見つけること自体がかなり難しい作業であるため、画像データをうまく処理できません。

その結果、業界のメーカーは畳み込みニューラルネットワークと再帰ニューラルネットワークを次々と開発してきました。

2. 畳み込みニューラルネットワーク（CNN）

畳み込みニューラルネットワーク (CNN) が普及する前は、画像を分類するためにさまざまなアルゴリズムが使用されていました。以前は、画像から特徴を作成し、その特徴をサポートベクターマシン (SVM) などの分類アルゴリズムに入力していました。一部のアルゴリズムでは、画像のピクセルレベルの値も特徴ベクトルとして使用します。たとえば、ユーザーは 784 個の特徴を持つサポートベクターマシン (SVM) をトレーニングできます。各特徴は 28×28 の画像ピクセル値です。

では、なぜ畳み込みニューラルネットワーク (CNN) が使用され、なぜそれが優れているのでしょうか? それは、畳み込みニューラルネットワーク (CNN) が画像の自動特徴抽出器として考えられるからです。ユーザーがピクセルベクトルを使用するアルゴリズムを使用すると、ピクセル間の空間的な相互作用の多くが失われますが、畳み込みニューラルネットワーク (CNN) は隣接するピクセル情報を効果的に使用し、最初に畳み込みによって画像を効果的にダウンサンプリングし、最後に予測レイヤーを使用します。

この概念は、1998 年に AI 科学者の Yann Le Cun によって数字の分類のために初めて提案され、畳み込み層を使用して数字を予測しました。これは後に 2012 年に Alexnet によって普及し、複数の畳み込み層を使用して Imagenet でより高度な予測を実現しました。したがって、これは画像分類に最適なアルゴリズムになります。

時間の経過とともに、ニューラルネットワークのこの特定の分野ではさまざまな進歩が遂げられてきました。研究者は、VGG、Resnet、Inception、Xception など、畳み込みニューラルネットワーク (CNN) のさまざまなアーキテクチャを開発し、画像分類の限界を継続的に押し広げてきました。

[[397340]]

対照的に、畳み込みニューラルネットワーク (CNN) はオブジェクト検出にも使用されますが、画像の分類に加えて、画像内の個々のオブジェクトの周囲の境界ボックスも検出する必要があるため、問題が発生する可能性があります。これまで、研究者は物体検出問題を解決するために、多くのアーキテクチャ（YOLO、RetinaNet、Faster RCNN など）を採用してきましたが、それらはすべて、アーキテクチャの一部として畳み込みニューラルネットワーク (CNN) を使用しています。

3. リカレントニューラルネットワーク（LSTM/GRU/アテンション）

畳み込みニューラルネットワーク (CNN) は主に画像の意味を分類するために使用されますが、再帰型ニューラルネットワーク (RNN) は主にテキストの意味を分類するために使用されます。リカレントニューラルネットワーク (RNN) は、各単語が前の単語または前の文の単語に依存するテキストの連続構造を学習するのに役立ちます。

リカレントニューラルネットワーク (RNN) を簡単に説明すると、RNN は、隠れ状態 (ベクトル) と単語ベクトルを入力として受け取り、出力ベクトルと次の隠れ状態を出力するブラックボックスと考えることができます。このブラックボックスには、損失のバックプロパゲーションを使用して調整する必要がある重みがいくつかあります。同様に、同じセルがすべての単語に適用され、文中の単語間で重みが共有されます。この現象は重み共有と呼ばれます。

以下は同じ RNN ユニットの拡張バージョンです。各 RNN ユニットは各単語の「トークン」を操作し、隠し状態を次のユニットに渡します。長さ 4 のシーケンス (例: 「the quick brown fox」) の場合、RNN ユニットは最終的に 4 つの出力ベクトルを生成します。これらのベクトルは連結され、以下に示すように、高密度フィードフォワードニューラルアーキテクチャの一部として使用され、言語モデル化または分類の最終タスクを解決します。

Long Short-Term Memory (LSTM) と Gated Recurrent Unit (GRU) は、情報の追加または削除によってニューロンの状態を調整するさまざまなゲートを導入することで、時間的記憶情報 (消失勾配問題とも呼ばれる) を追加するリカレントニューラルネットワーク (RNN) のサブクラスです。

大まかに言えば、LSTM/GRU は、長期的な依存関係を学習するためのリカレントニューラルネットワーク (RNN) セルの使用として理解できます。 RNN/LSTM/GRU は主に、入力単語のストリームが与えられたときに次の単語を予測することを目的とするさまざまな言語モデリングタスク、または連続パターンを持つタスクで使用されます。

次に言及すべきことは注意ベースのモデルですが、ここでは直感についてのみ説明します。これまで、TFIDF/CountVectorizer などの従来のテキスト特徴抽出方法は、キーワードを抽出することによって実装されていました。テキストのカテゴリを決定する際に、他の単語よりも役立つ単語があります。ただし、このアプローチでは、テキストの連続的な構造が多少失われます。 LSTM とディープラーニング手法を使用すると、シーケンス構造を処理できますが、より重要な単語に高い重みを与える機能は失われます。

では、両方の長所を兼ね備えることは可能なのでしょうか? 答えはイエスです。実際、ユーザーが必要としているのは注目です。専門家は次のように語っています。「すべての単語が文の意味を表現するのに同じように効果的というわけではありません。そのため、私たちは文の意味にとってより重要な単語を抽出し、これらの有益な単語によって表現される意味を集約して文ベクトルを形成するための注目メカニズムを導入します。」

4. トランスフォーマー

トランスフォーマーは、あらゆる自然言語処理 (NLP) タスクを実装するための事実上の標準となり、最近リリースされた GPT-3 トランスフォーマーは、これまでに作成された最大のニューラルネットワークです。

過去には、LSTM と GRU アーキテクチャ、および注意メカニズムが、言語モデリングの問題と翻訳システムに対する最先端のアプローチでした。これらのアーキテクチャの主な問題は、本質的に再帰的であり、シーケンスの長さに応じて実行時間が長くなることです。つまり、これらのアーキテクチャは文を受け取り、各単語を順番に処理するため、文の長さが長くなるにつれて全体的な実行時間も長くなります。

Transformer は、Attention モデルに基づいたアーキテクチャです。 Transformer は、入力と出力間のグローバルな依存関係を描画するために、アテンションメカニズムに完全に依存しています。これにより、より高速かつ正確になり、自然言語処理 (NLP) の分野におけるさまざまな問題を解決するための最適なアーキテクチャになります。

5. 生成的敵対ネットワーク (GAN)

[[397342]]

近年、データサイエンスのコミュニティでは、論文、ブログ、ビデオなどにおいて、数多くの人工知能システムが人間の顔の画像を偽造しているのを目にしてきました。今では、実際の人間の顔とAIによって生成された顔を区別することが難しい段階に達しています。これらの画像はすべて、生成的敵対的ネットワーク (GAN) を使用して作成されました。敵対的生成ネットワーク (GAN) は、ビデオゲームや特殊効果を作成する方法を変える可能性を秘めています。この方法を使用すると、リアルなテクスチャやキャラクターをオンデマンドで作成できるため、無限の可能性が広がります。

生成的敵対ネットワーク (GAN) は通常、2 つの敵対的ニューラルネットワークを使用して、コンピューターがデータセットの特性を完全に学習し、本物と間違えられるほど説得力のある偽の画像を生成するようにトレーニングします。ニューラルネットワークの 1 つは偽の画像を生成し (ジェネレーター)、もう 1 つはどの画像が偽であるかを分類しようとします (ディスクリミネーター)。これら 2 つのニューラルネットワークは互いに競争することで、時間の経過とともに機能とパフォーマンスが向上し続けます。

「生成者」を泥棒、「識別者」を警官として想像することができます。泥棒が盗む量が増えるほど、その手口はより巧妙になる。同時に、この過程で、警察は泥棒を捕まえることにますます熟練するようになっています。

どちらのニューラルネットワークの損失も、主に他のネットワークのパフォーマンスによって決まります。

識別器のネットワーク損失は、生成器のネットワーク品質の関数です。識別器が生成器からの偽の画像に騙された場合、損失は高くなります。
ジェネレータネットワークの損失は、識別器ネットワークの品質の関数です。ジェネレータが識別器を騙すことができない場合、損失は高くなります。

トレーニングフェーズでは、識別ニューラルネットワークと生成ニューラルネットワークが順番にトレーニングされ、両方のパフォーマンスが向上します。最終的な目標は、ジェネレータがリアルな画像を作成するのに役立つ重みを取得することです。ユーザーはジェネレーターニューラルネットワークを使用して、ランダムノイズから高品質の偽画像を生成できます。

6. オートエンコーダ

オートエンコーダーは、X から X へのマッピング、つまり入力 = 出力を近似できるディープラーニング関数です。まず入力特徴を低次元表現に圧縮し、次にこの表現から出力を再構築します。

多くの場合、この表現ベクトルはモデルの特徴として使用できるため、次元削減に使用できます。

オートエンコーダは異常検出にも使用されます。この場合、オートエンコーダを使用して例を再構築し、再構築の損失が大きすぎる場合は、例が異常であると予測できます。

結論は

ニューラルネットワークは本質的に、これまでに作成された最も優れたモデルの 1 つであり、考えられるほとんどすべてのモデリングユースケースに非常によく一般化されます。現在、これらのさまざまな種類とバージョンのニューラルネットワークは、医療、金融、自動車産業などの分野でさまざまな重要な問題を解決するために使用されており、Apple、Google、Facebook などのテクノロジー企業でも推奨事項の提供や検索クエリのサポートに使用されています。たとえば、Google は検索クエリを支援するために、Transformer ベースのモデルである BERT を使用しています。

原題: 知っておくべきニューラルネットワークの種類、著者: Kevin Vu

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: Googleの人工知能研究所DeepMindがカナダで研究者を募集

>>: Google と Facebook はなぜ Docker を使用しないのでしょうか?