[51CTO.com クイック翻訳]ニューラルネットワークは人工知能の分野で非常に人気が高まっていますが、まだ多くの人が理解していません。まず、多くの人は、ニューラル ネットワークのさまざまなタイプとそれらが解決する問題を識別するのに苦労しており、それらを区別する方法についてはなおさらです。 2 番目で、やや悪いのは、ニューラル ネットワークについて話すときに、「ディープラーニング」という用語が無差別に使用されることが多いことです。 以下では、業界で主流となっているニューラル ネットワーク アーキテクチャのいくつかについて説明します。人工知能業界の人々は、これらのアーキテクチャに非常に精通しているはずです。 1. フィードフォワードニューラルネットワークこれは最も基本的なタイプのニューラル ネットワークであり、テクノロジの進歩により、開発者は計算時間をあまり気にせずに、より多くの隠しレイヤーを追加できるようになりました。ディープラーニング技術の「ゴッドファーザー」であるジェフ・ヒントンが 1990 年にバックプロパゲーション アルゴリズムを導入して以来、フィードフォワード ニューラル ネットワークが広く使用されるようになりました。 このタイプのニューラル ネットワークは、基本的に入力層、複数の隠し層、および出力層で構成されます。動作にループはなく、情報は前方にのみ流れます。フィードフォワード ニューラル ネットワークは、数値データの教師あり学習に適していることが多いですが、いくつかの欠点もあります。
その結果、業界のメーカーは畳み込みニューラルネットワークと再帰ニューラルネットワークを次々と開発してきました。 2. 畳み込みニューラルネットワーク(CNN)畳み込みニューラル ネットワーク (CNN) が普及する前は、画像を分類するためにさまざまなアルゴリズムが使用されていました。以前は、画像から特徴を作成し、その特徴をサポート ベクター マシン (SVM) などの分類アルゴリズムに入力していました。一部のアルゴリズムでは、画像のピクセルレベルの値も特徴ベクトルとして使用します。たとえば、ユーザーは 784 個の特徴を持つサポート ベクター マシン (SVM) をトレーニングできます。各特徴は 28×28 の画像ピクセル値です。 では、なぜ畳み込みニューラル ネットワーク (CNN) が使用され、なぜそれが優れているのでしょうか? それは、畳み込みニューラル ネットワーク (CNN) が画像の自動特徴抽出器として考えられるからです。ユーザーがピクセル ベクトルを使用するアルゴリズムを使用すると、ピクセル間の空間的な相互作用の多くが失われますが、畳み込みニューラル ネットワーク (CNN) は隣接するピクセル情報を効果的に使用し、最初に畳み込みによって画像を効果的にダウンサンプリングし、最後に予測レイヤーを使用します。 この概念は、1998 年に AI 科学者の Yann Le Cun によって数字の分類のために初めて提案され、畳み込み層を使用して数字を予測しました。これは後に 2012 年に Alexnet によって普及し、複数の畳み込み層を使用して Imagenet でより高度な予測を実現しました。したがって、これは画像分類に最適なアルゴリズムになります。 時間の経過とともに、ニューラル ネットワークのこの特定の分野ではさまざまな進歩が遂げられてきました。研究者は、VGG、Resnet、Inception、Xception など、畳み込みニューラル ネットワーク (CNN) のさまざまなアーキテクチャを開発し、画像分類の限界を継続的に押し広げてきました。
対照的に、畳み込みニューラル ネットワーク (CNN) はオブジェクト検出にも使用されますが、画像の分類に加えて、画像内の個々のオブジェクトの周囲の境界ボックスも検出する必要があるため、問題が発生する可能性があります。これまで、研究者は物体検出問題を解決するために、多くのアーキテクチャ(YOLO、RetinaNet、Faster RCNN など)を採用してきましたが、それらはすべて、アーキテクチャの一部として畳み込みニューラル ネットワーク (CNN) を使用しています。 3. リカレントニューラルネットワーク(LSTM/GRU/アテンション)畳み込みニューラル ネットワーク (CNN) は主に画像の意味を分類するために使用されますが、再帰型ニューラル ネットワーク (RNN) は主にテキストの意味を分類するために使用されます。リカレント ニューラル ネットワーク (RNN) は、各単語が前の単語または前の文の単語に依存するテキストの連続構造を学習するのに役立ちます。 リカレント ニューラル ネットワーク (RNN) を簡単に説明すると、RNN は、隠れ状態 (ベクトル) と単語ベクトルを入力として受け取り、出力ベクトルと次の隠れ状態を出力するブラック ボックスと考えることができます。このブラック ボックスには、損失のバックプロパゲーションを使用して調整する必要がある重みがいくつかあります。同様に、同じセルがすべての単語に適用され、文中の単語間で重みが共有されます。この現象は重み共有と呼ばれます。 以下は同じ RNN ユニットの拡張バージョンです。各 RNN ユニットは各単語の「トークン」を操作し、隠し状態を次のユニットに渡します。長さ 4 のシーケンス (例: 「the quick brown fox」) の場合、RNN ユニットは最終的に 4 つの出力ベクトルを生成します。これらのベクトルは連結され、以下に示すように、高密度フィードフォワード ニューラル アーキテクチャの一部として使用され、言語モデル化または分類の最終タスクを解決します。 Long Short-Term Memory (LSTM) と Gated Recurrent Unit (GRU) は、情報の追加または削除によってニューロンの状態を調整するさまざまなゲートを導入することで、時間的記憶情報 (消失勾配問題とも呼ばれる) を追加するリカレント ニューラル ネットワーク (RNN) のサブクラスです。 大まかに言えば、LSTM/GRU は、長期的な依存関係を学習するためのリカレント ニューラル ネットワーク (RNN) セルの使用として理解できます。 RNN/LSTM/GRU は主に、入力単語のストリームが与えられたときに次の単語を予測することを目的とするさまざまな言語モデリング タスク、または連続パターンを持つタスクで使用されます。 次に言及すべきことは注意ベースのモデルですが、ここでは直感についてのみ説明します。これまで、TFIDF/CountVectorizer などの従来のテキスト特徴抽出方法は、キーワードを抽出することによって実装されていました。テキストのカテゴリを決定する際に、他の単語よりも役立つ単語があります。ただし、このアプローチでは、テキストの連続的な構造が多少失われます。 LSTM とディープラーニング手法を使用すると、シーケンス構造を処理できますが、より重要な単語に高い重みを与える機能は失われます。 では、両方の長所を兼ね備えることは可能なのでしょうか? 答えはイエスです。実際、ユーザーが必要としているのは注目です。専門家は次のように語っています。「すべての単語が文の意味を表現するのに同じように効果的というわけではありません。そのため、私たちは文の意味にとってより重要な単語を抽出し、これらの有益な単語によって表現される意味を集約して文ベクトルを形成するための注目メカニズムを導入します。」 4. トランスフォーマートランスフォーマーは、あらゆる自然言語処理 (NLP) タスクを実装するための事実上の標準となり、最近リリースされた GPT-3 トランスフォーマーは、これまでに作成された最大のニューラル ネットワークです。 過去には、LSTM と GRU アーキテクチャ、および注意メカニズムが、言語モデリングの問題と翻訳システムに対する最先端のアプローチでした。これらのアーキテクチャの主な問題は、本質的に再帰的であり、シーケンスの長さに応じて実行時間が長くなることです。つまり、これらのアーキテクチャは文を受け取り、各単語を順番に処理するため、文の長さが長くなるにつれて全体的な実行時間も長くなります。 Transformer は、Attention モデルに基づいたアーキテクチャです。 Transformer は、入力と出力間のグローバルな依存関係を描画するために、アテンション メカニズムに完全に依存しています。これにより、より高速かつ正確になり、自然言語処理 (NLP) の分野におけるさまざまな問題を解決するための最適なアーキテクチャになります。 5. 生成的敵対ネットワーク (GAN)
近年、データサイエンスのコミュニティでは、論文、ブログ、ビデオなどにおいて、数多くの人工知能システムが人間の顔の画像を偽造しているのを目にしてきました。今では、実際の人間の顔とAIによって生成された顔を区別することが難しい段階に達しています。これらの画像はすべて、生成的敵対的ネットワーク (GAN) を使用して作成されました。敵対的生成ネットワーク (GAN) は、ビデオ ゲームや特殊効果を作成する方法を変える可能性を秘めています。この方法を使用すると、リアルなテクスチャやキャラクターをオンデマンドで作成できるため、無限の可能性が広がります。 生成的敵対ネットワーク (GAN) は通常、2 つの敵対的ニューラル ネットワークを使用して、コンピューターがデータセットの特性を完全に学習し、本物と間違えられるほど説得力のある偽の画像を生成するようにトレーニングします。ニューラル ネットワークの 1 つは偽の画像を生成し (ジェネレーター)、もう 1 つはどの画像が偽であるかを分類しようとします (ディスクリミネーター)。これら 2 つのニューラル ネットワークは互いに競争することで、時間の経過とともに機能とパフォーマンスが向上し続けます。 「生成者」を泥棒、「識別者」を警官として想像することができます。泥棒が盗む量が増えるほど、その手口はより巧妙になる。同時に、この過程で、警察は泥棒を捕まえることにますます熟練するようになっています。 どちらのニューラル ネットワークの損失も、主に他のネットワークのパフォーマンスによって決まります。
トレーニング フェーズでは、識別ニューラル ネットワークと生成ニューラル ネットワークが順番にトレーニングされ、両方のパフォーマンスが向上します。最終的な目標は、ジェネレータがリアルな画像を作成するのに役立つ重みを取得することです。ユーザーはジェネレーターニューラルネットワークを使用して、ランダムノイズから高品質の偽画像を生成できます。 6. オートエンコーダオートエンコーダーは、X から X へのマッピング、つまり入力 = 出力を近似できるディープラーニング関数です。まず入力特徴を低次元表現に圧縮し、次にこの表現から出力を再構築します。 多くの場合、この表現ベクトルはモデルの特徴として使用できるため、次元削減に使用できます。 オートエンコーダは異常検出にも使用されます。この場合、オートエンコーダを使用して例を再構築し、再構築の損失が大きすぎる場合は、例が異常であると予測できます。 結論はニューラル ネットワークは本質的に、これまでに作成された最も優れたモデルの 1 つであり、考えられるほとんどすべてのモデリング ユース ケースに非常によく一般化されます。現在、これらのさまざまな種類とバージョンのニューラル ネットワークは、医療、金融、自動車産業などの分野でさまざまな重要な問題を解決するために使用されており、Apple、Google、Facebook などのテクノロジー企業でも推奨事項の提供や検索クエリのサポートに使用されています。たとえば、Google は検索クエリを支援するために、Transformer ベースのモデルである BERT を使用しています。 原題: 知っておくべきニューラルネットワークの種類、著者: Kevin Vu [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: Googleの人工知能研究所DeepMindがカナダで研究者を募集
>>: Google と Facebook はなぜ Docker を使用しないのでしょうか?
CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、...
スマートシティ、スマートコミュニティ、スマート交通は絶えず推進され、普及しており、ユーザーの使用習慣...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
1. はじめにワイルド カード フリップ ゲームでは、合計 8 つのまったく異なる画像を持つ 16 ...
ゲーム内音声通信の要件2015 年にはすでに、iMedia Research がモバイル ゲームのソ...
[[202532]]編集者注: この記事はNetEase Intelligenceからのもので、著者...
エッジコンピューティングと人工知能の組み合わせにより、エッジ AI は現在のテクノロジー市場における...
今日、ますます多くの企業が IoT のメリットを活用しています。機械学習、人工知能、即時フィードバッ...
ロイター通信によると、昨日ジュネーブで開催された「AI for Good」会議で、国連国際電気通信連...