CNN、RNN、GAN とは何ですか?ついに誰かが明らかにした

[[334740]]

01 完全に接続されたネットワーク

完全に接続された高密度の線形ネットワークは、最も基本的でありながら強力なアーキテクチャです。これは、単一の隠し層を持つニューラルネットワークを使用した機械学習の直接的な拡張です。完全に接続されたレイヤーは、あらゆるアーキテクチャの最終部分として機能し、以下のディープネットワークを使用して取得されたスコアの確率分布を取得するために使用されます。

名前が示すように、完全接続ネットワークは、前の層と次の層のすべてのニューロンを相互に接続します。ネットワークは、重みを設定することによって最終的に一部のニューロンをオフにする可能性がありますが、理想的にはすべてのニューロンが最初にトレーニングされます。

02 エンコーダーとデコーダー

エンコーダーとデコーダーは、おそらくディープラーニングにおける最も基本的なアーキテクチャの 1 つです。すべてのネットワークには、1 つ以上のエンコーダー/デコーダー層があります。完全接続層の隠し層はエンコーダーからのエンコードされた形式と考えることができ、出力層は隠し層をデコードして出力するデコーダーと考えることができます。通常、エンコーダーは入力をベクトルである中間状態にエンコードし、デコーダーネットワークはその中間状態を必要な出力形式にデコードします。

エンコーダー-デコーダーネットワークの標準的な例としては、機械翻訳に使用されるシーケンスツーシーケンス (seq2seq) ネットワーク (図 1.11) があります。文は中間ベクトル表現にエンコードされ、文全体が浮動小数点数の形式で表され、デコーダーは中間ベクトルに基づいてデコードし、出力としてターゲット言語の文を生成します。

▲図1.11 seq2seqネットワーク

オートエンコーダ (図 1.12) は、教師なし学習のカテゴリに属する特殊なタイプのエンコーダ/デコーダネットワークです。オートエンコーダは、ターゲット値を入力値に設定して、ラベルのないデータから学習しようとします。

たとえば、サイズが 100×100 の画像を入力する場合、入力ベクトルの次元は 10,000 になります。したがって、出力のサイズも 10,000 になりますが、隠し層のサイズは 500 になる可能性があります。つまり、入力をより小さな隠し状態表現に変換し、そこから同じ入力を再生成しようとしています。

▲図1.12 オートエンコーダの構造

これを実行できるニューラルネットワークをトレーニングできれば、高次元の入力を低次元のベクトルに変換できる優れた圧縮アルゴリズムが見つかり、桁違いのメリットが得られます。

現在、オートエンコーダーはさまざまなシナリオや業界で幅広く使用されています。

03 リカレントニューラルネットワーク

リカレントニューラルネットワーク (RNN) は、世界中で大人気となっている最も一般的なディープラーニングアルゴリズムの 1 つです。今日の自然言語処理や理解における最先端のパフォーマンスのほとんどは、RNN のバリエーションによるものです。再帰型ネットワークでは、データ内の最小単位を識別し、データをそのような単位のセットにしようとします。

自然言語の例では、最も一般的なアプローチは、単語を単位として扱い、文を処理するときに単語のグループとして扱うことです。 RNN を文全体に展開し、一度に 1 単語ずつ処理します (図 1.13)。 RNN にはさまざまなデータセットで適切に機能するバリエーションがあり、効率に基づいてバリエーションを選択することもあります。 Long Short-Term Memory (LSTM) と Gated Recurrent Unit (GRU) は、最も一般的な RNN ユニットです。

▲図1.13 再帰ネットワークにおける単語のベクトル表現

04 リカレントニューラルネットワーク

名前が示すように、リカレントニューラルネットワークは、シーケンスデータの階層構造を理解するために使用されるツリーのようなネットワークです。リカレントネットワークは、自然言語処理の研究者 (特に Salesforce の主任科学者 Richard Socher と彼のチーム) によって広く使用されています。

単語ベクトルは、単語の意味をベクトル空間に効果的にマッピングできますが、文全体の意味に関しては、word2vec のような単語単位の頼りになるソリューションはありません。リカレントニューラルネットワークは、このタイプのアプリケーションで最も一般的に使用されるアルゴリズムの 1 つです。

再帰ネットワークは、構文解析ツリーや組み合わせベクトルを作成し、その他の階層関係をマッピングすることができます (図 1.14)。これにより、単語を組み合わせて文を形成するためのルールを見つけるのに役立ちます。再帰型ネットワークの応用の良い例として、スタンフォード大学の自然言語推論グループが開発した SNLI と呼ばれる有名でよく使われているアルゴリズムがあります。

▲図1.14 再帰ネットワークにおける単語のベクトル表現

05 畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (CNN) (図 1.15) により、コンピュータービジョンにおいて超人的なパフォーマンスを実現できるようになり、2010 年代初頭には人間レベルの精度に達し、その精度は年々向上し続けています。

畳み込みネットワークは、各層の動作を示す視覚化ツールを備えているため、最も理解しやすいネットワークです。

Facebook AI Research (FAIR) の責任者である Yann LeCun 氏は、1990 年代に CNN を発明しました。当時はデータセットと計算能力が不十分だったため、人々はそれを利用できませんでした。 CNN はスライディングウィンドウのように入力をスキャンして中間表現を生成し、最後に完全に接続された層に到達する前に層ごとに抽象化します。 CNN は画像以外のデータセットにも適用され、成功を収めています。

▲図1.15 典型的なCNN

Facebook の研究チームは、あらゆるシーケンスデータセットに適したアーキテクチャと考えられている RNN よりも優れた性能を持つ、畳み込みニューラルネットワークに基づく高度な自然言語処理システムを発見しました。一部の神経科学者や AI 研究者は CNN を好んでいません (脳は CNN と同じことをしないと考えているため) が、CNN ベースのネットワークは既存のすべてのネットワーク実装を上回っています。

06 生成的敵対ネットワーク

敵対的生成ネットワーク (GAN) は、2014 年に Ian Goodfellow によって発明され、それ以来 AI コミュニティに革命をもたらしました。これは最も単純かつ明白な実装の 1 つですが、その機能は世界中から注目を集めています。 GANの構成を図1.16に示します。

▲図1.16 GANの構成

GAN では、2 つのネットワークが互いに競合し、最終的に、ジェネレーターネットワークはデータを生成できるものの、識別器ネットワークはそれを実際の画像と区別するのが困難になるというバランスに到達します。

現実の例として、警察と偽造者との戦いが挙げられます。偽造者が偽札を作ろうとしており、警察がそれを発見しようとしているとします。当初、偽造者は本物に見える偽造通貨を作成するのに十分な知識を持っていませんでした。時間が経つにつれて、偽造者は本物そっくりの偽造通貨を作る技術を磨いてきました。この時点で、警察は当初偽造紙幣の特定に失敗しましたが、最終的には再び成功しました。

この世代対決のプロセスは、最終的にバランスを形成するでしょう。 GAN には大きな利点があります。

07 強化学習

相互作用を通じた学習は人間の知能の基本であり、強化学習は私たちをこの方向に導くアプローチです。かつて、強化学習は、人間が試行錯誤を通じて学習すると考えられていたまったく異なる分野でした。しかし、ディープラーニングの進歩により、ディープラーニングと強化学習を組み合わせた「深層強化学習」という新たな分野が登場しました。

現代の強化学習では、人間がこれらのルールを明示的にエンコードするのではなく、ディープネットワークを使用して学習を行います。 Q学習とディープQ学習を学習し、ディープラーニングを使用した強化学習とディープラーニングを使用しない強化学習の違いを示します。

強化学習は、コンピューターやエージェントが現実世界、オブジェクト、実験と対話したり、フィードバックを通じて学習する、汎用知能への道の 1 つと考えられています。強化学習エージェントのトレーニングは、正のインセンティブと負のインセンティブを通じて行われる点で、犬のトレーニングとよく似ています。犬がボールを取って来たらクッキーでご褒美を与えたり、ボールを取って来なかったら怒鳴ったりすると、肯定的なご褒美と否定的なご褒美を通して犬の脳内の知識が強化されます。

AIエージェントに対しても同じことを行いますが、正の報酬は正の数になり、負の報酬は負の数になります。強化学習を CNN/RNN に似た別のアーキテクチャとして考えることはできませんが、ここではディープニューラルネットワークを使用して実用的な問題を解決する別の方法として紹介されており、その構成を図 1.17 に示します。

▲図1.17 強化学習の構成

著者について: Sherin Thomas は情報セキュリティの専門家としてキャリアをスタートし、その後、ディープラーニングベースのセキュリティシステムに重点を移しました。彼は世界中の企業で AI プロセスの構築に携わり、インドのバンガロールにある急成長中のスタートアップ企業 CoWrks で働いていました。

Sudhanshu Passi は CoWrks のテクニカルエキスパートです。 CoWrks では、機械学習に関連するあらゆるものの原動力となってきました。複雑な概念を簡素化する彼の専門知識により、彼の本は初心者にも専門家にも理想的な読み物となっています。

この記事は「PyTorch Deep Learning Practice」から抜粋したもので、出版社の許可を得ています。

<<: マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

>>: 3D多言語AIレポーターが登場。プレッシャーを感じることなく文章を書いたり翻訳したりできるだけでなく、国際的なスポーツイベントのレポートもできます。