ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(ANN)の一種で、ディープラーニングの分野に属します。その機能は、入力情報を学習対象として、入力情報を表現し学習することです。圧縮や次元削減、スタイル転送、外れ値検出などによく使用されます。画像の場合、画像のデータ分布情報をコードとして効率的に表現できますが、その次元とデータ情報は一般に入力データよりもはるかに小さく、強力な特徴抽出器として使用でき、ディープニューラルネットワークの事前トレーニングに適しています。また、トレーニングデータに類似したデータをランダムに生成して、元のデータの重要な情報を効率的に表現することもできます。そのため、通常は生成モデルと見なされます。

ディープラーニングの発展において、ノイズ除去オートエンコーダーの進化、変分オートエンコーダー(DAE)、変分オートエンコーダー(VAE)、そして最後に分離変分オートエンコーダーなど、オートエンコーダーの多くの変種が登場しました。時代の発展とともに、将来的にはより優れたモデルが登場しますが、数学的な観点から見たその原理は、入力空間と特徴空間から始まります。オートエンコーダーは、2つの間のマッピングの類似性エラーを解決し、次の式を通じてそれを最小化します。

解法が完了すると、オートエンコーダは計算された特徴 h、つまりエンコード特徴を出力します。ただし、オートエンコード操作中に、ある程度のランダム性が混入しやすく、式ではガウスノイズとしてマークされています。エンコーダの出力は、次のデコーダの入力特徴として使用され、最終的に生成されたデータ分布情報が得られます。

変分オートエンコーダ (VAE) を例にしたシンプルなアーキテクチャを以下に示します。

次に、論理的な順序に従って1つずつ紹介します。

1. オートエンコーダ(AE):

オートエンコーダは 2 つの部分に分かれています。最初の部分はエンコーダで、通常は入力データをベクトルに圧縮して低次元に変換する多層ネットワークです。このベクトルはボトルネックと呼ばれます。 2 番目の部分はデコーダーで、ボトルネックが入力されてデータを出力します。これを入力データの再構築と呼びます。私たちの目標は、圧縮と復元の効果を実現するために、再構築されたデータを元のデータと同じにすることです。損失関数は、再構築されたデータと元のデータ間の距離を最小化するものです。損失関数は図 3 を参照します。

次の図は、一度に1つの浅いオートエンコーダをトレーニングする様子を示しています。

まず、最初のオートエンコーダーは入力を再構築することを学習します。次に、2 番目のオートエンコーダは、最初のオートエンコーダの隠し層の出力を再構築することを学習します。最後に、2 つのオートエンコーダが統合されます。デメリット: 低次元のボトルネックにより、多くの有用な情報が失われ、再構築されたデータはあまり良くありません。

2. ノイズ除去オートエンコーダ(DAE)

ここで話したいのは、きれいな画像を取得し、それがきれいな元の minst データ セットであると想像し、この時点で元のきれいな画像セットに大量のノイズを追加し、それをエンコーダーに送り、それをきれいな画像セットに復元し、AE と同じ方法でトレーニングし、得られたネットワーク モデルが DAE であるということです。

上の図に示すように、ノイズ除去エンコーダーは通常、初期入力にノイズを追加し、トレーニング後にノイズのない出力を取得します。これにより、オートエンコーダが入力を単純に出力にコピーすることがなくなり、データ内の有用なパターンが抽出されます。ノイズは、図 6 の左側でガウス ノイズを追加するか、図 6 の右側でドロップアウトを介してフィーチャのレイヤーを直接破棄することによって追加できます。

3. 変分オートエンコーダVAE

VAE と AE と DAE の違いは、元のエンコーダーは 1 つのベクトルにマッピングされていましたが、現在は 2 つのベクトルにマッピングされ、1 つのベクトルは分布の平均値を表し、もう 1 つのベクトルは分布の標準偏差を表すことです。両方のベクトルは同じ正規分布を持ちます。次に、2 つのベクトルからそれぞれサンプルを抽出し、サンプル データをデコーダーに入力します。したがって、損失関数は次のようになります。

損失関数の最初の部分は他のオートエンコーダ関数と同様に再構成損失であり、2 番目の部分は KL ダイバージェンスです。 KL ダイバージェンスは 2 つの異なる分布間の差を測定し、常に非負であるという重要な特性を持ちます。 2 つの分布がまったく同じ場合のみ、これは 0 になります。したがって、後半部分の役割は、ボトルネックの 2 つのベクトルが正規分布になるように制御することです。 (平均は0、標準偏差は1)。ここで質問ですが、2 つの分布からデータをサンプリングするときに BP を実行するにはどうすればよいでしょうか?そこで、再パラメータ化トリックと呼ばれるトリックがあります。順方向伝播中に、上記の式で z を取得します。BP 中に、ニューラル ネットワークに μ と σ を適合させます。一般的に、バッチ正規化の γ と β のように、見つけるのが難しいパラメーターをニューラル ネットワークに投げるだけです。欠点は、効果がまだ比較的曖昧であることです。

4. 分離変分オートエンコーダ

ボトルネックのベクトル、つまり低次元ベクトルが、エンコード処理で有用な次元を保持し、役に立たない次元を正規分布のノイズに置き換えることを期待します。これは、異なる次元の特徴を学習することとして理解できますが、これらの特徴は良い場合も悪い場合もあります。この目標を達成するには、損失関数に β を追加するだけです。

最後の実験では、VAE が画像を再構成するときに、<長さ、幅、サイズ、角度> の 4 つの値が混乱しているのに対し、分離された変分オートエンコーダはそれらをより明確に表示でき、最終的に生成される画像はより鮮明でクリアであることが示されました。これまで、オートエンコーダからノイズ除去オートエンコーダ、変分オートエンコーダ、分離変分オートエンコーダまでのプロセスを非常にシンプルかつ明確な方法で紹介してきました。

<<:  アルゴリズムがバグをキャッチ:ディープラーニングとコンピュータービジョンが昆虫学を変える

>>:  ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能を使ってエッセイを採点するのは信頼できると思いますか?

現在、5Gは世界的な注目を集めていますが、人工知能の開発は依然として力強いままです。各分野における技...

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

ロボットはどのようにして経路を計画するのでしょうか?アニメーションを見てみましょう

機械の進路をたどって見てみましょう。 [[351870]]ロボット研究の分野では、特定のタスクが与え...

...

...

AIがコロナホールを発見し宇宙天気予報を自動化

オーストリアのグラーツ大学、スコルテック社、そして米国とドイツの科学者らは、宇宙からの観測からコロナ...

2020 年の RPA の 7 つの主要トレンド: AI の有効化からより戦略的な拡張まで

ロボティック プロセス オートメーション (RPA) サービス プロバイダーである Blue Pri...

NvidiaはAIでの成功を量子コンピューティングに応用しようとしている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

石油探査のための AI: 石油産業のデジタル変革に向けた新しい考え方

石油は産業の血液であるだけでなく、私たちの日常生活にも深く関わっていることは周知の事実です。統計によ...

AIと5Gが次のイノベーションの波をどう推進するか

[[427625]]今後10年間で、人工知能はあらゆる産業を変えると予想されており、その変化のきっか...

5G、Wi-Fi 6、AIがいかにしてよりスマートなホームエクスペリエンスを実現するか

[[335277]]家全体のスマートホームライフが実現するまでには、まだ時間がかかりそうですが、スマ...

...

率直に言って、2018年に私たちが耐えなければならないかもしれない人工知能の暗い側面

18歳の時に撮った写真が様々な賞賛を浴びる中、また新たな年を迎えました。 [[215597]]本来な...

...