ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(ANN)の一種で、ディープラーニングの分野に属します。その機能は、入力情報を学習対象として、入力情報を表現し学習することです。圧縮や次元削減、スタイル転送、外れ値検出などによく使用されます。画像の場合、画像のデータ分布情報をコードとして効率的に表現できますが、その次元とデータ情報は一般に入力データよりもはるかに小さく、強力な特徴抽出器として使用でき、ディープニューラルネットワークの事前トレーニングに適しています。また、トレーニングデータに類似したデータをランダムに生成して、元のデータの重要な情報を効率的に表現することもできます。そのため、通常は生成モデルと見なされます。

ディープラーニングの発展において、ノイズ除去オートエンコーダーの進化、変分オートエンコーダー(DAE)、変分オートエンコーダー(VAE)、そして最後に分離変分オートエンコーダーなど、オートエンコーダーの多くの変種が登場しました。時代の発展とともに、将来的にはより優れたモデルが登場しますが、数学的な観点から見たその原理は、入力空間と特徴空間から始まります。オートエンコーダーは、2つの間のマッピングの類似性エラーを解決し、次の式を通じてそれを最小化します。

解法が完了すると、オートエンコーダは計算された特徴 h、つまりエンコード特徴を出力します。ただし、オートエンコード操作中に、ある程度のランダム性が混入しやすく、式ではガウスノイズとしてマークされています。エンコーダの出力は、次のデコーダの入力特徴として使用され、最終的に生成されたデータ分布情報が得られます。

変分オートエンコーダ (VAE) を例にしたシンプルなアーキテクチャを以下に示します。

次に、論理的な順序に従って1つずつ紹介します。

1. オートエンコーダ(AE):

オートエンコーダは 2 つの部分に分かれています。最初の部分はエンコーダで、通常は入力データをベクトルに圧縮して低次元に変換する多層ネットワークです。このベクトルはボトルネックと呼ばれます。 2 番目の部分はデコーダーで、ボトルネックが入力されてデータを出力します。これを入力データの再構築と呼びます。私たちの目標は、圧縮と復元の効果を実現するために、再構築されたデータを元のデータと同じにすることです。損失関数は、再構築されたデータと元のデータ間の距離を最小化するものです。損失関数は図 3 を参照します。

次の図は、一度に1つの浅いオートエンコーダをトレーニングする様子を示しています。

まず、最初のオートエンコーダーは入力を再構築することを学習します。次に、2 番目のオートエンコーダは、最初のオートエンコーダの隠し層の出力を再構築することを学習します。最後に、2 つのオートエンコーダが統合されます。デメリット: 低次元のボトルネックにより、多くの有用な情報が失われ、再構築されたデータはあまり良くありません。

2. ノイズ除去オートエンコーダ(DAE)

ここで話したいのは、きれいな画像を取得し、それがきれいな元の minst データ セットであると想像し、この時点で元のきれいな画像セットに大量のノイズを追加し、それをエンコーダーに送り、それをきれいな画像セットに復元し、AE と同じ方法でトレーニングし、得られたネットワーク モデルが DAE であるということです。

上の図に示すように、ノイズ除去エンコーダーは通常、初期入力にノイズを追加し、トレーニング後にノイズのない出力を取得します。これにより、オートエンコーダが入力を単純に出力にコピーすることがなくなり、データ内の有用なパターンが抽出されます。ノイズは、図 6 の左側でガウス ノイズを追加するか、図 6 の右側でドロップアウトを介してフィーチャのレイヤーを直接破棄することによって追加できます。

3. 変分オートエンコーダVAE

VAE と AE と DAE の違いは、元のエンコーダーは 1 つのベクトルにマッピングされていましたが、現在は 2 つのベクトルにマッピングされ、1 つのベクトルは分布の平均値を表し、もう 1 つのベクトルは分布の標準偏差を表すことです。両方のベクトルは同じ正規分布を持ちます。次に、2 つのベクトルからそれぞれサンプルを抽出し、サンプル データをデコーダーに入力します。したがって、損失関数は次のようになります。

損失関数の最初の部分は他のオートエンコーダ関数と同様に再構成損失であり、2 番目の部分は KL ダイバージェンスです。 KL ダイバージェンスは 2 つの異なる分布間の差を測定し、常に非負であるという重要な特性を持ちます。 2 つの分布がまったく同じ場合のみ、これは 0 になります。したがって、後半部分の役割は、ボトルネックの 2 つのベクトルが正規分布になるように制御することです。 (平均は0、標準偏差は1)。ここで質問ですが、2 つの分布からデータをサンプリングするときに BP を実行するにはどうすればよいでしょうか?そこで、再パラメータ化トリックと呼ばれるトリックがあります。順方向伝播中に、上記の式で z を取得します。BP 中に、ニューラル ネットワークに μ と σ を適合させます。一般的に、バッチ正規化の γ と β のように、見つけるのが難しいパラメーターをニューラル ネットワークに投げるだけです。欠点は、効果がまだ比較的曖昧であることです。

4. 分離変分オートエンコーダ

ボトルネックのベクトル、つまり低次元ベクトルが、エンコード処理で有用な次元を保持し、役に立たない次元を正規分布のノイズに置き換えることを期待します。これは、異なる次元の特徴を学習することとして理解できますが、これらの特徴は良い場合も悪い場合もあります。この目標を達成するには、損失関数に β を追加するだけです。

最後の実験では、VAE が画像を再構成するときに、<長さ、幅、サイズ、角度> の 4 つの値が混乱しているのに対し、分離された変分オートエンコーダはそれらをより明確に表示でき、最終的に生成される画像はより鮮明でクリアであることが示されました。これまで、オートエンコーダからノイズ除去オートエンコーダ、変分オートエンコーダ、分離変分オートエンコーダまでのプロセスを非常にシンプルかつ明確な方法で紹介してきました。

<<:  リアルタイムスタイル転送、モバイル端末で実行、顔エフェクトで遊ぶ新しい方法

>>:  ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

ブログ    
ブログ    

推薦する

2021 年にセキュリティ ビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...

AIによる労働者排除の進捗が発表され、真っ先に影響を受けるのは女性、アジア人、ホワイトカラー労働者!誰も免れることはできない

AI革命の波が押し寄せる中、労働者は最前線に立つことができるのか、それとも無慈悲に打ちのめされるのか...

...

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

1月21日、公安部交通管理科学研究所は、工業情報化部、公安部、江蘇省人民政府が共同で建設する「国家イ...

ChatGPT、画像や動画コンテンツを生成するCanvaプラグインをリリース

9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...

コード生成のためのツリーベースのTransformerアーキテクチャ

導入:コード生成は、プログラマーの生産性を大幅に向上させる可能性を秘めた重要な AI 問題です。自然...

...

Wi-Fi の AI がワイヤレス接続をどのように形作るか

2023年までに、おそらく人工知能ほど普及するテクノロジーはなくなるでしょう。生成型 AI の爆発的...

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

COVID-19が世界を席巻したとき、人工知能はなぜ大きな空白を埋めることができるのか?教育、セキュ...

ガートナーのJi Xinsu氏:AI大手モデルメーカーは今後集中化され、企業が独自に構築するのは経済的ではない

10月11日ニュース(南山)ガートナーは今年7月、「中国ICTハイプサイクル2023」レポートを発表...

人工知能のトレンドは将来的に急速な変化をもたらす

私たちはよく、「未来はどうなるのだろう?」と考えます。もっと正確に言えば、人類の未来はどのように発展...

人工知能をより深く理解するための人工知能と機械学習の12のキーワード

[[260979]]人工知能(AI)技術があらゆる分野にますます大きな影響を及ぼすようになるにつれ、...

注目すべき中国の創造物:ユビキタス人工知能が夢を現実にする

人工知能はどこから来たのでしょうか? 人工知能は人類をどこへ連れて行くのでしょうか? 人工知能は「見...

...