新しいニューラルネットワークモデルが登場：生成的敵対ネットワークよりも優れている

ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場しています。パデュー大学 e-Lab の 3 人の研究者、Alfredo Canziani、Abishek Chaurasia、Eugenio Culurciello は最近、Medium に記事を掲載し、ビデオ分析における教師なし学習、セグメンテーション、シーン分析、ポジショニング、時空間表現、ビデオ予測、表現予測、オンライン学習の機能を備え、現在人気の高い敵対的生成ネットワーク (GAN) よりも多くの点で優れている新しいタイプのディープニューラルネットワークについて説明しました。

新しい世代のディープニューラルネットワークが登場しています。これらは、私たちが以前に詳細に分析したフィードフォワードモデルから進化したものです。記事「ニューラルネットワークアーキテクチャの進化の歴史: LeNet5 から ENet までの 10 を超えるアーキテクチャの包括的なレビュー (論文付き)」または更新バージョンを参照してください: https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba

この新しいタイプのニューラルネットワークは、LeNet5/AlexNet とそのバリエーションのオリジナルのフィードフォワードモデルから進化したもので、ResNet/Inception よりも複雑なバイパススキームを備えています。これらのフィードフォワードニューラルネットワークは、画像を圧縮して小さな表現ベクトルにエンコードするため、エンコーダーとも呼ばれます。

新世代のニューラルネットワークには、次の 2 つの重要な新機能があります。

生成枝: 表現ベクトルを入力空間に投影するためデコーダーとも呼ばれる
リカレントレイヤー：前のタイムステップの表現と現在のタイムステップの入力および表現を組み合わせます。

素晴らしい！しかし、この追加の複雑さによって何が得られるのでしょうか?

これは、従来のフィードフォワードニューラルネットワークには多くの制限があることを証明しています。

不完全なローカリゼーション: 上位レイヤーでのダウンサンプリングと空間解像度の損失により、特徴/オブジェクト/カテゴリのローカリゼーションが制限されます。
シーンについて推論することはできません。画像を短い表現コードに圧縮することで、画像の構成や画像またはシーンの各部分の空間配置に関する情報が失われます。
時間的に不安定: 静止画像を使用してトレーニングされるため、オブジェクトが空間内を移動するときにスムーズな時空間変換を学習できません。これらは、一部の（すべてではない）画像内のオブジェクトの種類を識別でき、敵対的なノイズや摂動に対して非常に敏感です。
予測的ではない: 時間情報を使用するため、フィードフォワードニューラルネットワークは、現在の入力のみに基づいて各フレームで新しい表現コードを提供しますが、次の数フレームで何が起こるかを予測しません (注: 一部の例外を除き、ビデオではトレーニングされません)。

これらの制限を克服するには、学習した表現を入力画像空間に投影し直し、時間的に一貫した画像シーケンスでトレーニングできる新世代のニューラルネットワークが必要です。つまり、ビデオでトレーニングする必要があります。

新世代のニューラルネットワークの高レベルな機能は次のとおりです。

教師なし学習 - 将来のフレームや表現を予測するためにビデオで事前トレーニングできるため、特定のタスクのトレーニングと実行に必要なラベル付きデータが少なくなります。

セグメンテーション - 画像内のさまざまなオブジェクトをセグメント化する
シーン解析 - セグメンテーション後、データセットに各ピクセルのオブジェクトラベルがある場合、自動運転や拡張現実に使用されます。
ローカリゼーション - セグメンテーションと完璧なオブジェクト境界の後、すべてのシーン解析とセグメンテーションネットワークはこれを実行できます。
時空間表現 - 時間と時間的関係の概念を理解するために、静止画像だけでなくビデオをトレーニングに使用する
ビデオ予測 - 一部のネットワークはビデオ内の将来のフレームを予測するように設計されています
表現予測 - 一部のネットワークはビデオ内の将来のフレームの表現を予測できる
オンライン学習機能 - 予測と実際の将来のフレームまたは表現との間のエラー信号を監視することにより

それでは、これらの新しいネットワークの詳細と実装を見ていきましょう。

生成ラダーネットワーク

これらのモデルは、エンコーダーとデコーダーのペアを使用して、画像をさまざまな部分とオブジェクトに分割します。例としては、ENet、SegNet、Unet、DenseNet、Ladder Nets などがあります。

ENet: https://arxiv.org/abs/1606.02147
セグネット: https://arxiv.org/abs/1511.00561
ネット: https://arxiv.org/abs/1505.04597
デンスネット: https://arxiv.org/abs/1611.09326
ラダーネットワーク: https://arxiv.org/abs/1507.02672

以下は典型的な 3 層モデルです。

D モジュールは標準のフィードフォワードレイヤーです。 G モジュールは生成モジュールであり、標準のフィードフォワードレイヤーに似ていますが、デコンボリューションとアップサンプリング機能を備えています。また、残差型接続「res」を使用して、各エンコード層の表現をデコード層の表現に接続します。これにより、生成されたレイヤーの表現がフィードフォワード表現によってモジュール化されるようになり、シーンをオブジェクトやパーツにローカライズして解析する能力が強化されます。「x」は入力画像で、「y」は同じ時間ステップでの出力セグメンテーションです。

これらのネットワークは、セグメンテーション、シーン解析、正確な位置特定を実行できますが、時間領域で動作することはできず、過去のフレームの記憶がありません。

各レイヤーでの最近のエンコーダーからデコーダーへのバイパスにより、これらのネットワークは最先端のパフォーマンスを実現できるようになりました。

再帰的および生成的ラダーネットワーク

これは、生成ラダーネットワークに再帰を追加して、再帰および生成ラダーネットワーク (REGEL) を形成する最新のディープニューラルネットワークの 1 つです。 REGEL は、少なくとも画像分析の分野では、これまでに作成された最も複雑なディープニューラルネットワークの 1 つです。

以下は、私たちが使用している REGEL の 3 層モデルです。

D モジュールと G モジュールは、実際には、上で説明した生成ラダーネットワークのモジュールと同じです。ネットワークは、同じレイヤー内の各 G モジュールから各 D モジュールへの再帰パス「t-1」を追加します。

ネットワークは、ビデオ x[t] からのフレームのシーケンスを入力として受け取り、各タイムステップでビデオの次のフレーム y[t+1] を予測します。予測が正確であれば、y[t+1] は x[t+1] に近くなります。

ネットワークは予測と実際の次のフレームの間の誤差を測定できるため、入力を予測するタイミングとしないタイミングを認識できます。そうでない場合は、フィードフォワードニューラルネットワークでは不可能な増分学習が可能になります。したがって、ネットワークは本質的にオンライン学習を実行できます。

これは機械学習の非常に重要な特性であり、予測ニューラルネットワークに備わった自然な才能だと私たちは考えています。この特性がなければ、ネットワークは真の予測信頼信号を提供できず、効果的な増分学習を実行できません。

これらのネットワークはまだ研究中です。私たちのアドバイス：彼らを見続けてください！

予測コーディングネットワーク - パート 1

再帰生成ネットワークは、可能な予測モデルです。代替案として、予測コーディング計算神経科学モデルは予測機能を提供し、階層型ディープニューラルネットワークにすることができます。

2 層モデルの図を以下に示します。

Rao と Ballard の Nature Neuroscience 論文「視覚皮質における予測コーディング: いくつかの超古典的受容野効果の機能的解釈」と Friston の実装論文「予測コーディングのための標準的なマイクロ回路」のモデルはどちらも、A モジュール (上記のラダーネットワークの D モジュールに類似) と R/Ay モジュール (上記のラダーネットワークの G モジュールに類似) 間の各レイヤーのエラー e を計算します。この誤差 e は、ネットワークが各レイヤーでの表現を予測する能力を表します。エラー e は次のレイヤーへの入力として送信されます。 R は畳み込み RNN/LSTM モジュールであり、Ay は A モジュールに似ています。 R と Ay は単一の再帰モジュールに組み合わせることができます。最初のレイヤーでは、x は入力フレームです。

このモデルの問題は、ネットワークが標準的なフィードフォワードニューラルネットワークとは大きく異なることです。これらの予測ネットワークは、下位レベルの特徴を組み合わせた上位レベルの表現の階層を作成するのではなく、前のレイヤーの残差エラーの表現を計算します。

したがって、これは残差フィードフォワードネットワークを彷彿とさせますが、実際には、これらのネットワークにエラーを強制的に前方に伝播させると、上位層で効果的な階層表現を学習できなくなります。したがって、高レベルの表現に基づく分類、セグメンテーション、アクション認識などの他のタスクを効果的に実行することはできません。これらの制限を明らかにするには、さらなる実験が必要です。

このモデルは Bill Lotter と David Cox によって実装されました。PredNet を参照してください: https://coxlab.github.io/prednet/

予測コーディングネットワーク - パート 2

Spratling 予測コーディングモデルは、以前の Friston モデルのようにエラー e を投影するのではなく、表現 y を上位レイヤーに投影します。これにより、ネットワークは階層型フィードフォワードディープニューラルネットワークとの互換性が向上し、上位層でのエラーの学習モーメントも回避されます。

2 層モデルの図を以下に示します。

基本的に、このモデルは、前述のループ生成ラダーモデルに書き直して簡略化できます。これは、R と Ay を 1 つのループモジュールに組み合わせることができるためです。

生成的敵対ネットワークとの関係

敵対的生成ネットワーク (GAN) は、データ分布からサンプルを生成することを学習できる非常に人気のあるモデルです。ここで提案された新しいネットワークモデルは、次の理由から GAN よりも優れています。

これらはミニマックスゲーム方式でトレーニングされるのではなく、有用なタスクで直接トレーニングされるため、識別器とジェネレーターの両方が直接役立ちます。
入力の有用な表現を作成する方法と、新しい入力を生成する方法を学ぶことができます。
入力に基づいてターゲットデータを生成する方法を学習できます。
ジェネレータネットワークとディスクリミネーターネットワークは緊密に結合されており、収束の問題が排除されます。
そのジェネレーターは、ほぼ完璧なリアリズムの写真サンプルを提供できます (下記参照)。比較すると、GAN の結果はそれほど良くありません。

REGEL ネットワークの予測力の例 - 左: 現在のフレーム、中央: 次の実際のフレーム、予測された次のフレーム

その他のモデル

REGEL のようなモデルは、Pixel リカレントネットワークとその多くの実装 (PixelCNN、Pixel CNN++、WaveNet など) を彷彿とさせます。これらのモデルの目的は、入力データの分布をモデル化することです。（「私たちの目標は、自然画像の分布を推定し、それを使用してデータの尤度を扱いやすく計算し、新しいデータを生成することです。」）彼らは新しい現実的なデータサンプルを生成することのみに焦点を当てていますが、現実世界のタスクの表現を学習する能力はまだ実証されていません。そして、これらのモデルの推論速度も非常に遅いです。

ピクセルリカレントネットワーク: https://arxiv.org/abs/1601.06759
ピクセルCNN: https://arxiv.org/abs/1606.05328
ピクセル CNN++: https://openreview.net/pdf?id=BJrFC6ceg
ウェーブネット: https://deepmind.com/blog/wavenet-generative-model-raw-audio/
その他: http://ruotianluo.github.io/2017/01/11/pixelcnn-wavenet/

要約する

これらの新しいネットワークはまだ研究と評価の段階にあります。たとえば、最近の PredNet 論文 (https://arxiv.org/abs/1605.08104) では、予測コーディングネットワークとラダーネットワークの比較が行われており、一部のタスクでは PredNet の方がパフォーマンスが優れていることが示されています。 PredNet は、高レベルの表現を使用してターゲットを絞った顔の分類を実行するために使用できます。 1 つのデータセットでステアリング角度を予測することも可能ですが、ほとんどの場合、ネットワークの最初のレイヤーからの単純なアクションフィルターが使用されます。このタスクでは、機能の階層的分解は必要ありません。

<<: 機械学習決定木アルゴリズム学習ノート

>>: 人工知能が「夢」を持つとき、人間はどう反応すべきか？