新しいニューラルネットワークモデルが登場:生成的敵対ネットワークよりも優れている

新しいニューラルネットワークモデルが登場:生成的敵対ネットワークよりも優れている

ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場しています。パデュー大学 e-Lab の 3 人の研究者、Alfredo Canziani、Abishek Chaurasia、Eugenio Culurciello は最近、Medium に記事を掲載し、ビデオ分析における教師なし学習、セグメンテーション、シーン分析、ポジショニング、時空間表現、ビデオ予測、表現予測、オンライン学習の機能を備え、現在人気の高い敵対的生成ネットワーク (GAN) よりも多くの点で優れている新しいタイプのディープ ニューラル ネットワークについて説明しました。

新しい世代のディープニューラルネットワークが登場しています。これらは、私たちが以前に詳細に分析したフィードフォワード モデルから進化したものです。記事「ニューラル ネットワーク アーキテクチャの進化の歴史: LeNet5 から ENet までの 10 を超えるアーキテクチャの包括的なレビュー (論文付き)」または更新バージョンを参照してください: https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba

この新しいタイプのニューラル ネットワークは、LeNet5/AlexNet とそのバリエーションのオリジナルのフィードフォワード モデルから進化したもので、ResNet/Inception よりも複雑なバイパス スキームを備えています。これらのフィードフォワード ニューラル ネットワークは、画像を圧縮して小さな表現ベクトルにエンコードするため、エンコーダーとも呼ばれます。

新世代のニューラル ネットワークには、次の 2 つの重要な新機能があります。

  • 生成枝: 表現ベクトルを入力空間に投影するためデコーダーとも呼ばれる
  • リカレントレイヤー:前のタイムステップの表現と現在のタイムステップの入力および表現を組み合わせます。

素晴らしい!しかし、この追加の複雑さによって何が得られるのでしょうか?

これは、従来のフィードフォワード ニューラル ネットワークには多くの制限があることを証明しています。

  1. 不完全なローカリゼーション: 上位レイヤーでのダウンサンプリングと空間解像度の損失により、特徴/オブジェクト/カテゴリのローカリゼーションが制限されます。
  2. シーンについて推論することはできません。画像を短い表現コードに圧縮することで、画像の構成や画像またはシーンの各部分の空間配置に関する情報が失われます。
  3. 時間的に不安定: 静止画像を使用してトレーニングされるため、オブジェクトが空間内を移動するときにスムーズな時空間変換を学習できません。これらは、一部の(すべてではない)画像内のオブジェクトの種類を識別でき、敵対的なノイズや摂動に対して非常に敏感です。
  4. 予測的ではない: 時間情報を使用するため、フィードフォワード ニューラル ネットワークは、現在の入力のみに基づいて各フレームで新しい表現コードを提供しますが、次の数フレームで何が起こるかを予測しません (注: 一部の例外を除き、ビデオではトレーニングされません)。

これらの制限を克服するには、学習した表現を入力画像空間に投影し直し、時間的に一貫した画像シーケンスでトレーニングできる新世代のニューラル ネットワークが必要です。つまり、ビデオでトレーニングする必要があります。

新世代のニューラル ネットワークの高レベルな機能は次のとおりです。

教師なし学習 - 将来のフレームや表現を予測するためにビデオで事前トレーニングできるため、特定のタスクのトレーニングと実行に必要なラベル付きデータが少なくなります。

  • セグメンテーション - 画像内のさまざまなオブジェクトをセグメント化する
  • シーン解析 - セグメンテーション後、データセットに各ピクセルのオブジェクトラベルがある場合、自動運転や拡張現実に使用されます。
  • ローカリゼーション - セグメンテーションと完璧なオブジェクト境界の後、すべてのシーン解析とセグメンテーションネットワークはこれを実行できます。
  • 時空間表現 - 時間と時間的関係の概念を理解するために、静止画像だけでなくビデオをトレーニングに使用する
  • ビデオ予測 - 一部のネットワークはビデオ内の将来のフレームを予測するように設計されています
  • 表現予測 - 一部のネットワークはビデオ内の将来のフレームの表現を予測できる
  • オンライン学習機能 - 予測と実際の将来のフレームまたは表現との間のエラー信号を監視することにより

それでは、これらの新しいネットワークの詳細と実装を見ていきましょう。

生成ラダーネットワーク

これらのモデルは、エンコーダーとデコーダーのペアを使用して、画像をさまざまな部分とオブジェクトに分割します。例としては、ENet、SegNet、Unet、DenseNet、Ladder Nets などがあります。

  • ENet: https://arxiv.org/abs/1606.02147
  • セグネット: https://arxiv.org/abs/1511.00561
  • ネット: https://arxiv.org/abs/1505.04597
  • デンスネット: https://arxiv.org/abs/1611.09326
  • ラダーネットワーク: https://arxiv.org/abs/1507.02672

以下は典型的な 3 層モデルです。

D モジュールは標準のフィードフォワード レイヤーです。 G モジュールは生成モジュールであり、標準のフィードフォワード レイヤーに似ていますが、デコンボリューションとアップサンプリング機能を備えています。また、残差型接続「res」を使用して、各エンコード層の表現をデコード層の表現に接続します。これにより、生成されたレイヤーの表現がフィードフォワード表現によってモジュール化されるようになり、シーンをオブジェクトやパーツにローカライズして解析する能力が強化されます。 「x」は入力画像で、「y」は同じ時間ステップでの出力セグメンテーションです。

これらのネットワークは、セグメンテーション、シーン解析、正確な位置特定を実行できますが、時間領域で動作することはできず、過去のフレームの記憶がありません。

各レイヤーでの最近のエンコーダーからデコーダーへのバイパスにより、これらのネットワークは最先端のパフォーマンスを実現できるようになりました。

再帰的および生成的ラダーネットワーク

これは、生成ラダー ネットワークに再帰を追加して、再帰および生成ラダー ネットワーク (REGEL) を形成する最新のディープ ニューラル ネットワークの 1 つです。 REGEL は、少なくとも画像分析の分野では、これまでに作成された最も複雑なディープ ニューラル ネットワークの 1 つです。

以下は、私たちが使用している REGEL の 3 層モデルです。

D モジュールと G モジュールは、実際には、上で説明した生成ラダー ネットワークのモジュールと同じです。ネットワークは、同じレイヤー内の各 G モジュールから各 D モジュールへの再帰パス「t-1」を追加します。

ネットワークは、ビデオ x[t] からのフレームのシーケンスを入力として受け取り、各タイムステップでビデオの次のフレーム y[t+1] を予測します。予測が正確であれば、y[t+1] は x[t+1] に近くなります。

ネットワークは予測と実際の次のフレームの間の誤差を測定できるため、入力を予測するタイミングとしないタイミングを認識できます。そうでない場合は、フィードフォワード ニューラル ネットワークでは不可能な増分学習が可能になります。したがって、ネットワークは本質的にオンライン学習を実行できます。

これは機械学習の非常に重要な特性であり、予測ニューラル ネットワークに備わった自然な才能だと私たちは考えています。この特性がなければ、ネットワークは真の予測信頼信号を提供できず、効果的な増分学習を実行できません。

これらのネットワークはまだ研究中です。私たちのアドバイス:彼らを見続けてください!

予測コーディングネットワーク - パート 1

再帰生成ネットワークは、可能な予測モデルです。代替案として、予測コーディング計算神経科学モデルは予測機能を提供し、階層型ディープニューラルネットワークにすることができます。

2 層モデルの図を以下に示します。

Rao と Ballard の Nature Neuroscience 論文「視覚皮質における予測コーディング: いくつかの超古典的受容野効果の機能的解釈」と Friston の実装論文「予測コーディングのための標準的なマイクロ回路」のモデルはどちらも、A モジュール (上記のラダー ネットワークの D モジュールに類似) と R/Ay モジュール (上記のラダー ネットワークの G モジュールに類似) 間の各レイヤーのエラー e を計算します。この誤差 e は、ネットワークが各レイヤーでの表現を予測する能力を表します。エラー e は次のレイヤーへの入力として送信されます。 R は畳み込み RNN/LSTM モジュールであり、Ay は A モジュールに似ています。 R と Ay は単一の再帰モジュールに組み合わせることができます。最初のレイヤーでは、x は入力フレームです。

このモデルの問題は、ネットワークが標準的なフィードフォワード ニューラル ネットワークとは大きく異なることです。これらの予測ネットワークは、下位レベルの特徴を組み合わせた上位レベルの表現の階層を作成するのではなく、前のレイヤーの残差エラーの表現を計算します。

したがって、これは残差フィードフォワードネットワークを彷彿とさせますが、実際には、これらのネットワークにエラーを強制的に前方に伝播させると、上位層で効果的な階層表現を学習できなくなります。したがって、高レベルの表現に基づく分類、セグメンテーション、アクション認識などの他のタスクを効果的に実行することはできません。これらの制限を明らかにするには、さらなる実験が必要です。

このモデルは Bill Lotter と David Cox によって実装されました。PredNet を参照してください: https://coxlab.github.io/prednet/

予測コーディング ネットワーク - パート 2

Spratling 予測コーディング モデルは、以前の Friston モデルのようにエラー e を投影するのではなく、表現 y を上位レイヤーに投影します。これにより、ネットワークは階層型フィードフォワードディープニューラルネットワークとの互換性が向上し、上位層でのエラーの学習モーメントも回避されます。

2 層モデルの図を以下に示します。

基本的に、このモデルは、前述のループ生成ラダー モデルに書き直して簡略化できます。これは、R と Ay を 1 つのループ モジュールに組み合わせることができるためです。

生成的敵対ネットワークとの関係

敵対的生成ネットワーク (GAN) は、データ分布からサンプルを生成することを学習できる非常に人気のあるモデルです。ここで提案された新しいネットワーク モデルは、次の理由から GAN よりも優れています。

  • これらはミニマックス ゲーム方式でトレーニングされるのではなく、有用なタスクで直接トレーニングされるため、識別器とジェネレーターの両方が直接役立ちます。
  • 入力の有用な表現を作成する方法と、新しい入力を生成する方法を学ぶことができます。
  • 入力に基づいてターゲットデータを生成する方法を学習できます。
  • ジェネレータ ネットワークとディスクリミネーター ネットワークは緊密に結合されており、収束の問題が排除されます。
  • そのジェネレーターは、ほぼ完璧なリアリズムの写真サンプルを提供できます (下記参照)。比較すると、GAN の結果はそれほど良くありません。

REGEL ネットワークの予測力の例 - 左: 現在のフレーム、中央: 次の実際のフレーム、予測された次のフレーム

その他のモデル

REGEL のようなモデルは、Pixel リカレント ネットワークとその多くの実装 (PixelCNN、Pixel CNN++、WaveNet など) を彷彿とさせます。これらのモデルの目的は、入力データの分布をモデル化することです。 (「私たちの目標は、自然画像の分布を推定し、それを使用してデータの尤度を扱いやすく計算し、新しいデータを生成することです。」)彼らは新しい現実的なデータサンプルを生成することのみに焦点を当てていますが、現実世界のタスクの表現を学習する能力はまだ実証されていません。そして、これらのモデルの推論速度も非常に遅いです。

  • ピクセルリカレントネットワーク: https://arxiv.org/abs/1601.06759
  • ピクセルCNN: https://arxiv.org/abs/1606.05328
  • ピクセル CNN++: https://openreview.net/pdf?id=BJrFC6ceg
  • ウェーブネット: https://deepmind.com/blog/wavenet-generative-model-raw-audio/
  • その他: http://ruotianluo.github.io/2017/01/11/pixelcnn-wavenet/

要約する

これらの新しいネットワークはまだ研究と評価の段階にあります。たとえば、最近の PredNet 論文 (https://arxiv.org/abs/1605.08104) では、予測コーディング ネットワークとラダー ネットワークの比較が行われており、一部のタスクでは PredNet の方がパフォーマンスが優れていることが示されています。 PredNet は、高レベルの表現を使用してターゲットを絞った顔の分類を実行するために使用できます。 1 つのデータセットでステアリング角度を予測することも可能ですが、ほとんどの場合、ネットワークの最初のレイヤーからの単純なアクション フィルターが使用されます。このタスクでは、機能の階層的分解は必要ありません。

<<:  機械学習決定木アルゴリズム学習ノート

>>:  人工知能が「夢」を持つとき、人間はどう反応すべきか?

ブログ    

推薦する

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

[[69076]]映画「マトリックス」でレオが銃弾の雨をかわす難しい動きを誰もが覚えているはずだ。こ...

コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロ...

...

...

CCTV 3.15は顔認識の悪用を暴露し、多くの教育企業が同様のカメラを使用する可能性がある

CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...

...

...

AI が「インターネット セレブ」メタバースと出会うと、どのような変化が起こるでしょうか?

2021年に世界を爆発的に盛り上げたメタバースは、2022年に入っても冷める気配がなく、今も多くの...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...

サイバーセキュリティにおける AI に関する 3 つの誤解

フィクションでも映画でも、人工知能は何十年にもわたって魅力的なテーマであり続けています。フィリップ・...

2か月でAIをゼロから学んだ方法とは?

編集者注: 人工知能は「電気」のようなものになりつつあり、その将来の発展に関心を持つ人は誰でもそれに...

現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...

2021年に注目すべき5つのAIトレンド

[[392513]] 2020年にCOVID-19が世界的に猛威を振るう中、人々は人工知能技術の助け...