ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場しています。パデュー大学 e-Lab の 3 人の研究者、Alfredo Canziani、Abishek Chaurasia、Eugenio Culurciello は最近、Medium に記事を掲載し、ビデオ分析における教師なし学習、セグメンテーション、シーン分析、ポジショニング、時空間表現、ビデオ予測、表現予測、オンライン学習の機能を備え、現在人気の高い敵対的生成ネットワーク (GAN) よりも多くの点で優れている新しいタイプのディープ ニューラル ネットワークについて説明しました。 新しい世代のディープニューラルネットワークが登場しています。これらは、私たちが以前に詳細に分析したフィードフォワード モデルから進化したものです。記事「ニューラル ネットワーク アーキテクチャの進化の歴史: LeNet5 から ENet までの 10 を超えるアーキテクチャの包括的なレビュー (論文付き)」または更新バージョンを参照してください: https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba この新しいタイプのニューラル ネットワークは、LeNet5/AlexNet とそのバリエーションのオリジナルのフィードフォワード モデルから進化したもので、ResNet/Inception よりも複雑なバイパス スキームを備えています。これらのフィードフォワード ニューラル ネットワークは、画像を圧縮して小さな表現ベクトルにエンコードするため、エンコーダーとも呼ばれます。 新世代のニューラル ネットワークには、次の 2 つの重要な新機能があります。
素晴らしい!しかし、この追加の複雑さによって何が得られるのでしょうか? これは、従来のフィードフォワード ニューラル ネットワークには多くの制限があることを証明しています。
これらの制限を克服するには、学習した表現を入力画像空間に投影し直し、時間的に一貫した画像シーケンスでトレーニングできる新世代のニューラル ネットワークが必要です。つまり、ビデオでトレーニングする必要があります。 新世代のニューラル ネットワークの高レベルな機能は次のとおりです。 教師なし学習 - 将来のフレームや表現を予測するためにビデオで事前トレーニングできるため、特定のタスクのトレーニングと実行に必要なラベル付きデータが少なくなります。
それでは、これらの新しいネットワークの詳細と実装を見ていきましょう。 生成ラダーネットワーク これらのモデルは、エンコーダーとデコーダーのペアを使用して、画像をさまざまな部分とオブジェクトに分割します。例としては、ENet、SegNet、Unet、DenseNet、Ladder Nets などがあります。
以下は典型的な 3 層モデルです。 D モジュールは標準のフィードフォワード レイヤーです。 G モジュールは生成モジュールであり、標準のフィードフォワード レイヤーに似ていますが、デコンボリューションとアップサンプリング機能を備えています。また、残差型接続「res」を使用して、各エンコード層の表現をデコード層の表現に接続します。これにより、生成されたレイヤーの表現がフィードフォワード表現によってモジュール化されるようになり、シーンをオブジェクトやパーツにローカライズして解析する能力が強化されます。 「x」は入力画像で、「y」は同じ時間ステップでの出力セグメンテーションです。 これらのネットワークは、セグメンテーション、シーン解析、正確な位置特定を実行できますが、時間領域で動作することはできず、過去のフレームの記憶がありません。 各レイヤーでの最近のエンコーダーからデコーダーへのバイパスにより、これらのネットワークは最先端のパフォーマンスを実現できるようになりました。 再帰的および生成的ラダーネットワーク これは、生成ラダー ネットワークに再帰を追加して、再帰および生成ラダー ネットワーク (REGEL) を形成する最新のディープ ニューラル ネットワークの 1 つです。 REGEL は、少なくとも画像分析の分野では、これまでに作成された最も複雑なディープ ニューラル ネットワークの 1 つです。 以下は、私たちが使用している REGEL の 3 層モデルです。 D モジュールと G モジュールは、実際には、上で説明した生成ラダー ネットワークのモジュールと同じです。ネットワークは、同じレイヤー内の各 G モジュールから各 D モジュールへの再帰パス「t-1」を追加します。 ネットワークは、ビデオ x[t] からのフレームのシーケンスを入力として受け取り、各タイムステップでビデオの次のフレーム y[t+1] を予測します。予測が正確であれば、y[t+1] は x[t+1] に近くなります。 ネットワークは予測と実際の次のフレームの間の誤差を測定できるため、入力を予測するタイミングとしないタイミングを認識できます。そうでない場合は、フィードフォワード ニューラル ネットワークでは不可能な増分学習が可能になります。したがって、ネットワークは本質的にオンライン学習を実行できます。 これは機械学習の非常に重要な特性であり、予測ニューラル ネットワークに備わった自然な才能だと私たちは考えています。この特性がなければ、ネットワークは真の予測信頼信号を提供できず、効果的な増分学習を実行できません。 これらのネットワークはまだ研究中です。私たちのアドバイス:彼らを見続けてください! 予測コーディングネットワーク - パート 1 再帰生成ネットワークは、可能な予測モデルです。代替案として、予測コーディング計算神経科学モデルは予測機能を提供し、階層型ディープニューラルネットワークにすることができます。 2 層モデルの図を以下に示します。 Rao と Ballard の Nature Neuroscience 論文「視覚皮質における予測コーディング: いくつかの超古典的受容野効果の機能的解釈」と Friston の実装論文「予測コーディングのための標準的なマイクロ回路」のモデルはどちらも、A モジュール (上記のラダー ネットワークの D モジュールに類似) と R/Ay モジュール (上記のラダー ネットワークの G モジュールに類似) 間の各レイヤーのエラー e を計算します。この誤差 e は、ネットワークが各レイヤーでの表現を予測する能力を表します。エラー e は次のレイヤーへの入力として送信されます。 R は畳み込み RNN/LSTM モジュールであり、Ay は A モジュールに似ています。 R と Ay は単一の再帰モジュールに組み合わせることができます。最初のレイヤーでは、x は入力フレームです。 このモデルの問題は、ネットワークが標準的なフィードフォワード ニューラル ネットワークとは大きく異なることです。これらの予測ネットワークは、下位レベルの特徴を組み合わせた上位レベルの表現の階層を作成するのではなく、前のレイヤーの残差エラーの表現を計算します。 したがって、これは残差フィードフォワードネットワークを彷彿とさせますが、実際には、これらのネットワークにエラーを強制的に前方に伝播させると、上位層で効果的な階層表現を学習できなくなります。したがって、高レベルの表現に基づく分類、セグメンテーション、アクション認識などの他のタスクを効果的に実行することはできません。これらの制限を明らかにするには、さらなる実験が必要です。 このモデルは Bill Lotter と David Cox によって実装されました。PredNet を参照してください: https://coxlab.github.io/prednet/ 予測コーディング ネットワーク - パート 2 Spratling 予測コーディング モデルは、以前の Friston モデルのようにエラー e を投影するのではなく、表現 y を上位レイヤーに投影します。これにより、ネットワークは階層型フィードフォワードディープニューラルネットワークとの互換性が向上し、上位層でのエラーの学習モーメントも回避されます。 2 層モデルの図を以下に示します。 基本的に、このモデルは、前述のループ生成ラダー モデルに書き直して簡略化できます。これは、R と Ay を 1 つのループ モジュールに組み合わせることができるためです。 生成的敵対ネットワークとの関係 敵対的生成ネットワーク (GAN) は、データ分布からサンプルを生成することを学習できる非常に人気のあるモデルです。ここで提案された新しいネットワーク モデルは、次の理由から GAN よりも優れています。
REGEL ネットワークの予測力の例 - 左: 現在のフレーム、中央: 次の実際のフレーム、予測された次のフレーム その他のモデル REGEL のようなモデルは、Pixel リカレント ネットワークとその多くの実装 (PixelCNN、Pixel CNN++、WaveNet など) を彷彿とさせます。これらのモデルの目的は、入力データの分布をモデル化することです。 (「私たちの目標は、自然画像の分布を推定し、それを使用してデータの尤度を扱いやすく計算し、新しいデータを生成することです。」)彼らは新しい現実的なデータサンプルを生成することのみに焦点を当てていますが、現実世界のタスクの表現を学習する能力はまだ実証されていません。そして、これらのモデルの推論速度も非常に遅いです。
要約する これらの新しいネットワークはまだ研究と評価の段階にあります。たとえば、最近の PredNet 論文 (https://arxiv.org/abs/1605.08104) では、予測コーディング ネットワークとラダー ネットワークの比較が行われており、一部のタスクでは PredNet の方がパフォーマンスが優れていることが示されています。 PredNet は、高レベルの表現を使用してターゲットを絞った顔の分類を実行するために使用できます。 1 つのデータセットでステアリング角度を予測することも可能ですが、ほとんどの場合、ネットワークの最初のレイヤーからの単純なアクション フィルターが使用されます。このタスクでは、機能の階層的分解は必要ありません。 |
>>: 人工知能が「夢」を持つとき、人間はどう反応すべきか?
ガベージコレクションのボトルネック従来の世代別ガベージ コレクション方式では、ある程度、アプリケーシ...
[[272599]]人工知能は、英語の正式名称を「Artificial general intel...
AIは本当に科学的に占いができるんですね! ?デンマーク工科大学(DTU)の研究者らは、各人の死亡の...
研究者らは、敵対的サンプルと呼ばれる入力を各ビデオフレームに挿入することで、検出器を破ることができる...
職場復帰の日が近づくにつれ、全国で生産や業務が徐々に再開されているが、同時に防疫活動も緩めてはならな...
1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...
一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...
かつて私たちは、コンピューターがどれだけ強力であっても、未来を予測するには不十分であると考えていまし...
人工知能、略してAIの起源は非常に古い。1956年の夏、アメリカのハノーバーという小さな町に、コンピ...
休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写...
スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...
現在、中国の製造業、農業、飲食業、企業、機関はすべて、自動化からインテリジェンス化、デジタル化への変...
[[402797]]この記事はWeChatのパブリックアカウント「Big Data DT」から転載し...