ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場しています。パデュー大学 e-Lab の 3 人の研究者、Alfredo Canziani、Abishek Chaurasia、Eugenio Culurciello は最近、Medium に記事を掲載し、ビデオ分析における教師なし学習、セグメンテーション、シーン分析、ポジショニング、時空間表現、ビデオ予測、表現予測、オンライン学習の機能を備え、現在人気の高い敵対的生成ネットワーク (GAN) よりも多くの点で優れている新しいタイプのディープ ニューラル ネットワークについて説明しました。 新しい世代のディープニューラルネットワークが登場しています。これらは、私たちが以前に詳細に分析したフィードフォワード モデルから進化したものです。記事「ニューラル ネットワーク アーキテクチャの進化の歴史: LeNet5 から ENet までの 10 を超えるアーキテクチャの包括的なレビュー (論文付き)」または更新バージョンを参照してください: https://medium.com/towards-data-science/neural-network-architectures-156e5bad51ba この新しいタイプのニューラル ネットワークは、LeNet5/AlexNet とそのバリエーションのオリジナルのフィードフォワード モデルから進化したもので、ResNet/Inception よりも複雑なバイパス スキームを備えています。これらのフィードフォワード ニューラル ネットワークは、画像を圧縮して小さな表現ベクトルにエンコードするため、エンコーダーとも呼ばれます。 新世代のニューラル ネットワークには、次の 2 つの重要な新機能があります。
素晴らしい!しかし、この追加の複雑さによって何が得られるのでしょうか? これは、従来のフィードフォワード ニューラル ネットワークには多くの制限があることを証明しています。
これらの制限を克服するには、学習した表現を入力画像空間に投影し直し、時間的に一貫した画像シーケンスでトレーニングできる新世代のニューラル ネットワークが必要です。つまり、ビデオでトレーニングする必要があります。 新世代のニューラル ネットワークの高レベルな機能は次のとおりです。 教師なし学習 - 将来のフレームや表現を予測するためにビデオで事前トレーニングできるため、特定のタスクのトレーニングと実行に必要なラベル付きデータが少なくなります。
それでは、これらの新しいネットワークの詳細と実装を見ていきましょう。 生成ラダーネットワーク これらのモデルは、エンコーダーとデコーダーのペアを使用して、画像をさまざまな部分とオブジェクトに分割します。例としては、ENet、SegNet、Unet、DenseNet、Ladder Nets などがあります。
以下は典型的な 3 層モデルです。 D モジュールは標準のフィードフォワード レイヤーです。 G モジュールは生成モジュールであり、標準のフィードフォワード レイヤーに似ていますが、デコンボリューションとアップサンプリング機能を備えています。また、残差型接続「res」を使用して、各エンコード層の表現をデコード層の表現に接続します。これにより、生成されたレイヤーの表現がフィードフォワード表現によってモジュール化されるようになり、シーンをオブジェクトやパーツにローカライズして解析する能力が強化されます。 「x」は入力画像で、「y」は同じ時間ステップでの出力セグメンテーションです。 これらのネットワークは、セグメンテーション、シーン解析、正確な位置特定を実行できますが、時間領域で動作することはできず、過去のフレームの記憶がありません。 各レイヤーでの最近のエンコーダーからデコーダーへのバイパスにより、これらのネットワークは最先端のパフォーマンスを実現できるようになりました。 再帰的および生成的ラダーネットワーク これは、生成ラダー ネットワークに再帰を追加して、再帰および生成ラダー ネットワーク (REGEL) を形成する最新のディープ ニューラル ネットワークの 1 つです。 REGEL は、少なくとも画像分析の分野では、これまでに作成された最も複雑なディープ ニューラル ネットワークの 1 つです。 以下は、私たちが使用している REGEL の 3 層モデルです。 D モジュールと G モジュールは、実際には、上で説明した生成ラダー ネットワークのモジュールと同じです。ネットワークは、同じレイヤー内の各 G モジュールから各 D モジュールへの再帰パス「t-1」を追加します。 ネットワークは、ビデオ x[t] からのフレームのシーケンスを入力として受け取り、各タイムステップでビデオの次のフレーム y[t+1] を予測します。予測が正確であれば、y[t+1] は x[t+1] に近くなります。 ネットワークは予測と実際の次のフレームの間の誤差を測定できるため、入力を予測するタイミングとしないタイミングを認識できます。そうでない場合は、フィードフォワード ニューラル ネットワークでは不可能な増分学習が可能になります。したがって、ネットワークは本質的にオンライン学習を実行できます。 これは機械学習の非常に重要な特性であり、予測ニューラル ネットワークに備わった自然な才能だと私たちは考えています。この特性がなければ、ネットワークは真の予測信頼信号を提供できず、効果的な増分学習を実行できません。 これらのネットワークはまだ研究中です。私たちのアドバイス:彼らを見続けてください! 予測コーディングネットワーク - パート 1 再帰生成ネットワークは、可能な予測モデルです。代替案として、予測コーディング計算神経科学モデルは予測機能を提供し、階層型ディープニューラルネットワークにすることができます。 2 層モデルの図を以下に示します。 Rao と Ballard の Nature Neuroscience 論文「視覚皮質における予測コーディング: いくつかの超古典的受容野効果の機能的解釈」と Friston の実装論文「予測コーディングのための標準的なマイクロ回路」のモデルはどちらも、A モジュール (上記のラダー ネットワークの D モジュールに類似) と R/Ay モジュール (上記のラダー ネットワークの G モジュールに類似) 間の各レイヤーのエラー e を計算します。この誤差 e は、ネットワークが各レイヤーでの表現を予測する能力を表します。エラー e は次のレイヤーへの入力として送信されます。 R は畳み込み RNN/LSTM モジュールであり、Ay は A モジュールに似ています。 R と Ay は単一の再帰モジュールに組み合わせることができます。最初のレイヤーでは、x は入力フレームです。 このモデルの問題は、ネットワークが標準的なフィードフォワード ニューラル ネットワークとは大きく異なることです。これらの予測ネットワークは、下位レベルの特徴を組み合わせた上位レベルの表現の階層を作成するのではなく、前のレイヤーの残差エラーの表現を計算します。 したがって、これは残差フィードフォワードネットワークを彷彿とさせますが、実際には、これらのネットワークにエラーを強制的に前方に伝播させると、上位層で効果的な階層表現を学習できなくなります。したがって、高レベルの表現に基づく分類、セグメンテーション、アクション認識などの他のタスクを効果的に実行することはできません。これらの制限を明らかにするには、さらなる実験が必要です。 このモデルは Bill Lotter と David Cox によって実装されました。PredNet を参照してください: https://coxlab.github.io/prednet/ 予測コーディング ネットワーク - パート 2 Spratling 予測コーディング モデルは、以前の Friston モデルのようにエラー e を投影するのではなく、表現 y を上位レイヤーに投影します。これにより、ネットワークは階層型フィードフォワードディープニューラルネットワークとの互換性が向上し、上位層でのエラーの学習モーメントも回避されます。 2 層モデルの図を以下に示します。 基本的に、このモデルは、前述のループ生成ラダー モデルに書き直して簡略化できます。これは、R と Ay を 1 つのループ モジュールに組み合わせることができるためです。 生成的敵対ネットワークとの関係 敵対的生成ネットワーク (GAN) は、データ分布からサンプルを生成することを学習できる非常に人気のあるモデルです。ここで提案された新しいネットワーク モデルは、次の理由から GAN よりも優れています。
REGEL ネットワークの予測力の例 - 左: 現在のフレーム、中央: 次の実際のフレーム、予測された次のフレーム その他のモデル REGEL のようなモデルは、Pixel リカレント ネットワークとその多くの実装 (PixelCNN、Pixel CNN++、WaveNet など) を彷彿とさせます。これらのモデルの目的は、入力データの分布をモデル化することです。 (「私たちの目標は、自然画像の分布を推定し、それを使用してデータの尤度を扱いやすく計算し、新しいデータを生成することです。」)彼らは新しい現実的なデータサンプルを生成することのみに焦点を当てていますが、現実世界のタスクの表現を学習する能力はまだ実証されていません。そして、これらのモデルの推論速度も非常に遅いです。
要約する これらの新しいネットワークはまだ研究と評価の段階にあります。たとえば、最近の PredNet 論文 (https://arxiv.org/abs/1605.08104) では、予測コーディング ネットワークとラダー ネットワークの比較が行われており、一部のタスクでは PredNet の方がパフォーマンスが優れていることが示されています。 PredNet は、高レベルの表現を使用してターゲットを絞った顔の分類を実行するために使用できます。 1 つのデータセットでステアリング角度を予測することも可能ですが、ほとんどの場合、ネットワークの最初のレイヤーからの単純なアクション フィルターが使用されます。このタスクでは、機能の階層的分解は必要ありません。 |
>>: 人工知能が「夢」を持つとき、人間はどう反応すべきか?
[[69076]]映画「マトリックス」でレオが銃弾の雨をかわす難しい動きを誰もが覚えているはずだ。こ...
最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロ...
最新の MLPerf トレーニング ベンチマークでは、H100 GPU が 8 つのテストすべてで新...
CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...
アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...
2021年に世界を爆発的に盛り上げたメタバースは、2022年に入っても冷める気配がなく、今も多くの...
人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...
フィクションでも映画でも、人工知能は何十年にもわたって魅力的なテーマであり続けています。フィリップ・...
編集者注: 人工知能は「電気」のようなものになりつつあり、その将来の発展に関心を持つ人は誰でもそれに...
GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...
[[392513]] 2020年にCOVID-19が世界的に猛威を振るう中、人々は人工知能技術の助け...