ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

[[434722]]

0. はじめに

予測的コーディングは認知科学における仮説です。高レベルの神経活動は感覚入力によって引き起こされるという一般的な考えとは異なり、この仮説では、高レベルの神経表現が感覚入力の定義に関与していると主張しています。予測コーディングの概念は神経科学界で生まれました。近年では、機械学習分野の研究者も予測コーディングに関連するモデルの研究を始めています。この記事は、ルイジアナ大学ラファイエット校のHosseini MとMaida Aによる最近の論文[1]に基づいており、予測コーディングをディープラーニングアーキテクチャでどのように使用できるかを検討しています。

予測コーディングの特徴は、トップダウンの再構築メカニズムを使用して感覚入力またはその低レベルの表現を予測することです。具体的には、予測コーディングでは、まず予測値と実際の入力の差 (予測誤差と呼ばれる) を決定し、その後、学習した高レベル表現の予測精度を向上させるための後続の学習プロセスを開始します。ディープラーニングが開発される前から、大脳新皮質での計算を記述することを目的とした予測コーディングモデルがすでに登場していました。これらのモデルは、Rao-Ballard プロトコル (RB プロトコル) と呼ばれるモジュール間の通信構造を構築しました。 RB プロトコルは、ベイズ生成モデル (感覚入力と事前の期待値を組み合わせて将来の予測を向上させる) から派生したもので、いくつかの強力な統計的仮定が含まれています。非ベイズ予測コーディングモデル (RB プロトコルに従わないモデル) は、通常、予測のためではなく、情報伝送要件を減らし、自分の行動の影響を打ち消すために使用されます。

予測コーディングは表現学習の一形態として考えることができます。ベイズ予測符号化をサポートする学習メカニズムは、獲得された内部表現の品質を向上させることができ、これは将来の予測誤差を減らすことの副作用として考えることができます。予測/再構築機能により、取得された表現が入力に含まれる情報を完全に表現することが保証されます。学習プロセス全体は予測誤差によって駆動されるため、予測されたデータストリームに関する情報のみを必要とする教師なし学習となります。

応用面では、予測コーディングは、重なり合う画像コンポーネント、オブジェクト分類、ビデオ予測、ビデオ異常検出、バイアス競合モデリング、霊長類視覚皮質の反応特性、EEG 誘発脳反応の健康問題の学習に使用できます。さらに、それは大脳新皮質機能の統一理論として提案されています。

これまでのところ、ディープラーニングアーキテクチャで大規模な予測符号化モデルを構築した例は非常に少なく、その中で最も有名なのは[3]で提案されたPredNetモデルであり、この記事で紹介します。ほとんどの予測コーディングモデルは、ディープラーニングフレームワークが登場する前に実装されたため、これらの古典的なモデルはサイズが小さく、専用の時間処理モジュールがありません。

1. 予測コーディングの基礎知識

まず、ワシントン大学の研究者が発表した予測コーディングに関するレビュー記事を参照して、神経学的観点から予測コーディングを紹介します[2]。予測コーディングは、認知現象を説明し、神経系を理解しようとする統一的なフレームワークです。神経系で冗長性を減らし、効率的なエンコードを実行する方法を提案しています。予測コーディングでは、入力される感覚信号の予測されていない部分のみを送信することで、神経系が冗長性を減らし、ニューロンの限られたダイナミックレンジを最大限に活用できるようにします。予測コーディングは、さまざまな神経反応と脳組織の多くの側面について機能的な説明を提供します。自然界では、網膜と外側膝状体核 (LGN) の受容野の側方および時間的な拮抗は、自然画像の予測的符号化の結果です。予測符号化モデルでは、網膜/LGN の神経回路が、空間内の近くの値、または時間内の以前の入力値の線形加重合計から、局所的な強度の数値を積極的に予測します。これらの回路のセルでは、生の画像の強度ではなく、予測値と実際の強度の差が伝えられ、出力の冗長性を減らす処理アプローチが採用されています。高次の視覚システムでは、予測符号化によって、方向受容野と文脈効果、および大脳皮質の階層的に相互接続された組織が説明されます。さまざまな脳領域から得られたさまざまな神経生理学的および心理物理学的データも、予測符号化の仮説と一致しています。

まず、神経系のさまざまなレベルの応答特性を理解しましょう。脳の一次視覚皮質 (V1) のニューロンは特定の方向のバーやエッジに反応しますが、V2 および V4 領域のニューロンはより複雑な形状や輪郭の特徴に反応します。内側上側頭葉 (MST) 領域のニューロンは視覚的な動きに反応します。これらの応答の選択性は、自然な入力の階層的予測コーディングの観点から理解できます。たとえば、視覚系は層状に構成されているため、皮質領域間には相互接続が存在します。ラオとバラードが提唱した階層型ニューラルネットワークアーキテクチャ (RB アーキテクチャ) によれば、高次の視覚皮質領域からのトップダウンフィードバック接続は低次の神経活動の予測を伝え、ボトムアップ接続は予測の残差を伝えます。自然の風景から撮影した画像パッチでモデルネットワークをトレーニングした後、モデルニューロンが方向性受容野、終端休止、その他の背景効果など、V1 と同様の受容野特性を発達させたことが分かりました。

予測コーディングの初期の応用の 1 つは、視神経が視覚情報を脳に伝達する際のボトルネックとなるため、情報伝達要件が低い網膜モデルを作成することでした。継続的な視覚入力は冗長性が高くなります。網膜の細胞が入射光の移動平均を空間的にも時間的にも計算すると、現在の入力を予測することができます。実際の入力と予測を比較することで、網膜は予測誤差を後の処理領域に送信し、伝送帯域幅を削減できます。脊椎動物の網膜が現在の入力画像の表現を最初から作成する場合、情報伝送の要件は、現在の環境の完全な表現を構築するために必要な帯域幅によって決まります。しかし、脳は過去の環境の既存の表現とその環境がどのように変化したかに関する制約を使用して、環境の現在の状態について非常に正確に予測できることがよくあります。環境の現在の状態の表現をゼロから構築する場合と比較すると、予測エラーを表現するために必要な帯域幅は少なくなります。脳がすでにかなり正確なデフォルトの予測を持っている場合、予測エラーでデフォルトの予測を更新することで、より少ない情報転送で最新の表現を作成できます。さらに、予測誤差は、表現を改善し、将来の予測誤差を減らすための学習を導くための優れた情報を提供することができます。

予測コーディングモデルが進化するにつれて、予測された感覚入力を直接生成できるように、それを生成モデルに組み込む試みがなされてきました。これは多くの場合、上位層が下位層の出力 (つまり、上位層への入力) を予測し、予測エラーが上位層の学習を導くための情報を提供する階層として表現されます。フィードフォワードとフィードバックの接続を含む階層構造は、霊長類の大脳新皮質の構造とも一致しています。知覚推論と認識の文脈では、訓練された生成モデルは、学習された表現が元の感覚入力の分布を再構築し、さまざまな空間的および時間的スケールで入力の暗黙の原因を推定できるという特性を持っています。学習された表現は、そもそも入力を生成した原因要因を捉え、再構築を可能にします。表現を構築するには、感覚から原因への逆マッピングが必要です。これは、物理世界における感覚と原因の間の逆マッピングを計算することが不適切設定問題、つまりその解が一意ではないため、困難です。ベイズアプローチでは、適切な事前確率を使用することでこれに対処でき、場合によっては十分な入力があれば学習できます。 1 つのアプローチは、予測誤差を最小限に抑えることを学ぶことです (つまり、予測コーディング)。

初期の予測コーディングモデルは、一般的に、階層的期待最大化や変分自由エネルギーモデルなどの統計モデルとして定式化されていました。これらのモデルは予測を計算するための正確な計算方法を提示していますが、まだいくつかの問題と課題があります。これらのモデルの実装には膨大な計算量が必要であり、モデルの仮定は非常に制限的です。最近の研究では、研究者らはこの問題を解決するためにディープニューラルネットワーク構造を使用することを提案しており[3]、これによりディープラーニングフレームワークによって提供される大規模なツールセットを直接使用して計算問題を解決できるようになります。

2. 階層的背景知識を学習する予測コーディング[1][5]

このセクションでは、まず、古典的な予測コーディング方式が階層的な背景知識をどのように学習するかを理解します。前のセクションで分析したように、人間の脳は通常、過去の環境の既存の表現と環境がどのように変化したかに関する制約を使用して、環境の現在の状態について非常に正確に予測することができます。予測コーディングモデルは、感覚入力を生成的に予測します。一般的に、この生成方法は階層構造として構築され、上位層は下位層の出力（つまり、上位層の入力）を予測し、予測誤差は上位層の学習を導く情報を提供します。予測符号化モデルは、各層の予測誤差を減らすことで階層表現、つまり表現階層を構築します。具体的な方法は 2 つあります。1 つ目は、畳み込みネットワークと同様に、階層の後半の段階でより大きな入力コンテキスト情報を使用して、より抽象的な特徴階層を構築する方法です。 2 番目のアプローチは、テイラー級数展開のような高次エラーの階層を学習することです。このセクションでは、最初のタイプの方法、つまり Rao/Ballard モデルを具体的に紹介します。

古典的なRao/Ballard論文[5]では、一次視覚皮質の末梢ニューロンの受容野を3段階の表現階層を使用してモデル化し、上位層からのフィードバックが前の層の神経活動に関する予測を伝えます。たとえば、最低レベルで予測されたアクティビティが実際のアクティビティ (生の感覚入力) と比較されます。予測誤差はレイヤーの出力であり、次の上位レイヤーに転送されます。階層には、内部表現ニューロンと予測誤差ニューロンの 2 種類のニューロンがあります。エンドストッピングは、中間レベルの表現を予測するときに、最上位レベルの表現が隣接する空間コンテキストを使用するようにすることでモデル化されます。最上位レベルの表現は、より大きな空間コンテキストの表現を構築します。モデルは予測要素 (PE) を中心に構築されています。予測要素は、脳内の処理段階または皮質層と考えることができます。ディープラーニングの用語では、補完的な機能を実行し、フィードフォワード接続とフィードバック接続によって接続された 2 つのニューラル層で構成されます。

理解を容易にするために、PE をグラフで表示します。 PEは階層構造に積み重ねられています（図1(a)）。 PE は、階層内の前の層から予測エラーを受信し (順方向接続経由)、予測を事前確率の形式で前の層に送信します (逆方向接続経由)。図1(a)は情報フローの元の図を示しています。 l+1 層は l 層目の変換された表現を学習し、それによって l 層目のアクティビティの予測パフォーマンスが向上します。 r(l)は入力の仮定された原因を表します。異なるレイヤーでは、説明のレベルが上がるにつれて、同じ原因に対して異なる表現が提供されます。各層の表現は、その層を形成するニューロンベクトルの活性化レベルのセットとして表されます。図 1(b) は、隣接するレイヤー間の相互作用が制約プロトコル、つまり Rao-Ballard プロトコルに従っていることを示しています。私たちの表現では、予測 (P)、予測誤差 (PE)、横方向ターゲット (LT)、横方向ターゲット誤差 (LTE) の 4 種類の接続があります。レイヤー出力は、PE 接続によって提供される情報です。 P と PE は完全に接続されており、LT と LTE はポイントツーポイント接続です (図 2 を参照)。表現モジュールは予測誤差モジュールとのみ通信し、予測誤差モジュールは表現モジュールとのみ通信します。さらに、予測誤差ニューロンは階層内で下向きに投影することはなく、内部表現ニューロンは階層内で上向きに投影することはありません。

図1: (a) 予測PEのRao/Ballardプロット。破線のボックス内に含まれる予測要素は、予測コーディング階層の構成要素です。マイナス記号を囲む円は、予測誤差を計算するために使用される誤差単位ベクトルを表します。(b) Rao-Ballard プロトコルをより明確にするデータフロー図。 e^l は予測誤差とレベルを指定します。円形の矢印は減算を示します。予測された要素に関連する4つの接続にはラベルが付けられています

図2. PE予測ユニット。 e は残差単位、r は表現単位、I は入力を表します。小さな黒い円はニューロンを表します。赤い矢印の末尾が実線の円で終わる場合は、減算フィードバック抑制を示します。赤い矢印はP接続、青い矢印はPE接続、黒い矢印はLT接続を示します。

図1(b)は、未解決の疑問を提起します。つまり、層r^(l-1)は層r^(l+1)からどのような階層表現を取得するのか、そしてこれらの階層表現は畳み込みネットワークなどの従来の深層学習モデルで取得されるものとどのように比較されるのかということです。図2は[5]のモデルの第1層PEのネットワークレベル表現を示しています。簡単にするために、第2層の表現単位r^(2)は線形であると仮定します。受信層r^(2)には、16x16画像パッチの入力ピクセル強度を表す要素が2つありますが、表現要素は32個しかありません。フィードフォワード接続は青い W で、フィードバック接続は赤い W^T です。トップダウン予測、I^ と表記されます。 e^(1)ユニットは予測誤差を計算します。これらのアイデアは建築処理に関連しています。

式(1a)によれば、Iは感覚入力であり、第1レベルの表現はr^(1)と表され、これらは同等である。 I と I^ の次元は両方とも 256 x 1 です (16 x 16 の入力画像パッチを想定)。予測入力I^もr^(1)と同等である。予測入力はW^Tr^(2)として表されます。ここで、r^(2)の次元は32 x 1、Wの次元は32 x 256です。最後に、通常の動作条件下では、入力 I と予測入力 I^ はほぼ等しくなるはずです。式(1b)は、層1における予測誤差e^(1)を実際の入力と予測入力の差として定義します。式（１ｃ）は、予測誤差に応じて第２層の内部表現を更新するために使用される。予測誤差の二乗和のコスト関数 J から始めます。

単層ネットワークのみが関係していることを考慮して、読みやすくするために、著者は式内の層の上付き文字を省略しています。 [5]で報告されたコスト関数は事前知識を組み込んでいるが、式(2)のコスト関数は事前知識を考慮していない。勾配降下法の準備として、J の r に関する導関数を求めます。

勾配降下法では、導関数の反対方向に一定の速度で移動します。

W^T を J に関して微分すると、次のような学習方程式が得られます。

さらに、図 2 のモジュールを踏まえて、より大きなアーキテクチャがどのように見えるか、またそれがコンテキスト階層に埋め込まれたときに何が起こるかを確認したいと思います。これを実現するために、図 3 では、図 2 を拡張して、第 1 層に 2 つの横方向 PE を追加し、第 2 層に追加の PE を追加しています。レイヤー 2 への入力は、重なり合う 3 つの 16x16 画像パッチで構成されます。図2のニューロン(r_1)^(1)-(r_1)^(32)は、図3のニューロン(r_1)^(1,2)-(r_1)^(32,2)と同じである。新しく追加されたレイヤー 3 は、レイヤー 1 のすべての PE から入力を受け取ります。図 3 では、第 1 層の中間コンポーネントは図 2 のモジュールに対応しています。

図3. [5]の拡張モデルのグローバル構造。階層と隣接するコンテキストを示しています。図2のネットワークは破線のボックス内にあります。

3. PredNet: ビデオ予測と教師なし学習のための深層予測コーディングネットワーク [3]

3.1 PredNetの紹介

文献[4]は、ディープ予測符号化ネットワークの概念を初めて提案し、文献[3]で提案されたモデルPredNetは、ディープラーニング（DL）フレームワークを使用して実装された最も初期の予測符号化モデルである可能性があります。上で説明した数式を直接使用する場合と比較して、DL フレームワークを使用して予測コーディングモデルを実装すると、多くの潜在的な利点があります。

まず、DL フレームワークは非常に成熟しており、汎用性が高く、効率的です。したがって、予測コーディングモデルの構築と研究はより簡単になるはずです。唯一の複雑さは、レイヤー間のフィードバック接続を処理する能力です。
2 番目に、DL フレームワークを使用するモデルは、10 万を超えるパラメータを持つ非常に大規模なアーキテクチャに拡張できます。これは従来の予測コーディングでは実現できません。
3 番目に、ディープラーニングアーキテクチャでは、より緩やかな統計的仮定を処理できる大規模な学習モジュール (LSTM など) を使用できるため、より一般的な状況で動作できます。

PredNet は、予測コーディングモデルの 2 番目のクラスに属します (前述のように、テイラー級数展開のような高次エラーの階層を学習します)。 PredNet のアーキテクチャを図 4 に示します。 PredNet は、入力に対してローカル予測を行う一連の繰り返しスタックされたモジュールで構成され、その予測は実際の入力から減算されて次のレイヤーに渡されます。具体的には、各モジュールは、入力畳み込み層 (A_l)、再帰表現層 (R_l)、予測層 ((a_l)^)、およびエラー表現層 (E_l) の 4 つの基本部分で構成されます。 R_lは、次のフレームのA_lの予測値(a_l)^を生成する再帰畳み込みネットワークです。ネットワークは、A_lと(A_l)^の差を取り、別々に修正された正の誤差集団と負の誤差集団を含む誤差表現E_lを出力します。 E_l は畳み込み層を通過し、次の層 (A_l+1) の入力になります。 R_l は、E_l のコピーと、次のレベルのネットワーク (R_l+1) の表現層からのトップダウン入力を受け取ります。ネットワークは、操作の最初のステップで、ネットワークの「右側」(A_l と E_l) が標準的な深層畳み込みネットワークと同等になるように構成されています。ネットワークの「左側」（R_l）は、各ステージでローカル再帰を伴う生成的デコンボリューションネットワークと同等です。前のセクションで紹介した従来の予測コーディングモデルとは異なり、PredNet は、エンドツーエンドのトレーニングに勾配降下法を使用し、エラーニューロンのトリガー周波数として損失関数を暗黙的に埋め込むディープラーニングフレームワークとして構築されています。

図 4. PredNet アーキテクチャ。左: 2 つのレイヤー内の情報フローの図。各層は表現ニューロン (R_l) で構成され、各時間ステップ ((a_l)^) で層固有の予測を出力し、ターゲット (A_l) と比較されて誤差項 (E_l) を生成し、ネットワーク内で水平方向と垂直方向に伝播します。

PredNetアーキテクチャはさまざまなシミュレーションデータに適用可能であり、文献[3]では特に画像シーケンス（ビデオ）データに焦点を当てています。画像シーケンス x_t が与えられると、下位層のターゲットは実際のシーケンス自体に設定され、上位層のターゲットは、下位層のエラーユニットを畳み込み、それを ReLU と Max プーリングで処理し、LSTM を表現ニューロンとして使用することで取得されます。 (R_l)^tは(R_l)^(t-1)と(E_l)^(t-1)を使用して更新され、(R_l+1)^tが得られます。 (A_l)^t^は、(R_l)^tスタックの畳み込みにReLU処理を追加することで得られます。下位層では、(A_l)^t^ は最大ピクセル値に設定された非線形セットによって飽和します。

最後に、(E_l)^tは(A_l)^t^と(A_l)^tの差として計算され、ReLU活性化の正と負の予測誤差に分割され、特徴次元に沿って連結されます。完全な更新式は次のとおりです。

モデルは、エラーユニットアクティビティの加重合計を最小化するようにトレーニングされます。トレーニング損失は次のとおりです。

減算と ReLU アクティベーションで構成されるエラーユニットの場合、各レイヤーでの損失は L1 エラーに相当します。この論文ではこの問題については検討していませんが、著者らは、他のエラーユニット、おそらくは確率的または敵対的なエラーユニットを使用して実装することもできると示唆しています。完全なプロセスは次のとおりです。

状態の更新は、(R_l)^t 状態が計算されるトップダウンパスと、予測、エラー、および高レベルの目的を計算するフォワードパスの 2 つのパスを介して実行されます。最後に注目すべき点は、R_l と E_l がゼロに初期化されることです。これは、ネットワークの畳み込みの性質によるもので、初期予測が空間的に一貫していることを意味します。

3.2 PredNetの予測コーディング分析

このセクションではPredNet [1]のグラフィカル表現を紹介します。図 5 は、モデルの最下層にある PredNet 予測要素 (PE) を示しています。左側の表現モジュールは cLSTM (畳み込み LSTM) として実装されています。 PredNet はビデオデータを処理するため、このモデルの表現モジュールは畳み込み LSTM (cLSTM) で構成されます。 cLSTM は、特徴ベクトルの代わりにマルチチャネル画像を内部データ構造として使用する LSTM の修正版です。 cLSTM は、アフィン重み積 (通常の LSTM で使用される) に基づくゲーティング操作を、マルチチャネル画像に適用される畳み込みゲーティング操作に置き換えて、ビデオなどの画像シーケンスの有用な表現を生成します。表現モジュールの出力はエラー計算モジュールに投影され、その出力は表現モジュールに返されます。モデルは、予測をターゲットフレームと比較し、予測誤差をコスト関数として使用することで、ビデオ内の次のフレーム (ターゲット) を予測することを学習します。図 5 では、フィードフォワードとフィードバックの接続が次の上位層にどのようにリンクされているかが示されていないため、予測誤差を予測するモデルであるかどうかはわかりません。この点では、予測コーディングモデルとしては一般的です。

図 5. PredNet の最下層 (トレーニングモード) の情報フロー。入力は実際のビデオフレームで、R と E は再帰的に接続されています。

PredNet と以前の予測コーディングモデルの基本的な違いは、PredNet のモジュール間接続が、以前に研究されたモデルのモジュール間接続と異なることです。具体的には、PredNet は RB プロトコルに従いません。これは図 5 ではわかりにくいですが、RB プロトコルとは異なるモジュール相互接続パターンを持つ PredNet モデルの 2 層バージョンを示す図 6(a) では明らかです。たとえば、PredNet では第 2 層の表現が第 1 層の表現に投影されますが、RB プロトコルが使用される場合は第 1 層のエラーに投影されます。同様に、RB プロトコルを使用する場合は、最初のレイヤーを 2 番目のレイヤー表現に投影する必要があります。対照的に、PredNet は第 2 層のエラーを投影します。

下の図 6 は PredNet の 2 つのビューを示しています。

(ア)

（ロ）

図 6. PredNet の 2 つのビュー。 (a) 簡単なテキストによる説明。 (b) 再構成画像

図 6 を使用して、PredNet の動作方法を詳細に分析できます。 L0 トレーニング損失を使用する場合、エラー値 e2 はトレーニング損失関数の一部ではないため、レイヤー 2 表現での学習では損失 e1 のみが削減されます。さらに、2 層アーキテクチャ表現は高次エラーを削減しますが、L0 損失関数はその逆の効果をもたらします。 e2はトレーニングに影響しないからです。 e2 からの逆伝播された重み更新情報は矢印の反対方向に流れます。

仮定: 「1」としてマークされた接続を切断しても、パフォーマンスへの影響はごくわずかです。この仮定が正しいと判明した場合、より高レベルの予測誤差計算は重要な役割を果たさないことになります。 Hosseini M 氏と Maida A 氏は、これは PredNet モデルが真の予測コーディングネットワークではなく、その機能原理が従来のディープネットワークの原理に似ていることを意味すると考えています。具体的には、最下層で二乗誤差損失の合計を使用する階層型cLSTMネットワークです[1]。図 6 には明示的に示されていませんが、連続するレイヤー間のアップリンクではプーリングが使用され、ダウンリンクではアップサンプリングが使用されます。これにより、何らかの形の階層的な空間コンテキストが実現されますが、予測誤差を高レベルの表現として使用するため、ヒューリスティックに解釈することが困難です。

4. RBプロトコルを使用したPredNetの改善に関する考察

上記の紹介から、PredNet はディープラーニングアーキテクチャにおける最初の予測コーディングであることがわかりますが、RB プロトコルには従っていません。 Hosseini MとMaida Aは文献[1]でRBプロトコルを使用してPredNetを改良する方法を提案しており、図7に示すようにRBPモデル（RB-PredNet）と呼ばれています。すべてのトレーニング可能なパラメータは、A^l、(A^l)^、およびR^lモジュールにあります。これら 3 つのモジュールタイプはすべて、マルチチャネル 2D 畳み込み演算を実行します。 A^l モジュールと (A^l)^ モジュールは 1 つの操作を使用しますが、R^l モジュールは cLSTM を実装するため、合計で同じ操作が 4 セット使用されます。出力チャネルの数が oc の場合、この出力を計算するには oc 個のマルチチャネル畳み込みが必要になり、これが畳み込みセットのサイズになります。 cLSTM には 3 つのゲート操作と 1 つの入力更新操作があり、それぞれがマルチチャネル畳み込みのセットを計算します。これらのセットは、カーネル内の重みの値を除いて同一です。 R^l モジュールの入力チャネル数 (ic と表記) は、フィードフォワード入力、ラテラル入力、フィードバック入力の合計です。すべての畳み込み演算では、1 次元で k=3 で表されるカーネルサイズを持つ正方形フィルターが使用されます。これらを考慮すると、次の式は、畳み込みセットと呼ばれるマルチチャネル畳み込みのセットのパラメータ数を示します。

このうち、多チャンネル畳み込みフィルタの重みは括弧内に示されています。各フィルターにはバイアスがあります。各出力チャネルには、マルチチャネル畳み込みが必要です。表1は図7のモデルのパラメータ計算量を示しています。モデルには合計65799個のトレーニング可能な重みがあります。

図7. 改良されたRBPモデルアーキテクチャ

表 1. 図 7 に示したモデルのパラメータ計算。 R^l モデルの LSTM を GRU に置き換えると、パラメータ数は 65799 ではなく 50451 になります。これは、各R^lモジュールの畳み込みセットの数を4から3に変更することで実現されます。

次に、著者らは図 7 の RBP モデルを元の PredNet 3 層モデルと比較しました。どちらのモデルも同じ 11 個のモジュールを使用します。どちらのモードも、R^l モジュール内の同じ出力チャネルを使用するように制限されています。これらのモジュールを組み合わせるには、Rl^ モジュールに異なる数の入力チャネルが必要であり、E^1 モジュールと E^2 モジュール、およびそれらを接続する A^l モジュールと (A^l)^ モジュールにも異なる数のチャネルが必要です。入力チャネル数が異なるため、図 8 のモデルには 65,799 個ではなく 103,020 個のパラメータがあります (表 2 を参照)。図 7 と 8 のモジュールを接続する矢印は、情報の流れの方向を示しています。矢印の上の数字ラベルは、そのパスのチャネル番号を示します。各モデルの R^l モジュールの出力チャネル数は一致しています。

図 8. 拡張された 3 層 PredNet モデル。青い経路は RBP モデルには存在しませんが、拡張モデルでは使用されています。また、赤い経路は RBP モデルとハイブリッドモデルの両方で欠落しており、これは元の PredNet モデルに固有のものです。矢印の近くのラベルはチャンネル番号です。この構造は、表3に示すPred1およびPred2モデルによって実装されます。

表2. 図8に含まれるパラメータ計算

すべてのモデルは、前処理された KITTI トラフィックデータセットで Adam オプティマイザーを使用して 20 エポックにわたってトレーニングされます。データセットは前処理され、サイズが 120 x 160 ピクセルの 3 チャンネルカラー画像が得られます。このデータセットで予測タスクを完了するには、モデルがビデオフレーム内の複数の移動オブジェクトと非移動オブジェクトを検出して追跡する必要があります。著者らは 3 つのアーキテクチャを実験的にテストしました。 1 つ目は RBP アーキテクチャで、R^l モジュールは cLSTM から構築されます。 2 番目も RBP アーキテクチャであり、R^l モジュールは畳み込み GRU によって構築されます。 3 つ目は、オリジナルの PredNet アーキテクチャを使用してテストすることです。具体的なモデルアーキテクチャ仕様を表 3 に示します。

表 3. モデル ID でインデックス付けされたモデルアーキテクチャ仕様。ここで、「スタックサイズ」はエラーモジュールの入力チャネルの数、「R スタックサイズ」は表現モジュールの出力チャネルの数、「Params」はモデル内のトレーニング可能なパラメータの数です。

著者らは具体的に2つの実験を完了した。最初の実験では損失関数の重みとして[.5, .4, .2]を使用しました。 2番目の実験では、重み値が[1, 0, 0]の損失関数を使用します。すべての実験において、著者らは平均絶対誤差 (MAE)、平均二乗誤差 (MSE)、構造類似性指数 (SSIM) の 3 つのパフォーマンスメトリックを記録しました。すべてのメトリックは、ニューラルネットワークのパフォーマンスメトリックとの比較を容易にするために、[3]に示されているベースライン制御条件下で計算されます。ベースラインは、現在のビデオフレームを次のフレームの予測値として使用します。表4と表5は、それぞれ2つの実験の結果を示します。著者は、エラースコアをベースラインスコアと比較する必要があると予測しました。トレーニング段階では、RBPモデルは、トレーニングデータで.0191の平均絶対誤差（MAE）と、検証エラーで.0245の平均絶対誤差を達成しました。テスト段階では、次のフレームのMSEの予測精度は.0163であり、前のフレームを使用するベースライン予測精度は予測として.0212です。これらの結果は、プレドネットモデルの結果に非常に近いものです。 SSIMの結果は、MAEの結果と非常に似ています。これらの結果は、異なる通信構造にもかかわらず、2つのモデルが実際に同等であることを示しています。 2番目の実験の結果は、最初の実験の結果とは異なりました。両方のモデルの予測パフォーマンスが改善されました。 Lotter et al。によって提案されたプレドネットモデルの場合、これは元の論文で結果が報告されたために予想されます。

表4。LSTMを使用した元のプレドネットモデルとLSTMとGRUを使用したRBPモデルの比較。両方のモデルの層損失関数の重みは[.5、.4、.2]です。完全なモデル仕様は、表3のモデルIDを調べることで見つけることができます。

表5。元のプレドネットモデルとRBP 3層モデルの比較。両方のモデルの損失関数の重みは[1.0、.0、.0]です。モデルの詳細については、表3のモデルIDを調べてください。

5. まとめ

この記事では、深い学習アーキテクチャの古典的な予測コーディングモデルと予測コーディングモデルを簡単に確認します。予測コーディングモデルは、トップダウン再構成メカニズムを使用して、感覚入力またはその低レベルの表現モデルを予測します。ディープラーニングアーキテクチャのプレドネットは、エラー駆動型の表現階層を構築します。ここでは、上層表現の入力は前のレイヤーの予測エラーから得られますが、プレドネットはRBプロトコルを満たしていません。また、文献[1]で提案されているRBプロトコルに基づいて、改良されたプレドネットを紹介します。与えられた実験結果の分析から、RBプロトコルに続く改善されたRBPモデルがパフォーマンスを改善することがわかります。

定義の観点から見ると、予測コーディングモデルの目的は「予測エラーを減らす」ことであることがわかります。ただし、予測エラーを減らすことで表現を生成する場合、これらの取得した表現が分類タスクなどの特定のタスクに効果的であることを保証することはできません。 [1]の著者が記事の最後に尋ねたように、高次表現の構築を導く残留エラーは、プレドネットモデルの学習能力をどのように改善しますか？予測エラーは学習をトリガーしますが、機能レベルで学習をトリガーするために必要なものはありますか？

この記事を書いていたとき、予測コーディングに関連する文献を検索しました。上で述べたように、深い学習アーキテクチャで本当に予測的なコーディングと呼ばれる唯一のモデルは、プレドネットであり、プレドネットに基づいたいくつかの改善されたバージョンです。著者は、これが予測コーディングが「予測エラーの削減にのみ取り組んでいる」という事実に関連している可能性があり、一部の専門的なタスクではうまく機能しない可能性があると推測しています。ただし、脳の作業メカニズムを高度にシミュレートするこの方法/モデルが、実際のシナリオでより良いアプリケーション結果を達成できるかどうかには、さらに詳細な研究と探索が必要です。

<<: 清華特別賞：AIを使って甲骨文字を鑑定する人もいれば、6Gを研究する人もいれば、オリンピックチャンピオンの楊倩もいる

>>: 毎日のアルゴリズム: 回文部分文字列