動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

[[409851]]

0 はじめに

この記事で議論されている問題は、ICLR 2019の記事「CRITICAL LEARNING PERIODS IN DEEP NETWORKS」[1]に基づいています。この記事では、著者は、動物や人間の学習プロセスと同様に、ディープニューラルネットワークにもスキルを学習するプロセスに「重要な学習期間」があるという概念を提唱しています。生物学的観点から見ると、臨界期とは、出生後早期の発達において、知覚障害が永久的な技能障害につながる可能性がある時期を指します。生物学分野の研究者は、子猫の視覚や鳥の歌の学習など、さまざまな種やシステムに影響を与える重要な時期を発見し、記録してきました。人間の場合、視力発達の重要な時期に眼の欠陥（斜視や白内障など）を矯正しないと、成人の 50 人に 1 人が弱視になる可能性があります。

生物学分野の研究者は、人間や動物に臨界期が存在する理由は、神経可塑性の窓の生化学的調節にあると結論付けている[2]。ニューラルネットワークの最も初期の起源は、人間の脳のニューロンの動作モードをシミュレートすることでした。Achilleらは文献[1]で、感覚障害に対するディープニューラルネットワークの反応は、人間や動物モデルで観察される反応と同様であることを実証しました。動物モデルにおける最終的な損傷の程度は、欠陥ウィンドウの開始と長さに依存しますが、ニューラルネットワークでは、ネットワークのサイズに依存します。ただし、ニューラルネットワークでは、欠陥は画像の垂直反転などの低レベルの統計的特徴には影響せず、パフォーマンスに永続的な影響を与えることはなく、最終的にはさらなるトレーニングを通じて克服できます。この研究結果から、著者は、ディープニューラルネットワーク学習における「臨界期」は生化学的現象ではなく情報処理から生じる可能性があると考えるに至った[1]。この発見は最終的に、この論文で議論されている問題、つまり DNN における臨界学習期間の現象につながりました。

同様に、関連する問題を議論する他の記事もいくつか見てきました。もちろん、これらの論文は「臨界期」の観点からこの問題を議論しているわけではありませんが、そこで明らかにされている法則は、[1]のDNNにおける臨界期現象の法則と非常によく似ています。彼らは主に、ディープニューラルネットワークのトレーニングの初期段階における問題について議論しています。つまり、ディープニューラルネットワークのトレーニングプロセスにおいて、初期段階は他の段階とは異なる「特性」を持っています。これらの研究は、DNN における「臨界学習期間」の存在を別の観点から確認できるため、本稿の議論にも含めます。

例えば、ニューヨーク大学やその他の大学や研究機関の研究者による研究「ディープニューラルネットワークの最適化軌道の損益分岐点」[5]では、DNNの初期トレーニング軌道をシミュレートするための簡略化されたモデルが提案されています。著者らは、損失面の局所曲率（ヘッセ行列のスペクトルノルム）が DNN の最適化軌道に沿って単調に増加または減少することを示しています。 DNN トレーニングの初期段階における勾配降下法は、最終的に損失面の最も湾曲した方向に沿って勾配降下法が振動するポイントに到達します。これは損益分岐点と呼ばれます。さらに、プリンストン大学とGoogle Brainチームの研究者は、「ニューラルネットワークの初期学習ダイナミクスの驚くべき単純さ」[4]と題した論文を発表し、2層完全接続ニューラルネットワークの初期学習段階で、勾配降下法の動的変化を模倣する単純なモデルをトレーニングすることが可能であると指摘しました。最初のレイヤーのみがトレーニングされている場合、この単純なモデルは入力機能の線形関数になります。2 番目または両方のレイヤーがトレーニングされている場合、このモデルは機能とその L2 ノルムの線形関数になります。この結果は、ニューラルネットワークがトレーニングの後半まで非線形機能を十分に活用しないことを意味します。 PLOS COMPUTATIONAL BIOLOGY に掲載された最後の論文では、人間の視覚システムの動作を模倣するフィードフォワード畳み込みネットワークが提案されています。著者らは、特にさまざまなレベルでのネットワーク表現 (「仮想 fMRI」) を分析し、ネットワーク容量 (ユニット数など) が内部表現に与える影響を研究しています。

1 深層ネットワークにおける重要な学習期間[1]

1.1 問題の説明

人間に影響を及ぼす重大な時期の障害のよく知られた例としては、乳児期または小児期の白内障によって引き起こされる弱視（片方の目の視力低下）があります[6]。白内障の外科的矯正後でも、患者が患眼の正常な視力を回復できるかどうかは、視力障害の発症期間と年齢に依存し、早期および長期の視力障害はより深刻な結果をもたらします。この論文の目的は、DNN における同様の欠陥の影響を調査することです。この目的のために、著者らは、CIFAR-10 データベースの 32x32 サイズの画像内のオブジェクトを分類するための標準 All-CNN アーキテクチャをトレーニングしました。実験では SGD をトレーニングに使用します。白内障の影響をシミュレートするために、最初の t_0 エポックでは、データベース内の画像は 8x8 サイズにダウンサンプリングされ、その後、双線形補間を使用して 32x32 サイズにアップサンプリングされて、ぼやけた画像が得られ、小規模な画像の詳細が破壊されます。その後、ネットワークが収束し、コントロールグループ (t_0=0) 実験と同じ数の破損していない画像を取得できることを確認するために、160 エポックにわたってトレーニングが継続されます。

図 1 は、欠陥の影響を受けたネットワークの最終的なパフォーマンスを示しています。具体的には、パフォーマンスは欠陥が修正されたエポック t_0 の関数として示されています。図 1 から、臨界期間の存在が容易に確認できます。最初の 40 ～ 60 エポックでぼかしが除去されない場合、最終的なパフォーマンスはベースラインメソッドと比較して大幅に低下します (エラーが最大 3 倍に増加します)。このパフォーマンスの低下は、動物で一般的に観察される傾向に沿ったもので、例えば初期の研究では、出生後に片目を失った子猫で観察された視力の低下は、欠損の長さに関連していることが実証されています[7]。

図1. DNNで表示される臨界期間

上記の実験の結果を踏まえると、次のような疑問が自然に湧いてきます。入力データ分布の変化には、学習にとって対応する臨界期間があるのでしょうか?著者らは、これはニューロンネットワークには当てはまらず、ニューロンネットワークは感覚処理における高レベルの変化に適応できるほど可塑性があることを示している。たとえば、成人の人間は、視野の反転など、特定の劇的な変化に素早く適応することができます。図 2 では、DNN は画像の垂直反転や出力ラベルのランダムな順列などの高レベルの不完全性の影響をほとんど受けないことがわかります。バグが修正された後、ネットワークはすぐにベースラインのパフォーマンスに戻りました。これは、データ分布の構造と最適化アルゴリズムの間のより微妙な相互作用を示唆しており、それが臨界期間の存在につながります。

次に、著者らはネットワークにさらに徹底的な欠陥攻撃を適用し、各画像をホワイトノイズに置き換えました。図 2 は、この極端な不完全さが、単に画像をぼかす場合よりも影響がはるかに少ないことを示しています。ホワイトノイズを使用してネットワークをトレーニングすると、自然画像に関する情報は提供されないため、ホワイトノイズの影響は他の欠陥 (画像のぼやけなど) よりも軽微になります。ただし、ホワイトノイズには何らかの情報が含まれているため、ネットワークは画像には存在しない微細構造を (誤って) 学習してしまいます。

図 2. (左) 高レベルの摂動は臨界期にはつながりません。欠陥が高レベルの特徴（画像の垂直反転）または CNN の最後の層（ラベルのスワッピング）にのみ影響する場合、ネットワークは臨界期間を示しません（テスト精度はほぼ安定したままです）。一方、知覚剥奪に似た欠陥（画像がランダムノイズに置き換わる）は欠陥を引き起こしますが、その影響はぼやけた画像の場合ほど深刻ではありません。 (右) 臨界周期曲線のネットワーク深さへの依存性。畳み込み層を追加すると、重要な期間の欠陥の影響が増加します。

図 3 は、MNIST ライブラリでトレーニングされた完全接続ネットワークにも、画像ぼやけ欠陥の臨界期間があることを示しています。したがって、著者らは、畳み込み構造は（再現モデルのトレーニングの重要な期間には）必要ではなく、自然画像の使用も必要ではないと主張している。同様に、CIFAR-10 でトレーニングされた ResNet-18 にも、標準的な畳み込みネットワークの臨界周期よりも大幅に鋭い臨界周期があります (図 1)。著者らは、ResNet により勾配が下位層に逆伝播しやすくなること、またその臨界期間の存在は臨界期間が勾配消失によって引き起こされるのではないことを示していると分析しました。図2（右）は、臨界期間の存在がネットワークの深さに大きく依存していることを示しています。図3では、ネットワークが一定の学習率でトレーニングされた場合でも、臨界期間があることが著者らによって確認されています。図 3 (右下) は、Adam をオプティマイザーとして使用し、前の 2 つのタイムステップでの移動平均を使用して勾配を再正規化すると、標準の SGD と同様の臨界期間が依然として観察されることを示しています。最適化されたハイパーパラメータを変更すると、臨界期間の形状が変化する可能性があります。図 3 (左下) は、重みの減衰が増加すると臨界期間が長くなり、鋭さが鈍くなることを示しています。これは、ネットワークの収束が遅くなり、欠陥を克服するために高レベルの変更能力が制限され、それによって低レベルでも新しい機能を学習するように促されるという事実によって説明できます。

図3. さまざまなDNNアーキテクチャと最適化スキームにおける臨界期間

1.2 フィッシャー情報分析

著者らは、動物と DNN の両方において、トレーニングの初期段階がトレーニングプロセスの結果に非常に重要であることを経験的に判断しました。動物においては、これは障害に関連する領域の脳構造の変化と密接に関連していました。人工ネットワークでは、トレーニング中に接続性が固定されるため、これは必然的に異なります。ただし、すべての接続がネットワークにとって同様に有用であるとは限りません。近似事後分布p_ω(y|x)をエンコードするネットワークを考えます。ここでωは重みパラメータを表します。特定の接続からの最終出力の依存性は、対応する重みを変動させ、最終分布がどの程度変化するかを観察することによって推定できます。重み摂動 ω'=ω+δω が与えられた場合、摂動によって生成された p_ω(y|x) と p_ω'(y|x) 間の偏差は、KL ダイバージェンスによって測定できます。つまり、

ここで、F はフィッシャー情報行列 (FIM) です。

FIM は、単一の重み (または重みの組み合わせ) の変化がネットワーク出力にどの程度影響するかを測定するローカルメトリックと考えることができます。特に、フィッシャー情報量が低い重みは、ネットワークのパフォーマンスにほとんど影響を与えることなく変更または「剪定」できます。これは、フィッシャー情報は DNN の有効な接続性の尺度として、またはより広義には接続の「シナプス強度」の尺度として使用できることを示唆しています。最後に、FIM は損失関数のヘッセ行列の半正定値近似でもあり、したがってトレーニング中の点 ω における損失の曲率であり、FIM と最適化手順の間の接続を提供します。

残念ながら、完全な FIM は大きすぎて計算できません。したがって、この論文の著者は、そのトレースを活用して、グローバルまたはレイヤーごとの接続強度を測定します。著者らは、以下の方法を使用して FIM を計算することを提案しています。

非対角項の挙動を捉えるために、著者らはクロネッカー因数分解近似を使用して完全な行列の対数行列式を計算しようともしています。著者らは、トレースと同様の質的傾向を観察した。 FIM はローカルな尺度であるため、損失プロファイルの不規則性に非常に敏感です。そのため、本稿では損失条件が比較的滑らかな ResNet を主に使用しています。他のアーキテクチャの場合、著者らは重みにノイズを注入することに基づく、より堅牢な FIM 推定器を使用します。

FIM は、モデルに含まれるトレーニングデータ内の情報量の尺度として決定できます。これに基づくと、経験から情報が得られるにつれて、全体的なつながりの強さは単調に増加すると予想されます。しかし、そうではありません。初期段階ではネットワークがデータに関する情報を取得し、接続の強度が大幅に向上しましたが、タスクのパフォーマンスが頭打ちになると、ネットワークは接続の全体的な強度を低下させ始めました。しかし、これはパフォーマンスの低下を意味するものではなく、むしろパフォーマンスは徐々に向上しています。これは、「忘却」または「圧縮」フェーズと考えることができます。このフェーズでは、冗長な接続が排除され、データ内の無関係な変更が破棄されます。これまでの研究では、不要なシナプスの除去（「刈り込み」）が学習と脳の発達における基本的なプロセスであることが実証されています（図4、中央）[8]。図 4 (左) では、同様の現象が DNN で明確かつ定量的に示されています。

これらの接続強度の変化は、図 1 の「スライディングウィンドウ」法を使用して計算されたように、臨界期間によって引き起こされる欠陥 (画像のぼやけなど) に対する感度と密接に関連しています。図 4 では、感度が FIM の傾向と密接に関連していることがわかります。 FIM は、欠陥のないネットワークトレーニング中のある時点で計算されるローカル量ですが、臨界期間の感度は、欠陥のあるネットワークトレーニングが終了した後にテストデータを使用して計算されます。図 4 (右) は、欠陥が FIM に与える影響をさらに強調しています。欠陥が存在すると FIM が増加し、欠陥が除去された後も大幅に増加します。著者らは、データが分類できないほど破損すると、ネットワークがラベルを記憶せざるを得なくなり、同じタスクを実行するために必要な情報量が増加するためである可能性があると分析した。

図4. DNNの臨界期はフィッシャー情報の変化に遡ることができる

FIM のレイヤーごとの分析により、ネットワーク上の欠陥の影響がさらに明らかになります。欠陥のないネットワーク (この場合は ResNet よりもレイヤー分割がきれいな All-CNN) をトレーニングする場合、最も重要な接続は中間レイヤー (図 5 左) にあり、入力 CIFAR-10 画像を最も有益な中間スケールで処理します。ただし、ネットワークが最初にあいまいなデータでトレーニングされた場合 (図 5、右上)、接続の強度は最上位層 (レイヤー 6) によって支配されます。著者らは、これは画像の低レベルおよび中レベルの構造が破壊されるためだと分析した。ただし、トレーニングの初期段階で欠陥が除去されると (図 5、上部中央)、ネットワークは「再編成」して最後の層に含まれる情報を減らし、中間層の情報を増やすように試みます。著者らはこれらの現象を「情報の可塑性」の変化と呼んでいます。ただし、統合フェーズ後にデータの変更が発生した場合、ネットワークは有効な接続を変更できません。各レイヤーの接続強度は基本的に変わりません。この時点で、ネットワークは情報の可塑性を失い、重要な期間を逃してしまいます。

図 5. 各層の重みに含まれる正規化された情報量とトレーニングエポックの関係。 (左上) 欠陥がない場合、ネットワークは主に中間層 (3-4-5) に依存してタスクを解決します。 (右上) 画像ぼやけ欠陥がある場合、100 番目のエポックまでは、中間層ではなく上位層 (6 ～ 7) に多くのリソースが割り当てられます。 (上部中央) 以前のエポックで欠陥が除去されると、レイヤーは部分的に再構成される可能性があります (例: レイヤー 6 での急速な情報損失)。（下段）同じグラフだが、臨界周期を誘発しない反転欠陥がある

最後に、FIM の分析により、損失関数の幾何学と学習ダイナミクスも明らかになります。 FIM は残差分布 (ランドスケープ) の局所曲率として解釈できるため、図 4 は学習にボトルネック段階を通過する必要があることを示しています。初期段階では、ネットワークは高曲率（高フィッシャー情報量）の領域に入り、統合段階に入ると曲率が減少し、ボトルネックを越えて次の段階に入ることができます。収束の初期段階は、ネットワークを「正しい」収束結果に導くために重要です。臨界期間の終了は、ネットワークがすべてのボトルネックを通過し (したがって特徴を学習し)、収束領域 (曲率が低い、またはフィッシャー情報量が低い重み空間の領域) に入った後です。

1.3 議論

これまで、臨界期は特殊な生物学的現象であると考えられてきました。一方、DNN の分析では、初期の過渡動作は無視され、主に漸近特性に焦点が当てられます。著者らは、この論文は人工ニューラルネットワークにおける臨界期間の現象を調査した初めての論文であり、人工ニューラルネットワークの漸近的パフォーマンスを決定する上での過渡現象の重要な役割を強調していると述べています。臨界期の調節におけるシナプス結合の役割に着想を得て、著者らはこの段階を研究するためにフィッシャー情報を導入した。この記事は、欠陥に対する初期の感度が、ネットワークが最初に急速に増加し、その後、保存される情報の量が減少するため全体的に、また、ネットワークが効果的な接続を「再編成」して情報を最適な方法で処理するため階層的に、FIM の変化と密接に関連していることを示しています。

この研究は生物学における臨界期に関する膨大な文献に関連しています。人工ネットワークはニューラルネットワークの極めて単純化された近似ですが、人間や動物モデルで観察される臨界期と本質的に同様の動作を示します。この論文で紹介されている情報分析は、DNN における初期の高速記憶段階の後に情報の可塑性が失われ、それがさらにパフォーマンスを向上させることを示しています。 [9]では、著者らは訓練の2つの異なる段階の存在を観察し議論しており、その分析は重みの（フィッシャー）情報ではなく活性化の（シャノン）情報に基づいていた。多層パーセプトロン（MLP）では、[9]は経験的にこれら2つの段階が勾配共分散の急激な増加に関連していることを示した。ただし、FIM は、グラウンドトゥルースラベルではなくモデル予測に関する勾配を使用して計算されるため、品質の違いが生じる可能性があることに注意することが重要です。図 6 は、勾配の平均と標準偏差が欠陥のあるトレーニングと欠陥のないトレーニングの間で明確な傾向を示さず、したがって FIM とは異なり、臨界期間に対する感受性と関連していないことを示しています。

図 6. トレーニング中の勾配の平均（実線）と標準偏差（破線）の対数。 (左) 欠陥なし、(中央) 70 番目のエポック以降にあいまいな欠陥が出現、(右) 最後のエポックに欠陥が出現。

フィッシャー情報量には、臨界期間における欠陥の感度との密接な関係に加えて、対角線の推定が容易であること、相互情報量の推定値の選択に影響されないこと、人工ニューラルネットワーク内の各層の有効な接続性の変化を検出するのに役立つことなど、いくつかの技術的な利点があります。

活性化の完全な分析では、情報量（タスク関連と妨害関連の両方）だけでなく、そのアクセス可能性（たとえば、線形分類器によってタスク関連情報がどれだけ簡単に抽出できるか）も考慮する必要があります。同様の考えに従って、Montavonら[10]は、各層の表現のラジアル基底関数（RBF）カーネル埋め込みに対して主成分分析（PCA）を実行することで、表現の単純さの層ごと、つまり「空間的」（時間的ではない）な進化を研究しました。彼らは、多層パーセプトロンでは、タスクに関連する情報が表現埋め込みの最初の主成分に集中しており、層ごとに「アクセスしやすい」ことを示しました。この研究は重みの時間変化に焦点を当てています。より単純な重み (FIM で測定) を持つネットワークでは、重みの変動に対して堅牢であり、適切に機能するために、より単純な滑らかな表現 (RBF 埋め込みで測定) も必要です。したがって、この論文の分析はMontavonらの研究と一致しています。両方のフレームワークを同時に使用して、ネットワークの共同の時空間進化を研究することは興味深いでしょう。

アクティベーションやネットワークの動作ではなく、重み情報に焦点を当てることの利点の 1 つは、重要な期間中に「有効な接続性」の読み取り値が得られることです。人工ネットワークとニューラルネットワークの両方において、欠陥除去後の「行動」の読み出しは、視覚経路のさまざまなレベルでの欠陥適応の変化によって混乱する可能性があります。

クヌーセンは動物モデルにおける臨界期について洞察に富んだ説明を行った。神経回路網の初期の接続は不安定で容易に修正可能（高度に可塑性）であるが、より多くの「サンプル」が観察されるにつれて、それらは変化し、修正が困難なより安定した構成に達する[11]。ただし、新しく作成された接続パターンでは、まだ学習が可能です。これは基本的にこの論文の研究結果と一致しています。臨界期誘発性欠陥に対する感受性は、接続性が再構築されたときにピークに達し（図4左）、欠陥のあるネットワークと欠陥のないネットワークで明確な接続性マップが観察されました（図5）。画像の反転やラベルの置換などの高レベルの欠陥の場合、欠陥を修正するためにネットワークの接続を完全に再編成する必要はないため、臨界期間は存在しません。

さらに、私たちの作業は事前トレーニングと比較することもできます。 Erhanらは、関連性はあるが現在ではほとんど使用されていない層間教師なし事前トレーニングのアプローチを研究し、ネットワークの重みを損失に向かって良い解に近づけるための正則化子として使用でき、早期のサンプルはネットワークを特定の解に導くのに効果的であると主張した[12]。

図 4 は、SGD がネットワークトレーニングで 2 つの異なる段階を経ることを示しています。最初、ネットワークは損失ランドスケープ内の曲率の高い領域に向かって移動します。第 2 フェーズでは、曲率が減少し、ネットワークは最終的に平坦な最小値に収束します。著者らは、これはネットワークが有用な特徴を学習するためにトレーニング中にボトルネックを通過し、学習が完了した後に最終的に損失面の平坦な領域に入るためであると解釈しています。この仮定を欠陥感度分析と組み合わせると、このボトルネックを超えたときにまさに臨界期間が発生すると仮定できます。また、DNN における平坦な最小値 (曲率の低い最小値) への収束が、優れた一般化パフォーマンスと関連しているという証拠があることも注目に値します。この解釈と一致して、図 4 (右) は、欠陥の影響をより受けやすいネットワークが最終的により鋭い最小値に収束することを示しています。しかし、ネットワークのパフォーマンスは、初期の「敏感な」段階ですでに大部分が決定されていることもわかりました。したがって、著者らは、実験における最終的な収束の鋭さは、十分に要約され一般化された理由ではなく、偶然の現象である可能性もあることを認めています。

この研究の目的は、人工ネットワークを通じて人間（または動物）の脳を研究することではなく、生物学的および人工的な実装を含む基本的な情報処理現象を理解することです。さらに、著者らは、論文中の分析と実験は生物学的脳や人工ネットワークに臨界期があることを示しているが、それは必ずしもDNNが神経生物学的情報処理に有効なモデルであることを意味するわけではないと強調している。「人工神経科学」に関する研究は、動作を理解し予測できるように「説明可能な」人工知能システムを開発するという技術的ニーズを満たすことを部分的に目的としている。神経科学者は生物学的現象を研究するために数学モデルを使用することが多いですが、私たちは人工ネットワークにおける情報処理を理解するためによく知られている生物学的現象を使用することを選択しました。逆に、生物学的ネットワークにおける接続の刈り込みが、情報の可塑性の喪失の原因ではなく結果であるかどうかをテストする方法を探ることも興味深いでしょう。学習と発達の過程でのネットワーク再構成のメカニズムは、基本的な情報処理現象によって引き起こされる進化の結果であると考えられます。

2 ディープニューラルネットワーク最適化軌道の損益分岐点[5]

この記事は、「臨界期」という厳密に生物学的な概念とは直接関係がありません。「ディープニューラルネットワークの初期のトレーニング段階が最終的なパフォーマンスに与える影響の重要性」という問題に焦点を当てています。生物学的な概念とは関係ありませんが、ディープラーニングにおける臨界学習期間（初期トレーニング段階）の問題を考察しているので、この記事も解釈します。

2.1 問題の説明

近年、ディープニューラルネットワーク (DNN) の研究と応用は急速に発展していますが、その最適化と一般化機能の関係は十分に理解されていません。たとえば、初期学習率を大きくすると、DNN の一般化能力が向上することがよくありますが、初期トレーニング損失の減少が犠牲になります。対照的に、バッチ正規化レイヤーを使用すると、ディープニューラルネットワークの一般化能力と収束速度が向上することがよくあります。ディープニューラルネットワークの初期トレーニング段階に関する研究は、 DNN の最適化と一般化能力の関係に対処する効果的な方法です。たとえば、優れた一般化機能を実現するには、トレーニングの初期段階で正則化を導入する必要があります。

この論文では、特にトレーニングの初期段階における最適化軌道の依存性を研究します。著者らは、ミニバッチ勾配のノイズを研究するために勾配共分散を導入し、損失面の局所曲率を研究するためにヘッセ行列を導入しました。勾配共分散行列とヘッセ行列は、DNN の最適化と一般化パフォーマンスの重要性と補完機能を効果的に捉えることができます。さらに、著者らは、最適化軌道がトレーニングの初期段階に依存することに関する 2 つの仮説について、経験的証拠を述べて提示しています。最後に、著者らはバッチ正規化 (BN) レイヤーを持つネットワークに分析を適用し、この場合も予測が有効であることを発見しました。

2.2 損益分岐点とSGDの軌道に関する2つの推測

著者らの研究の動機は、DNN の最適化と一般化機能の関係をより深く理解することです。このセクションでは、勾配の共分散 (K) とヘッセ行列 (H) がトレーニングの初期段階にどのように依存するかを具体的に調べます。

まず、サンプル(x,y)の損失をL(x,y; θ)と定義します。ここで、θはD次元のパラメータベクトルです。トレーニング損失のヘッセ行列はHで表され、勾配共分散行列は次のように表されます。

このうち、g_i は勾配を表し、g はバッチ全体の勾配です。

著者らは、与えられたθ(t)の安定性を定量化するために次の条件を導入する。パラメータθは(e_H)^1に投影され、次のように表されます((e_H)^1はHの最初の固有ベクトルです)。

作れる

τが無限大に近づくにつれて次のシーケンスのノルムが収束しない場合、SGDは(e_H)^1に沿って不安定であると言われます。

ここでψ(0)=θ(t)である。シーケンスψ(t)は、各ステップt'>tを(e_H)^1にマッピングするための最適化戦略を特徴付けます。

予測。実証研究の結論に基づいて、著者は次のような仮定を立てました。

1. (e_H)^1に投影された損失面は2次1次元関数です。

2. 固有ベクトル(e_H)^1と(e_K)^1は同一直線上にある。

3. 次のステップで (e_H)^1 に沿った最適化が減少する場合、次のステップでは (e_H)^1 に沿った最小値からの距離値が増加します。

4. トレーニングフェーズ中に H のスペクトルノルム (λ_H)^1 が増加すると、(e_H)^1 方向に沿った最小値からの距離が減少します。これが満たされない場合、(λ_H)^1 が増加すると、(e_H)^1 方向に沿ったトレーニングが不安定になる特定の領域が発生します。

さらに、著者らは S ≥ N、つまりバッチサイズがトレーニング例の数に比べて小さいことも想定しています。

学習率を大きくするかバッチサイズを小さくすると、損益分岐点に早く到達します。 θ(0)から始まるトレーニングのみを考慮し、(e_H)^1(0)^2に沿ったSGDは安定します。私たちの目標は、学習率 (η) とバッチサイズ (S) がモデル内の H と K を決定することを示すこと、そしてこれが他のニューラルネットワークでも経験的に当てはまると推測することです。

η_1 と η_2 に対応する最適化軌道が与えられ、η_1 > η_2 の場合、両方とも同じ θ_0 から初期化されます。仮定1によれば、(e_H)^1(t)に沿った損失面は次のようになります。

任意の反復tにおいて、SGDが(e_H)^1(t)に沿って安定するための必要十分条件は、

Nはトレーニングサンプルセットのサイズ、s(t)^2=Var[H_i(t)]です。著者は、上式の左辺が初めて1になる軌跡上の点を損益分岐点と呼んでいます。定義上、トレーニングの軌跡には損益分岐点が 1 つだけあります。

仮定3によれば、(λ_H)^1(t)と(λ_K)^1(t)は時間とともに増加します。 S=Nのとき、損益分岐点は(λ_H)^1(t)=2/ηです。仮定 4 は、トレーニング軌道上の損益分岐点を通過した後、SGD は (λ_H)^1 または (λ_K)^1 が損益分岐点よりも大きい領域に入らないことを示しています。そうしないと、上記の式の左半分の項の 1 つが増加し、(e_H)^1 に沿った安定性が失われます。

DNN に関する 2 つの推測。 DNN が損益分岐点に到達すると仮定して、著者らはその最適化軌道について次の 2 つの推測を提案しています。破壊的な点に到達する最も直接的な意味は、分割点の（λ_h）^1および（λ_k）^1はηとsに依存することです。

推測1 （SGDの分散削減効果）。 SGD軌道に沿って、（λ_h）^1および（λ_k）^1の最大値は、より大きな学習レートまたはより小さなバッチサイズで小さくなります。

仮説2 （SGDの前条件付け効果）。 SGD軌道に沿って、学習率が大きくなるか、バッチが小さくなるほど、（λ_h）^*）/（（λ_h）^1）および（（λ_k）^*）/（（λ_k）^1）の最大値が大きくなります。さらに、より大きな学習率またはより小さなバッチサイズの場合、TR（k）とTR（H）の最大値も小さくなります。

著者は、kが最大のn-1非ゼロ固有値を持っているため、非ゼロ固有値をその推測で考慮に入れます。ここで、nはトレーニングデータの数であり、これは過剰パラメーター化されたDNNでDよりもはるかに小さい場合があります。これらの2つの推測は、トレーニングの収束を保証する学習率とバッチサイズにのみ有効です。

2.3実験分析

著者は、最初にトレーニングの初期段階で学習を分析しました。次に、2つの推測が経験的に調査されます。最後のセクションでは、著者は分析をバッチ正規化レイヤーを使用してニューラルネットワークに拡張します。実験で著者が使用するデータベースには、CIFAR-10、IMDB、Imagenet、およびMNLIが含まれます。使用されるネットワーク構造には、SimpleCNN、ResNet-32、LSTM、Densenet、およびBertが含まれます。

理論モデルの重要な仮定は、（λ_h）^1および（λ_k）^1が、少なくとも破壊的な点に到達するまで相関していることです。著者はこれを図7で確認しています。小さいηの場合、（λ_h）^1および（λ_k）^1の最大値が大きくなります。仮定3によれば、（λ_h）^1および（λ_k）^1の増加は、安定性の減少につながり、著者はそれを（e_h）^1に沿った安定性として形式化します。ただし、（λ_h）^1に沿った安定性を直接計算することは、計算的に非常に高価です。したがって、著者は、より実用的なメトリックの測定に切り替えました。各反復で、2つの連続したステップ間のトレーニング損失ΔLの違い。

図7。H（左）とΔLのスペクトル規範（2つの連続したステップの間で計算されたトレーニング損失の差）対（λ_K）^1異なるトレーニングの反復で。 2つの異なる学習率（異なる色）のSimpleCNNを使用したCIFAR-10データベースの実験

次に、著者は、推測を経験的に検証し、推測2。各モデルについて、適切な学習率とバッチサイズが手動で選択され、KとHのプロパティが合理的な計算コストで収束することを確認します。この実験は、主に勾配の共分散（k）を研究しています。128のバッチサイズが使用されます。学習レートを変更するときは、モデルのトレーニングに使用するのと同じバッチサイズを使用します。実験結果を図8に示します。

図8。SGDの分散削減効果と前条件付け効果。より大きな学習レート（η）またはより小さなバッチサイズに対応する最適化軌跡は、より低い最大（λ_k）^1（勾配共分散のスペクトル標準）およびより大きな最大（（λ_k）^*）/（（（λ_k）^1）（勾配共分散の条件数）によって特徴付けられます。垂直線は、トレーニングの精度が（最初の）手動で選択されたしきい値よりも大きいエポックをマークし、これらの効果はトレーニング速度の違いによって説明されていないことを示しています。

次に、著者はこれらの2つの推測を2つの大きな設定でテストします。BERTはMNLIデータベースで微調整され、DensenetはImagenetデータベースでトレーニングされます。メモリの制限により、著者は実験の学習率のみを変更しました。図9は、実験結果を示しています。両方の場合に2つの推測が保持されることを観察します。 Densenetがバッチ正規化レイヤーを使用していることは注目に値します。

図9。分散削減とSGDプレチューニング効果

最後の実験は、バッチ正規化レイヤーを備えたネットワークでの条件付けの学習率の重要性に関するものです。深いニューラルネットワークの損失表面は条件付けされていません。近年、一部の研究者は、バッチ正規化の有効性の主な理由は、損失面の条件付けを改善する能力であると主張しています。推測がバッチ正規化レイヤーを備えたネットワークに保持されるかどうかを調査するために、著者は、バッチ正規化レイヤー（SimpleCNN-BN）を備えたSimpleCNNモデルを使用してCIFAR-10データベースで実験を実施しました。結果を図10に示します。

図10。バッチ正規化レイヤーの有無にかかわらず、さまざまなメトリック、simplecnn（simplecnn-bnおよびsimplecnn）に対する学習率の変更の影響）

図10（下）からわかるように、simplecnn-bnのトレーニングは、比較的高い（λ_k）^1の領域で始まります。これは、バッチ正規化層を持つネットワークが最初の反復で勾配爆発を経験するという以前の研究[13]の結論と一致しています。次に、ηの最低値を除く（λ_k）^1のすべての値が減衰します。この動作は、理論モデルと一致しています。著者は、図10（下）のネットワークの最後の層のバッチ正規化レイヤーで、スケーリング係数の標準を追跡します。著者は、2つのセットアップを比較しました。 simplecnn-bn、η= 0.001;著者は3つの観察を行いました。まず、|| g ||/|| g_5 ||の最大値と最小値。第二に、（λ_k）^1の最大値と最小値は、それぞれ12.05と3.30です。最後に、（（λ_k）^*）/（（λ_k）^1）は、最初の設定で0.343、2番目の設定で0.24に達します。これらの違いをsimplecnn-bnで最高のη= 1.0を使用することによって引き起こされる違いと比較すると、著者らは、より大きな学習率を使用すると、以前はバッチ正規化によってのみ引き起こされる損失スムージング効果につながると結論付けています。

著者は、推測で予測される学習速度の効果は、バッチ正規化層を持つネットワークで保持され、バッチ正規化層を持つネットワークでより大きな学習レートを使用することは、バッチ正規化レイヤーなしの同じネットワークの損失面の条件付けと比較して損失面の条件付けを改善するのに効果的であることを示しています。

3ニューラルネットワークの早期学習ダイナミクスの単純さ[4]

最新のニューラルネットワークは、データへの非線形依存性と損失状況の非概念性のために、作業と出力が理解が困難な複雑なブラックボックス機能と考えられています。この作業では、著者は、神経ネットワークの初期学習段階ではこれが当てはまらない可能性があることを分析と証明しようとします。著者は記事で、行儀の良い入力分布のクラスでは、同時編集された2層完全に接続されたニューラルネットワークの勾配降下の動的な変化プロセスは、初期のトレーニング段階でこの入力の単純なモデルをトレーニングすることで模倣できることを実証しています。最初のレイヤーのみがトレーニングされている場合、このシンプルなモデルは、2番目または2つのレイヤーがトレーニングされている場合、その特徴とそのL_2 Normの線形関数です。この結果は、ニューラルネットワークがトレーニングの後期段階まで完全に非線形機能を発揮しないことを意味します。

3.1 2層ニューラルネットワーク

次のように定義されるM隠されたニューロンを備えた2層完全に接続されたニューラルネットワークを考えてみましょう。

（１）

ここで、xは入力であり、wは最初の層の重みマトリックス、vは2番目の層の重みベクトル、φは活性化関数です。 {（x_i、y_i）}はnトレーニングサンプルを特徴づけ、x_iは入力であり、y_iは対応する出力です。 xはデータマトリックスであり、yは対応するラベルベクトルです。 L_2トレーニングの損失を次のように考えてみましょう。

（２）

ランダム初期化から始めて、ターゲット式（2）での実行勾配降下（GD）処理を実行します。具体的には、次の対称初期化処理が重み（W、V）で実行されます。

（３）

対称初期化式（3）から抽出された一連の初期重みを特徴付ける（w（0）、v（0））。次に、GDに従って重量を更新します。

（4）

その中で、η_1とη_2はそれぞれ学習率です。

次に、著者は入力分布の仮定を提供します。

仮説3.1 （入力分布）。データX_1、...、X_Nは、平均0と共分散0の分布Dからの独立したホモディストリビューション（IID）サンプルであり、tr [∑] = dおよび|| ∑ || = o（1）です。さらに、x〜dはx = ∑^（1/2）1xとして書き込むことができます。ここで、xの入力は独立しており、それらはすべてo（1） - スビガウスです。

仮説3.2 （アクティベーション関数）。活性化関数φは、次の条件のいずれかを満たします。（i）滑らかな活性化：φは、一次および2次導関数を境界しました。

または（ii）線形活性化をブロックします。

クレーム3.1 。 NがDよりもはるかに大きいと仮定すると、仮説3.1では、次の可能性が高くなります。

このセクションの結果は、GDによってトレーニングされたニューラルネットワークがトレーニングの初期段階で線形関数に近いことを証明することです。ニューラルネットワーク内の2つの層の寄与は異なるため、著者はその後の議論を最初のレイヤー、2番目の層、2つの層のみをトレーニングに分割します。

3.1.1最初のレベルのトレーニングのみ

トレーニング層の重みwのみが考慮されます。これは、式（4）にη_2= 0を設定することに相当します。トレーニングの初期段階では、線形モデルが模倣ニューラルネットワーク（F_T）^1に導入されています。

（５）

GDを介したL_2損失のゼロからこの線形モデルのトレーニングを検討してください。

（6）

定理3.2 （最初のレイヤーをトレーニングするための主要定理）。 α∈（0、1/4）を固定定数とします。トレーニングサンプルの数nとネットワーク幅mが満たされると仮定します

η_1がDおよびη_2= 0よりもはるかに小さいと仮定すると、一定のC> 0があります。これは、高い確率ですべてのTニューラルネットワークと線形モデルのトレーニングデータに平均化されます。

（７）

おそらく、すべてのtsについて、私たちは持っています

（８）

3.1.2 2番目のレイヤーのみをトレーニングします

トレーニング層の2番目の重量Vのみが考慮されます。これは、式（4）にη_1= 0を設定することに相当します。トレーニングの初期段階では、ニューラルネットワークを模倣するために使用される線形モデル（f_t）^2は

（9）

ゼロから、GDを使用してこの線形モデルをトレーニングします。

（10）

（f_t）^lin2がt-thラウンドサイクルの結果モデルを特徴付けます。

厳密に言えば、f^lin2（x;γ）はxに関する線形モデルではありませんが、この記事で分析されたデータでは、クレーム3.1、|| x ||/sqrt（d）≈1に従って、非線形特性はほとんど無視できます。最初のレイヤーのトレーニングと同様に、この論文で使用される2番目のレイヤーをトレーニングするために使用する主要な定理は次のとおりです。

定理3.5 （2番目のレイヤーをトレーニングするための主要定理）。 αを一定にしてください。

一定のc> 0があり、非常に高い確率で、すべてのtについて同時に私たちが持っている

3.1.3 2つのレベルを同時にトレーニングします

最後に、2つのレイヤーを同時にトレーニングする場合を検討します。これは、フォーミュラ（4）にη_1=η_2=η> 0を設定することに相当します。トレーニングの初期段階では、ニューラルネットワークを模倣するために使用される線形モデル（f_t）^2は

（11）

3.2予備検証

著者は、x〜n（0、i）およびy = sign（f*（x））によって生成された合成データでエラー関数（ERF）の活性化と幅256の幅をトレーニングすることにより、上記の理論を検証します。図11aでは、著者は、ニューラルネットワーク（青）とその対応する線形モデルf^lin（赤）のトレーニングおよびテスト損失を示しています。初期のトレーニング段階（最大1,000ステップ）では、ネットワークモデルと線形モデルのトレーニング/テスト損失を区別することが困難です。その後、最適な線形モデルを達成した後、ネットワークは改善され続けます。図11bでは、著者は、5つのランダムなテストの例でネットワークの出力（ロジット）と線形モデルの進化を示しています。最後に、図11Cでは、著者は入力寸法dを変更し、各ケースのネットワーク出力と線形モデルの差の平均二乗誤差（MSE）をプロットします。 dの増加とともに違いは減少することがわかります。これは、前の記事の理論的予測と一致しています。

図11。2層ニューラルネットワークは、トレーニングの早い段階で線形モデルを学習します。（a）式（11）で予測されるニューラルネットワークの喪失および対応する線形モデル。実線（破線）は、トレーニング（テスト）損失を表します。 D = 50で、20,000のトレーニングサンプルと2,000のテストサンプルを使用します。ニューラルネットワークと線形モデルは、最初の1000ステップで区別することが困難です。（b）5つのランダムテスト例のロジット（つまり、出力）進化。ニューラルネットワークの予測と線形モデルは、初期の予測段階で良好な一貫性があることがわかります。（c）異なるD値でのネットワークの出力と線形モデルの間の違い（MSE）。

次に、著者は実験を使用して規範相関関数を学習し、規範相関の特徴を式（11）および（9）に導入する必要性を説明します。著者が使用するデータは、次のように生成されます。

reluを使用してアクティブにします。図12は、F^linが実際に単純な線形モデルと比較してより良いニューラルネットワーク近似であることを示しています。

図12。規範依存の特徴が非常に必要です。規範依存性関数を学習するタスクの場合、テスト損失は、式（11）でν_1=ν_2= 0をリセットすることにより、Reluの活性化、対応する線形モデル予測式（11）、および線形モデルを伴うニューラルネットワークを示します。このペーパーで予測される線形モデルは、ニューラルネットワークのより良い近似です。

3.3多層および畳み込みニューラルネットワークに拡張します

最後に、著者は理論的および実験的分析を提供して、トレーニングの初期段階でのニューラルネットワークと線形モデルの一貫性を、より複雑なネットワークアーキテクチャとデータベースに拡張できることを実証します。具体的には、プーリング層のない畳み込み層を含む単純な1次元CNNを検討してください。

著者は、マルチ層FCネットワークとCNNを使用して、CIFAR-10のバイナリ分類タスク（「猫」と「馬」）を実験しました。トレーニングデータとテストデータの数はそれぞれ10,000と2,000です。画像の元のサイズは32×32×3で、4×4の平均プーリングプロセスを使用して画像は8×8×3に縮小されます。著者は、テストデータの予測残差をV_LIN、つまり入力で覆われた空間とそのサプリメント（V_LIN）^⊥（次元は2000d）を分解します。両方のネットワークについて、図13（a）では、ネットワークモデルと線形モデルのテスト損失が1,000ステップ以内でほぼ同じであり、その後ネットワークが（v_lin）^⊥で改善し始めていることを観察します。図13（b）では、著者は3つのランダムテストデータのロジット進化をプロットし、再び初期のトレーニング段階で良好な一貫性を観察します。図13（c）は、ネットワークと線形モデルの間の相対的なMSEをプロットしています。これら2つのネットワークのMSEは、最初の1000ステップでは小さく、その後成長することがわかります。

図13。CNN/FCネットワークの4つの隠れ層と、初期トレーニング段階でのCIFAR-10の線形モデルの間の良好な一貫性

4液体の視覚的認識：深いニューラルネットワークからの啓示[3]

この記事の最終的なエントリポイントは、最初の3つの記事とは異なります。これは、著者が異なるレベルのネットワーク表現（「仮想fMRI」）の動作を模倣し、

脳が複雑な自然物質の物理的特性を視覚的に計算する方法を把握するタスクは、視覚神経科学の分野における大きな課題です。この記事では、液体の認識に焦点を当てています。これは、その極端な変動性と多様な行動のために特に挑戦的な素材のクラスです。具体的には、著者は、液体シミュレーションビデオから人間の平均粘度判断を予測できる画像によって計算できるモデルを提案し、さまざまな観察条件下で個々の観察者の粘度判断を予測することもできます。著者らは、人工ニューラルネットワークをトレーニングして、粘度を100,000 20フレームシミュレーションから推定し、これらのモデルが比較的少ないトレーニングステップを実現する前に人間の知覚を十分に予測できることを発見しました（最適なパフォーマンスを達成する前）。言い換えれば、この論文で選択されたこの視覚神経科学研究の質問では、人工ニューラルネットワークは「初期の重要な学習期間」の明らかな特性も示しています。これは、人間の粘度の知覚は非常に優れているが、理論上、パフォーマンスが向上する可能性があることを示しています。

さらに、著者は記事で「仮想電気生理学」を使用してネットワークを深く分析し、粘度を推定するために使用されるネットワークの多くの異なる特性を明らかにします。著者は、これらの機能がネットワークパラメーター空間のサイズによって大きく影響を受けることを発見しましたが、最終的な予測パフォーマンスはほとんど変化しませんでした。これは、ニューラルネットワークモデルと人間の視覚システムの間で直接的な推論を行う際に非常に慎重になる必要があることを意味します。ただし、この記事で導入された方法は、人間とニューラルネットワークを比較するための参照体系的なフレームワークを提供することができます。

4.1問題の背景紹介

何世紀にもわたって、研究者は、人間の視覚システムの作業メカニズムを解明しようとしました。これは、想像を絶する幅広い画像で複雑で自然なオブジェクトと材料を正常に識別する能力です。その中で、特に興味深い視覚能力の1つは、液体に対する人間の認識です。液体は、粘度などの内部の物理パラメーターと重力などの外力の影響を受けて、その形が非常に多様であるため、さまざまな外観を示すことができます。異なる液体を区別する最も重要な物理的特性は粘度です。現在までに、液体またはその粘度の知覚を予測するために画像によって計算できるモデルはまだありません。この論文の著者は、深いニューラルネットワーク（DNNS）の最新の進歩を使用して、モデルの内部動作メカニズムを調査して、人間の視覚システムが粘度を刺激する方法に関する新しい仮定を推測するようなモデルを開発しようとします。

現在の機械学習では、人工ニューラルネットワークに関する作業のほとんどは、特定のタスクで最高のパフォーマンスを得ることに焦点を当てています。対照的に、この論文の研究は、粘度の推定に最適な数学的に最適なニューラルネットワークを開発することではなく、人間の視覚システムの挙動を模倣するのに最も近いフィードフォワードの畳み込みネットワークを開発することです。モデルの人間との類似性を評価するには、オブザーバーはビデオに基づいて粘度について判断する必要があります。ビデオは、訓練されたニューラルネットワークに直接表示され、判断力の結果を出力します。

このペーパーで使用されているニューラルネットワークには、ビデオデータの処理に適した「静的フレームとは対照的に）「ゆっくりと融合」アーキテクチャがあります[14]。このモデルは、コンピューターで生成された流体シミュレーションアニメーションビデオのデータベースでトレーニングされており、長さ20フレームで、10の異なるシーンカテゴリでの液体の相互作用を説明し、さまざまな動作を誘導します（図14に示すように）。トレーニングの目標は、シミュレーションの物理的粘度パラメーターを推定することです。汎用性をテストするために、著者はトレーニング期間中に第10シーン（シーン10）を使用せず、トレーニングフェーズ中の各シーンのシミュレートされたアニメーションビデオの0.8％が検証のために保持されました。トレーニングラベルは、シミュレーションの16の異なる物理的粘度ステップに対応しています。比較のために、人間のオブザーバーは粘度評価タスクを実行し、これらのシーンの800を視聴し、対応する知覚粘度ラベルをシーンに割り当てました。ニューラルネットワークは、人間の評価ではなく、物理的な粘度ラベルでトレーニングされています。ただし、著者は、ベイジアン最適化ネットワークのハイパーパラメータ（学習率、勢いなど）と、800の知覚される粘度ラベルの人間によく関連するネットワークを決定するために、レイヤーの特定の設定（コアサイズ、フィルターの数）を使用しました。トレーニング時間は比較的短く、30エポック（トレーニングライブラリ全体の30回の繰り返し）しかありません。これらのネットワークを取得した後、著者は内部表現を分析して、ヒューマノイドの挙動につながった特性を決定しました。

図14。10の異なる刺激シナリオ。シーンでは、注ぎ、雨、攪拌、浸漬など、さまざまな液体の相互作用がシミュレートされます。光学材料の特性と照明図はランダムに割り当てられ、白い平面と正方形の貯水池は変化しません。

著者の主な分析と調査結果は次のとおりです。人間のパフォーマンスに十分近いモデルを取得したかどうかを判断するために、最初にネットワークの予測を刺激ベースで人間の知覚された判断と比較しました。著者らは、物理的粘度を推定するように訓練されたネットワークは、実際に人間の平均粘度の判断を予測できることを発見し、人間の個人とほぼ同じであることがわかりました。これは、人間が視覚刺激ディスプレイに基づいてさまざまな視覚タスクを実行することを学ぶ方法であるため、物理的なタグとコンピューターシミュレーションでトレーニングされたこのようなネットワークによって、人間のパフォーマンスを予測することはそれほど容易ではありません。著者はまた、初期のトレーニング段階の後、ネットワークが良好な予測結果を出力できることを発見しました。

第二に、ネットワークが人間のパフォーマンスをシミュレートできると判断した後、著者は、ネットワークの各段階で個々のユニットの応答特性を分析することにより、ネットワークの内部機能に関する洞察を得ようとします（仮想電気生理学）。具体的には、（a）一連のハンド設計された機能に対する応答を実際のシーン特性と比較し、（b）ユニットを最も強くまたは弱く駆動する刺激を決定し、（c）活性化の最大化によって機能を直接視覚化する。これらの分析では、多くのユニットが通信可能な空間的および色の特徴に合わせて調整されていることが示されています。しかし、著者はまた、ネットワークのパフォーマンスにとって特に重要な、より複雑な反応特性を持つユニットのセット（つまり、私たちが考慮する機能のいずれかによって説明するのが難しい）があることを発見しました。著者の分析はまた、ハンド設計された特徴の線形組み合わせが、人間の粘度の知覚を説明するのにそれ自体が十分ではないことを示しています。これは、追加のユニットの重要性をさらに反映しています。

第三に、著者は、ネットワーク表現のレベル全体（「仮想fMRI」）を分析し、内部表現に対するネットワーク容量（つまり、ユニットの数）の影響を研究しました。著者は、主な結論を導き出します。（1）ネットワークの階層に沿った低レベルの画像記述子から高レベルの特徴への段階的な遷移、および（2）内部表現の単位数への依存度の程度は、全体的なパフォーマンスと人間の判断を予測する能力とは関係ありません。

最後に、著者は、ネットワークレベル全体の表現を比較して、同じデータベースでトレーニングされた同じアーキテクチャの100インスタンスが同様の内部表現（仮想個人差）を生成するかどうかを確認しました。結果は高度な類似性を示していますが、ネットワーク階層が深くなるにつれて類似性がわずかに減少します（つまり、低レベルの表現はネットワークの異なるものでほぼ同じですが、トレーニングの後の段階の違いは増加します）。著者はまた、このモデルを他のデータベースで（事前）トレーニングされたネットワークアーキテクチャと比較し、このペーパーで使用される特定のトレーニングライブラリでこのペーパーで使用されているネットワークアーキテクチャをトレーニングすると、人間の判断に最も近い判断結果が生じることがわかりました。

4.2全体的な比較

4.2.1ヒト粘度評価

まず、著者は、液体のコンピューターシミュレーション中に物理的粘度パラメーターを推定するように訓練されたニューラルネットワークがヒトの主観的粘度判断を予測できるかどうかを判断しようとします。これを行うために、著者は最初に粘度評価タスクで人間のパフォーマンスをテストし、ニューラルネットワークと比較できる知覚された判断を生成しました。 16人のオブザーバーが800の液体アニメーションビデオの粘度を獲得し、16の粘度レベルが10のシーンカテゴリでカバーされました。各シーンのカテゴリでは、送信機速度、幾何学的サイズ、または異なる照明条件などの異なるランダムパラメーターで5つのバリエーションがシミュレートされます。この記事では、特定のシミュレーション方法については説明しません。粘度スコアは、刺激物質の下に反応スライダーを使用して行われ、観測者が各液体の流れまたは粘性を報告できるようにします。トレーニング中、オブザーバーは、評価を決定するのに役立つ最大および最小粘度の例を含む4つの例を見ることができます。

図15は、人間のオブザーバー（青い線）の結果を示しています。プロセス全体を通して、報告された値は、各シナリオの5つの変更の平均です。一部のシナリオ（シーン1など）は、他のシナリオよりも大幅に優れています（シーン4やシーン6など）。全体として、物理的粘度は、ヒトスコアの変動の68％を説明しています（r^2 = 0.68、F（1,158）= 337、p <.001）。

図15。（a）10の異なるシナリオの粘度レベル。 X軸は、物理的な粘度グレード（1-16）を示しています。 y軸は、5つの変化の中で平均知覚/予測粘度を示しています。エラーバンドは、平均の標準誤差（SEM）を示しています。青い線は人間の粘度定格であり、赤い線はDNNの粘度予測です。対角線の点線は、実際の状況を示しています。 DNNはここで予測される刺激について訓練しません。シナリオ10（赤）は、Y軸上の10のシナリオのルート平方誤差を示すために、トレーニングライブラリから完全に除外されます。これは、人間の観察とネットワーク予測の間の誤りです。赤い点線は、各シーンの平均誤差を示し、緑色の点線は、ランダムに選択された1,000個の観測値の誤差を示します。

4.2.2ネットワーク予測の結果

さまざまな条件下で人間がどのように機能するかを判断した後、私たちは次に、このトレーニングが人間の判断を模倣した成功と失敗パターンの内部表現を生成できるかどうかをテストすることを目標に、ニューラルネットワークを訓練しました。特定のネットワーク構造については、図16を参照してください。図15aは、ニューラルネットワーク（赤い線）の予測結果を示しています。全体として、このモデルは、物理的粘度を説明する際に、人間の観察者のモデルとほぼ同じパフォーマンスを実行します（r^2 = 0.73、F（1,158）= 437、p <0.001）。重要なことに、ネットワークはさまざまなシナリオで粘度の知覚の違いをよく予測できることです。たとえば、人間と同様に、ネットワークはシナリオ5でうまく機能し、シナリオ4では不十分です。したがって、モデルは人間の知覚の成功と失敗を正しく予測します。実際、ネットワークの予測と人間の平均判断との間のRMSEには、粘度単位が1.50しかありません（図15b）。

図16。融合ネットワーク構造の遅い。入力には、20フレーム64×64×3の画像のアニメーションが含まれています。 3つの連続した畳み込み段階を含む、すべての神経活性化は、応答が平行層に統合されるRelu層で測定されます。ドロップアウト層は、トレーニング中に50％の確率で入力要素をゼロにランダムに設定します。

ネットワーク間の変動性をよりよく理解するために、著者は、ランダムな初期化とトレーニング刺激のランダムな順序のみが異なる100の同一のネットワークインスタンスをトレーニングしました。著者らは、この記事で使用されているニューラルネットワークは、エラーの観点から粘度の知覚を最もよく予測するネットワークであると述べています。図17の実験結果から、ネットワークのさまざまな例が非常に似たパフォーマンスを持っていることがわかります。

図17。（a）単一のオブザーバー（青）のルート平均平方根誤差、個別にトレーニングされたDNNネットワークの最終ネットワークには黒いアウトライン（赤）があり、緑色のドットは1000のランダムサンプリングに基づくブートストラップの推定値を示しています。データポイントがグラフの下半分にある場合、真実の誤差は人間の平均または知覚される粘度よりも大きくなります。（b）同じタイプのチャートは、RMSEの代わりにピアソン相関を示しています。真実が制御変数である場合、部分的な相関は人間の平均と行われます。データポイントがグラフの下半分にある場合、真実値との相関は、人間の平均または知覚される粘度の相関よりも大きくなります。（c）bと同じグラフで、部分的な相関のみを備えており、物理的真理値の場合、人間の平均は独立した相関を示す制御変数です。

粘度の推定タスクは非常に困難であり、それにもかかわらず、ニューラルネットワークは、人間の判断のいくつかのコア機能の空間的および時間的画像情報をキャプチャすることができます。興味深いことに、さらなるトレーニングにより、実際には、人間の知覚粘度を予測するネットワークの能力が低下します（図18）。初期のトレーニングフェーズのエポック30は重要な瞬間であり、その後、過剰適合が増加し始めます（つまり、青い曲線は緑の曲線から分離されます）。

図18。26個の個別訓練されたネットワークでトレーニング時間が増加する（X軸）が増加するにつれて、平均トレーニングと検証エラー（Y軸）の変更を示します。この研究で使用された100のネットワークのために30のエポックのみが訓練されました。これは、粘度予測エラーが増加するにつれてトレーニングが続くと増加するためです。

上記の分析から、著者は、この論文は、挑戦的な物質的認識タスクで人間の知覚の予測を可能にする画像計算可能なモデルを開発していると述べています。特に、このようなモデルを開発する1つの方法は、ベイジアンの最適化を通じてネットワークのハイパーパラメーターを最適化し、800の実験刺激オブジェクトの予測の誤差を最小限に抑えながら、ネットワークの物理的パラメーターを最適化しながら、グラウンドトゥルースの物理的粘度を推定するために、数万のビデオでニューラルネットワークを訓練することです。さらに、著者は、30のエポックの比較的短いトレーニングを通じて優れたトレーニング結果を得ることができることを発見し、その後、さらなるトレーニングがパフォーマンスを低下させることがわかりました。作者表示，这一发现可以帮助克服“只有拥有足够的标记数据才能训练模型” 的挑战，并允许我们测试特定的学习目标和训练库在人类表现中的作用。

4.3 神经活动

在确定这些网络能够为人类的感知判断提供了一个很好的模型之后，作者接下来研究它们的内部运作方式。具体来说，为了更好地了解网络所进行的计算，作者对单元级（unit-level）和层级（layer-level）的激活进行了表征相似性分析（Representational

Similarity Analysis，RSA），并进行了网络间激活的比较(Centred Kernel Alignment，CKA)。

为了得到与网络反应的详细情况相关的信息（类似于单细胞电生理学）作者在单个单元的水平上进行了RSA，映射出网络中的每个单元如何代表所有800 个实验stimuli 之间的关系，并将这些与基于图像和高级预测器进行比较（图19A）。具体来说，对于800 个stimuli 中的每一个stimuli，作者从网络中收集单个单元的神经激活模式；从每个影片中计算出的图像特征值；以及与每个stimuli 相关的高级特征（例如，感知的粘度、场景标签，图19B）。计算800 个stimuli 中的每一个与所有其它stimuli 之间的差异，并存储在一个表征差异矩阵（Representational Dissimilarity Matrix，RDM；图19C）中。然后，我们衡量每个图像特征的RDM 与来自网络中特定单元的RDM 之间的关联程度。对于卷积层中的每个单元，在18 维的预测器空间中都有一个对应的位置。图19D 显示了四个示例单元的18 个预测器的一个子集，以及预测器的RDM 和一个单元的激活RDM 之间的相关性。为了更清楚地了解单元的具体功能，我们将最小和最大限度地激活单元的stimuli 可视化展示（如图19E）。

图19.(A) 单元级分析的RSA 工作流程。(B) 两个stimuli 与所产生的图像度量输出的示例。重影效应（the ghosting effect）显示了随时间变化的运动。多特征指标，如运动能量和GIST，失去了空间结构。(C)与B 相同的图像指标的RDM 实例。每行/ 列代表一个stimuli，颜色表示每对stimuli 之间在相应图像指标方面的距离。每个RDM 都与单个单元的激活RDM 相关，在本例中是Unit237。(D) 最接近四个群组中心的单元的RSA 相关性的选择。整个数据库中的两个stimuli 为D 的单元创造了最小和最大的激活反应。

为进一步了解驱动单个单元活动的因素，作者应用激活最大化来可视化每个单元的响应函数（图20）。慢速融合结构的平行通路（parallel pathways）允许每条通路捕获特定时间的特征。这种关于时间和空间信息的自由的编码方式，加上较小的内核，产生的可视化结果往往是抽象的和难以解释的。第1 层和第2 层有不同的时间长度，可部分访问完整的图像序列（即L1=8 帧，L2=12 帧，L3 和L4=20 帧的完整序列）。根据视觉检查，我们发现第一层主要包含不同时间频率和方向的简单运动相关特征。颜色起了一些作用，不同程度的亮度也被编码。第二层的特征编码了一系列具有时间和颜色变化的纹理，包括具有不同方向的脉动和流动的空间- 时间纹理。在第3 层，特征包括不同空间和时间位置的强烈对比的纹理。然而，反应变得越来越抽象，很难想象这样的单元是真正预测粘度的，这也表明了表征是高度分布的（即依赖许多单元的群体活动，而不是特定粘度或流动模式的"祖母细胞（grandmother cells）"）。全连接的第4 层的视觉效果主要描述了具有时间上重复出现的颜色模式的噪声斑块，这些颜色模式在各单元之间是同步的。这种同步性也发生在不同的种子图像上，表明这些颜色的敏感性在第4 层的各个单元中都有类似的编码。针对这一现象，作者提出了一个问题：时间上的颜色序列是否可能是网络功能的一个重要线索？我们都知道，对于人类来说粘度感知在很大程度上与颜色无关。不过，继续实验我们发现，当我们使用灰度stimuli 时，网络的预测误差只增加了7%。这表明颜色只为粘度估计提供了有限的信息。因此，作者表示，第4 层各单元的颜色敏感性的同步时间波动仍然难以解释。

图20. 每个层的激活最大化结果的静态快照。全连接层4（FC4）有4096 个单元，随机挑选了100 个单元用于此图。

最后，聚焦到我们这篇文章讨论的深度学习中的关键学习期问题，本文网络只训练了30 个epochs，这是一个相对较短的时间。作者发现，在第30 个epoch 之后，感知到的粘度预测结果越来越差，网络开始过拟合。在第30 个epoch 后，带有物理粘度标签的训练误差和带有物理粘度标签的验证误差之间的差异越来越大。

作者讨论了这一发现的原因和意义。作者首先猜测，人类的表现与训练的关系是呈U 型近似的。不过，作者说这可能只是本文所用的训练库上展示出来的一个假象。这里考虑的模型完全是在计算机模拟的液体中训练的，虽然在本文给出的模拟环境中成功的模拟了人类的学习能力，但是在更多的、更大的或自然的训练数据中，可能会随着训练的持续反而提高对人类性能的近似能力（即不会观察到对人类性能的U 形近似），也即与本文提出的关键学习期并不吻合。

作者也提出了另一种可能性，即我们这篇文章讨论的“关键学习期” 的存在。人类观察者使用的线索是那些网络也倾向于首先学习的线索。有可能这些线索是数据库中最容易辨别或最稳健的线索。随着训练的继续，网络在物理粘度估计目标方面继续改进，可能是通过学习数据库中特有的更微妙的线索来实现，而人类视觉系统根本无法辨别或对这些线索不太敏感。神经网络学习的早期阶段的其它研究也发现，关键的学习期与生物网络相似[1]，有证据表明，在训练早期阶段，神经连接大致上处于记忆形成阶段，此后神经可塑性下降，只有通过重组或遗忘较少的预测性权重而发生小得多的变化。这使得早期阶段（<10 epoch）成为一个特别关键的时期，这一时期完成对数据库中最主要的信息的编码。在本文的案例中，这一时期的定义是感知到的粘度误差下降特别大。这与我们的猜测一致，即在早期训练中编码的最明显的线索与人类使用的感知粘度线索一致。

5つの要約

本文讨论了深度学习中的关键学习期问题，即在深度神经网络的训练过程中，早期阶段与其它阶段具有不同的“特点” 。第2-4 篇文章从不同的角度证实了DNNs 中可能确实存在“关键学习期”，当然这种“关键学习期” 可能仅仅展示为线性/ 非线性性能的不同，也可能展示为模型学习能力的不同。

在我们参考引用的文章中，给出了大量的、角度不同的实验结果展示深度神经网络中“关键学习期” 的存在。不过，几位作者在文中都表示了，确实没有确切的、可推广的理论分析以支撑普遍的关键学习期存在且发挥作用的说法。甚至如第四篇文章作者猜测，模型的性能有可能最终展示为U 型，即，在大量的、自然的、高质量的数据存在的情况下，是否有可能在不断训练的后期性能反而提升？而目前看到的“关键学习期” 可能还是训练数据本身的质量受限所造成的？

深度学习中的关键学习期问题还是一个开放性的问题，我们也会在以后的文章中关注这一领域的研究进展，希望能够在实现模型性能提升的同时，慢慢地发现和了解模型的内在的特性。

本文参考引用的文献

[1] Alessandro Achille, Matteo Rovere, Stefano Soatto, CRITICAL LEARNING PERIODS IN DEEP NETWORKS, ICLR 2019., https://arxiv.org/abs/1711.08856

[2] Takao K Hensch. Critical period regulation. Annual review of neuroscience, 27:549–579, 2004.

[3] van Assen JJR, Nishida S, Fleming RW (2020) Visual perception of liquids: Insights from deep neural networks. PLoS Comput Biol 16(8): e1008018. https://doi.org/10.1371/journal.pcbi.1008018

[4] Hu W , Xiao L , Adlam B , et al. The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks. arXiv e-prints, 2020. https://arxiv.org/abs/2006.14599

[5] Jastrzebski S , Szymczak M , Fort S , et al. The Break-Even Point on Optimization Trajectories of Deep Neural Networks. ICLR 2020.https://arxiv.org/abs/2002.09572

[6] David Taylor et al. Critical period for deprivation amblyopia in children. Transactions of the ophthalmological societies of the United Kingdom, 99(3):432–439, 1979.

[7] Donald E Mitchell. The extent of visual recovery from early monocular or binocular visual deprivation in kittens. The Journal of physiology, 395(1):639–660, 1988.

[8] Pasko Rakic, Jean-Pierre Bourgeois, Maryellen F Eckenhoff, Nada Zecevic, and Patricia S Goldman-Rakic. Concurrent overproduction of synapses in diverse regions of the primate cerebral cortex. Science, 232(4747):232–235, 1986.

[9] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.

[10] Gr´egoire Montavon, Mikio L Braun, and Klaus-Robert M¨uller. Kernel analysis of deep networks. Journal of Machine Learning Research, 12(Sep):2563–2581, 2011.

[11] Eric I Knudsen. Sensitive periods in the development of the brain and behavior. Journal of cognitive neuroscience, 16(8):1412–1425, 2004.

[12] Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, and Samy Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010.

[13] Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, and Samuel S. Schoenholz. A mean field theory of batch normalization. CoRR, abs/1902.08129, 2019.

[14] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L. Large-scale video classification with convolutional neural networks. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014. p. 1725–1732.

<<: Omdia の観察: 配車サービスの大手企業が自動運転から撤退するのは幸運か、それとも災いか?

>>: Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

0 はじめに

1 深層ネットワークにおける重要な学習期間[1]

2 ディープニューラルネットワーク最適化軌道の損益分岐点[5]

3ニューラルネットワークの早期学習ダイナミクスの単純さ[4]

4液体の視覚的認識：深いニューラルネットワークからの啓示[3]

5つの要約

史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

誇大広告か、効率か？サイバーセキュリティにおける人工知能の実用的応用

IBM Think Digitalカンファレンス開幕：「ポスト流行時代」のデジタル変革に対応するには今が絶好のタイミング

さまざまな業界の技術専門家の皆様にアンケートにご参加いただき、Yiou Industryの年間会員カードを受け取り、多数の業界レポートのロックを解除していただくよう心からお願い申し上げます。

インテリジェントな仮想アシスタントが2022年に生産性を2倍にする方法

0 コードで GPT-5 をトレーニングしますか? MIT と Microsoft は、GPT-4 がエラーを自己修正する機能を持ち、インテリジェントボディがフィードバックに基づいてコードをループして反復することを確認しました。

言語モデルは本来の役割を果たしていないため、DETRよりも優れたパフォーマンスでオブジェクト検出に使用されています。

一貫性ハッシュアルゴリズムとは何ですか?

推薦する

ハッカーはパニックに陥っています!サイバーセキュリティにおける機械学習の包括的な説明

COVID-19患者のどの症状が悪化するかを予測する新しいアルゴリズム

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

リアルで制御可能、スケーラブルな自動運転照明シミュレーションプラットフォームLightSimが新しくアップデートされました

神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

金融業界がAI自動化を採用すべき理由

企業の4分の1以上が従業員による生成AIの使用を禁止している

人工知能学習: 人工ニューラルネットワークとは何ですか?

ディープラーニングに加えて、これらの開発の方向性も理解する必要があります

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議（WRC）に輝かしい登場を果たしました。