ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラルネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘れてしまうため、古い情報と新しい情報を交互に配置して再トレーニングする必要があります。ただし、古い情報をすべて交互に配置するのは非常に時間がかかるため、必ずしも必要ではない場合があります。新しい情報とかなりの類似性がある古い情報のみをインターリーブするだけで十分な場合があります。

最近、米国科学アカデミー紀要（PNAS）に、カナダ王立協会の会員であり著名な神経科学者であるブルース・マクノートン氏のチームによる論文「類似性加重インターリーブ学習によるディープニューラルネットワークと脳の学習」が掲載されました。彼らの研究により、類似性加重インターリーブ方式で古い情報と新しい情報をトレーニングすることで、ディープネットワークは新しいことを素早く学習でき、忘却率が低下するだけでなく、使用するデータ量も大幅に削減できることがわかった。

著者らはまた、最近活動したニューロンとアトラクターダイナミクスの進行中の興奮性軌跡を追跡することによって、類似性加重インターリービングを脳内に実装できるという仮説を立てている。この発見は神経科学と機械学習のさらなる進歩につながる可能性がある。

背景

生涯を通じて脳がどのように学習するかを理解することは、長年の課題のままです。

人工ニューラルネットワーク (ANN) では、新しい情報をあまりにも速く組み込むと、以前に獲得した知識が突然失われるという壊滅的な干渉が発生する可能性があります。補完的学習システム理論 (CLST) は、新しい記憶を既存の知識と交互に配置することで、徐々に大脳新皮質に統合できると示唆しています。

CLST によれば、脳は補完的な学習システムに依存しており、新しい記憶を迅速に獲得する海馬 (HC) と、新しいデータを文脈に依存しない構造化された知識に徐々に統合する大脳新皮質 (NC) に依存しています。睡眠中や静かな覚醒時の休息中などの「オフライン期間」には、HC が NC での最近の経験の再生をトリガーし、NC は既存のカテゴリーの表現を自発的に取得してインターリーブします。インターリーブ再生により、NC シナプスの重みを勾配降下法で徐々に調整して、新しい記憶をエレガントに統合し、壊滅的な干渉を克服するコンテキストに依存しないカテゴリ表現を作成できます。多くの研究で、インターリーブ再生を利用してニューラルネットワークにおける生涯学習を実現することに成功しています。

ただし、CLST を実際に適用する際には、対処する必要がある重要な問題が 2 つあります。まず、古いデータすべてにアクセスできない場合、脳はどのようにして包括的な情報インターリーブを実行できるのでしょうか?考えられる解決策の 1 つは「疑似リハーサル」です。これは、ランダムな入力によって、以前に学習した例に明示的にアクセスすることなく、内部表現の生成的な再生を誘発できるものです。アトラクターのようなダイナミクスにより、脳は「疑似リハーサル」を完了できる可能性があるが、「疑似リハーサル」の内容はまだ明らかにされていない。したがって、2 番目の疑問は、新しい学習活動のたびに、脳が以前に学習したすべての情報を織り交ぜるのに十分な時間があるかどうかです。

類似度加重インターリーブ学習 (SWIL) アルゴリズムは、2 番目の問題の解決策として提案されており、表現上の類似性が非常に高い古い情報と新しい情報のみをインターリーブするだけで十分である可能性があることを示唆しています。経験的行動研究では、一貫性の高い新しい情報は、ほとんど干渉を受けずに NC 構造化知識に迅速に統合できることが示されています。これは、新しい情報が統合される速度は、その情報が以前の知識と一貫しているかどうかに依存することを示唆しています。この行動結果にヒントを得て、以前に得られたカテゴリ間の壊滅的な干渉の分布を再検討することで、McClelland らは、2 つの上位語カテゴリ (たとえば、「果物」は「リンゴ」と「バナナ」の上位語) を持つ単純なデータセットで、SWIL が 2.5 倍少ないデータを使用してエポックごとに新しい情報を学習し、完全なデータでネットワークをトレーニングする場合と同じパフォーマンスを達成できることを実証しました。しかし、研究者らはより複雑なデータセットを使用した場合には同様の効果は見られなかったため、アルゴリズムのスケーラビリティに関する懸念が生じている。

実験により、深層非線形人工ニューラルネットワークは、新しい情報と大きな表現上の類似性を共有する古い情報のサブセットのみをインターリーブすることによって、新しい情報を学習できることが示されています。 SWIL アルゴリズムを使用することで、ANN は各エポックで提示される古い情報をほとんど使用せずに、同様の精度と最小限の干渉で新しい情報を迅速に学習できるため、データ利用率が高く、学習が高速になります。

同時に、SWIL はシーケンス学習フレームワークにも適用できます。さらに、新しいカテゴリを学習することで、データの利用率が大幅に向上します。古い情報が以前に学習したカテゴリとほとんど類似していない場合、提示される古い情報の量ははるかに少なくなります。これは、人間の学習でも同様であると考えられます。

最後に、著者らは、新しい情報の重なりに比例する興奮性バイアスを伴う SWIL が脳内でどのように実装されるかについての理論モデルを提案しています。

画像分類データセットに適用された DNN ダイナミクスモデル

McClelland らは、1 つの隠れ層を持つ深層線形ネットワークにおいて、SWIL が、古いカテゴリ全体を新しいカテゴリとインターリーブする完全インターリーブ学習 (FIL) と同様に新しいカテゴリを学習できるが、使用するデータは 40% 少ないことを示しました。

しかし、ネットワークは 2 つの上位語カテゴリのみを含む非常に単純なデータセットでトレーニングされたため、アルゴリズムのスケーラビリティについて疑問が生じます。

まず、Fashion-MNIST などのより複雑なデータセットを対象に、1 つの隠し層を持つ深層線形ニューラルネットワークでさまざまな学習カテゴリがどのように進化するかを調べます。「ブーツ」と「バッグ」のカテゴリを削除した後、モデルは残りの 8 つのカテゴリで 87% のテスト精度を達成しました。次に、モデルを再トレーニングして、2 つの異なる条件下で (新しい)「ブーツ」クラスを学習させました (条件ごとに 10 回繰り返しました)。

新しい「ブート」クラスのみを紹介する集中学習 (FoL)。
完全インターリーブ学習 (FIL)。すべてのカテゴリ (新しいカテゴリ + 以前に学習したカテゴリ) が等しい確率で提示されます。どちらの場合も、エポックごとに合計 180 枚の画像が提示され、各エポックの画像は同一でした。

ネットワークは、これまでに見たことのない合計 9000 枚の画像でテストされました。テストデータセットは、「バッグ」クラスを除いて、クラスごとに 1000 枚の画像で構成されていました。ネットワークのパフォーマンスが漸近線に達すると、トレーニングは停止します。

予想通り、FoL は古いカテゴリに混乱を引き起こしますが、FIL はこれを克服します (図 1、列 2)。前述のように、古いデータに対する FoL の変動はカテゴリによって異なります。これは、SWIL の元々のインスピレーションの一部であり、新しい「ブート」カテゴリと古いカテゴリの間に階層的な類似関係があることを示唆しています。たとえば、「スニーカー」と「サンダル」のリコールは「ズボン」よりも急速に低下します (図 1 の列 2)。これは、新しい「ブーツ」クラスを統合すると、「スニーカー」クラスと「サンダル」クラスを表すシナプスの重みが選択的に変更され、ノイズが増えるためと考えられます。

図 1: 2 つのケース (FoL (上) と FIL (下)) で新しい「ブート」クラスを学習する事前トレーニング済みネットワークのパフォーマンスの比較分析。左から右に、新しい「ブーツ」クラスを予測するためのリコール（オリーブ色）、既存のクラスのリコール（異なる色でプロット）、全体的な精度（スコアが高いほどエラーが少ないことを意味します）、およびクロスエントロピー損失（全体的なエラーの尺度）曲線が、ホールドアウトされたテストデータセットのエポック数の関数として表示されます。

異なるカテゴリ間の類似性を計算する

FoL が新しいカテゴリを学習すると、類似の古いカテゴリでの分類パフォーマンスは大幅に低下します。

マルチクラス属性の類似性と学習の関係は以前に調査されており、深層線形ネットワークは既知の一貫した属性を迅速に取得できることが示されています。対照的に、既存のカテゴリ階層の一貫性のないプロパティに新しいブランチを追加するには、ゆっくりとした段階的な学習が必要です。

本研究では、著者チームは提案された方法を使用して特徴レベルでの類似性を計算しました。つまり、ターゲットの隠し層 (通常は最後から 2 番目の層) 内の既存クラスと新規クラスのクラスごとの活性化ベクトルの平均間のコサイン類似度が計算されます。図 2A は、Fashion MNIST データセットに基づく新しい「ブーツ」カテゴリと古いカテゴリについて、事前トレーニング済みネットワークの最後から 2 番目のレイヤーの活性化関数に基づいて当チームが計算した類似度マトリックスを示しています。

カテゴリー間の類似性は、物体に対する私たちの視覚的認識と一致しています。たとえば、階層的クラスタリングプロット (図 2B) では、「ブーツ」クラスが「スニーカー」クラスや「サンダル」クラスと、また「シャツ」クラスと「T シャツ」クラスとの間で高い類似性を持っていることがわかります。類似度マトリックス (図 2A) は混同マトリックス (図 2C) と正確に対応します。類似度が高いほど混同しやすくなります。たとえば、「シャツ」クラスは、「T シャツ」、「プルオーバー」、「ジャケット」クラスの画像と混同されやすく、類似度の尺度がニューラルネットワークの学習ダイナミクスを予測していることがわかります。

前のセクションの FoL 結果グラフ (図 1) では、古いカテゴリのリコール曲線に同様のクラス類似度曲線があります。 FoL は新しい「ブーツ」クラスを学習しますが、異なる古いカテゴリ (「ズボン」など) と比較して、類似した古いカテゴリ (「スニーカー」と「サンダル」) をすぐに忘れてしまいます。

図2: (A) 事前学習済みネットワークの最後から2番目の層の活性化関数に基づいて著者チームが計算した、既存のカテゴリと新しい「ブート」カテゴリの類似度マトリックス。対角値（同じカテゴリの類似性は白で描画されます）は削除されています。 (B) Aの類似度行列の階層的クラスタリング。（C）「ブート」クラスを学習するためのトレーニング後にFILアルゴリズムによって生成された混同行列。スケーリングを明確にするために対角値は削除されています。

深層線形ニューラルネットワークは、新しいことを迅速かつ効率的に学習することを可能にする

次に、最初の 2 つの条件に基づいて 3 つの新しい条件を追加し、新しい分類学習ダイナミクスを調査しました。各条件は 10 回繰り返されました。

FoL（合計n=6000画像/エポック）
FIL（合計n=54,000画像/エポック、6,000画像/クラス）
部分インターリーブ学習 (PIL) では、非常に小さな画像のサブセット (n = 350 画像/エポック、約 39 画像/クラス) が使用され、各クラス (新しいクラス + 既存のクラス) の画像が等しい確率で提示されます。
SWIL は、PIL と同じ総画像数を使用して各エポックを再トレーニングしますが、既存のクラス画像を (新しい)「ブート」クラスとの類似性によって重み付けします。
均等重み付けインターリーブ学習 (EqWIL) は、SWIL と同じ数の「ブート」クラス画像を使用して再トレーニングされましたが、既存のクラス画像には同じ重みが付けられました (図 3A)。

著者チームは、上記と同じテストデータセット (合計 n = 9000 枚の画像) を使用しました。ニューラルネットワークのパフォーマンスが各条件で漸近線に達した時点でトレーニングが停止されました。エポックあたりのトレーニングデータが少ないにもかかわらず、新しい「ブーツ」クラスの予測精度は漸近線に到達するまでに時間がかかり、PIL のリコールは FIL よりも低くなります (H = 7.27、P < 0.05) (図 3B 列 1 および表 1「新しいクラス」列)。

SWIL の場合、類似度の計算を使用して、インターリーブされる既存の古いカテゴリ画像の割合を決定します。これを基に、著者チームは各古いカテゴリから重み付けされた確率で入力画像をランダムにサンプリングします。他のカテゴリーと比較すると、「スニーカー」と「サンダル」のクラスは最も類似しており、インターリーブされる割合が高くなりました（図3A）。

デンドログラム（図 2B）に基づいて、私たちのチームは「スニーカー」クラスと「サンダル」クラスを類似の古いクラスと呼び、残りを異なる古いクラスと呼びました。 SWIL を使用すると、モデルは PIL と比較して、新しい「ブート」クラスをより速く、既存のクラスと同様の摂動で学習します (H = 5.44、P < 0.05)。さらに、新しいクラスのリコール（図3Bの列1と表1の「新しいクラス」列）、全体的な精度、およびSWILの損失（H = 0.056、P> 0.05）は、FILのものと同等です。 EqWILにおける新しい「ブーツ」クラスの学習（H = 10.99、P < 0.05）はSWILの場合と同じでしたが、類似の古いクラスとの干渉の度合いはより大きかったです（図3B列2および表1「類似の古いクラス」列）。

著者チームは、SWIL と FIL を比較するために次の 2 つの方法を使用しました。

メモリ比率、つまり FIL と SWIL に保存される画像数の比率は、保存されるデータの量が削減されることを示しています。
スピードアップ、つまり、新しいカテゴリの想起の飽和精度に達するために FIL と SWIL で提示されるコンテンツの総数の比率は、新しいカテゴリを学習するために必要な時間が短縮されたことを示しています。

SWIL は、データ要件を削減して新しいコンテンツを学習でき、メモリ比は 154.3 倍 (54000/350) となり、より高速で、スピードアップは 77.1 倍 (54000/(350×2)) となります。新しいコンテンツに関連する画像の数が少ない場合でも、SWIL を使用してモデルの事前知識の階層を活用することで、モデルは同じパフォーマンスを達成できます。 SWIL は PIL と EqWIL の間に中間バッファーを提供し、既存のカテゴリへの影響を最小限に抑えながら新しいカテゴリを統合できるようにします。

図 3 (A) 著者らは、パフォーマンスが頭打ちになるまで、5 つの異なる学習条件 (1) FoL (合計 n=6000 画像/エポック)、2) FIL (合計 n=54000 画像/エポック)、3) PIL (合計 n=350 画像/エポック)、4) SWIL (合計 n=350 画像/エポック)、5) EqWIL (合計 n=350 画像/エポック) で、新しい「ブーツ」クラス (オリーブグリーン) を学習するようにニューラルネットワークを事前トレーニングしました。 (B) FoL (黒)、FIL (青)、PIL (茶色)、SWIL (マゼンタ)、EqWIL (金色) によって予測された新しいカテゴリ、類似した古いカテゴリ (「スニーカー」と「サンダル」)、異なる古いカテゴリの再現率、すべてのカテゴリを予測した合計精度、およびテストデータセットでのクロスエントロピー損失。横軸はエポック番号です。

CIFAR10 に基づく SWIL を使用して CNN で新しいカテゴリを学習する

次に、SWIL がより複雑な環境でも機能するかどうかをテストするために、著者チームは、完全に接続された出力層 (図 4A) を備えた 6 層の非線形 CNN をトレーニングし、CIFAR10 データセット内の残りの 8 つの異なるカテゴリ (「猫」と「車」を除く) の画像を認識しました。また、以前に定義した 5 つの異なるトレーニング条件 (FoL、FIL、PIL、SWIL、EqWIL) で「猫」クラスを学習するようにモデルを再トレーニングしました。図4Cは、5つの条件における各カテゴリの画像の分布を示しています。エポックあたりの画像の総数は、SWIL、PIL、EqWIL 条件では 2400 ですが、FIL と FoL ではそれぞれ 45000 と 5000 です。著者チームは、パフォーマンスが安定するまで、各ケースごとにネットワークを個別にトレーニングしました。

彼らは、これまでに見たことのない合計 9,000 枚の画像 (「車」クラスを除く、クラスあたり 1,000 枚の画像) でモデルをテストしました。図4Bは、著者チームがCIFAR10データセットに基づいて計算した類似度マトリックスです。「猫」クラスは「犬」クラスに似ていますが、他の動物クラスは同じブランチに属します (図 4B 左)。

樹形図（図4B）によれば、「トラック」、「船」、「飛行機」のカテゴリは異なる古いカテゴリと呼ばれ、「猫」カテゴリを除く残りの動物カテゴリは類似の古いカテゴリと呼ばれます。 FoL を使用すると、モデルは新しい「猫」クラスを学習しますが、古いクラスは忘れてしまいます。 Fashion-MNIST データセットの結果と同様に、「犬」クラス (「猫」クラスとの類似性が最も高い) と「トラック」クラス (「猫」クラスとの類似性が最も低い) の両方に干渉勾配があり、その中で「犬」クラスの忘却率が最も高く、「トラック」クラスの忘却率が最も低くなっています。

図 4D に示すように、FIL アルゴリズムは、新しい「cat」クラスを学習するときに壊滅的な干渉を克服します。 PIL アルゴリズムの場合、モデルは各エポックで新しい「猫」クラスを学習するために 18.75 倍のデータ量を使用しますが、「猫」クラスのリコール率は FIL よりも低くなります (H=5.72、P<0.05)。 SWILの場合、新しいカテゴリ、類似した古いカテゴリ、異なる古いカテゴリの再現率、合計精度、損失はFILと同等でした（H = 0.42、P> 0.05、表2および図4Dを参照）。 SWIL は、新しい「cat」クラスのリコール率が PIL よりも高くなっています (H=7.89、P<0.05)。 EqWILアルゴリズムを使用した場合、新しい「猫」クラスの学習はSWILおよびFILの場合と同様でしたが、同様の古いクラスとの干渉はより大きくなっていました（H = 24.77、P < 0.05、表2を参照）。

4 つのアルゴリズム (FIL、PIL、SWIL、EqWIL) の、異なる古いカテゴリを予測する際のパフォーマンスは同等です (H = 0.6、P > 0.05)。 SWI は PIL よりも新しい「cat」クラスを適切に組み込んでおり、EqWIL の観測ノイズを克服するのに役立ちます。 FIL と比較すると、SWIL による新しいカテゴリの学習はより高速で、スピードアップ率は 31.25 倍 (45000×10/(2400×6)) ですが、使用するデータ量は少なくなります (メモリ比 = 18.75 倍)。これらの結果は、SWIL が非線形 CNN やより現実的なデータセットでも新しいカテゴリのオブジェクトを効果的に学習できることを示しています。

図 4: (A) 著者チームは、完全に接続された出力層を備えた 6 層の非線形 CNN を使用して、CIFAR10 データセット内の 8 つのカテゴリのオブジェクトを学習しました。（B）類似度行列（右）は、新しい「猫」クラスを提示した後、最後の畳み込み層の活性化関数に基づいて私たちのチームによって計算されました。類似性マトリックス (左) に階層的クラスタリングを適用し、動物 (オリーブグリーン) と乗り物 (青) という 2 つの大まかな単語カテゴリのグループ化を樹形図で示します。 ( C ) 著者らは、新しい「猫」クラス (オリーブグリーン) を学習するように、パフォーマンスが頭打ちになるまで 5 つの異なる条件下で CNN を事前トレーニングしました。1) FoL (合計 n=5000 画像/エポック)、2) FIL (合計 n=45000 画像/エポック)、3) PIL (合計 n=2400 画像/エポック)、4) SWIL (合計 n=2400 画像/エポック)、5) EqWIL (合計 n=2400 画像/エポック)。各条件は10回繰り返されました。 (D) FoL (黒)、FIL (青)、PIL (茶色)、SWIL (マゼンタ)、EqWIL (金色) によって予測された新しいカテゴリ、類似の古いカテゴリ (CIFAR10 データセット内の他の動物カテゴリ)、および異なる古いカテゴリ (「飛行機」、「船」、「トラック」) の再現率、すべてのカテゴリを予測した合計精度、およびテストデータセットでのクロスエントロピー損失。横軸はエポック番号です。

新しいコンテンツと古いカテゴリの整合が学習時間と必要なデータに与える影響

ネットワークに大きな変更を加えることなく、以前に学習したカテゴリに新しい項目を追加できる場合、その 2 つは一貫していると言われます。このフレームワークに基づくと、既存のカテゴリを乱す回数が少ない (高コヒーレンス) ように学習された新しいカテゴリは、既存のカテゴリを乱す回数が少ない (低コヒーレンス) 新しいカテゴリよりも、ネットワークに簡単に統合できます。

上記の推論をテストするために、前のセクションで事前トレーニングされた CNN を使用して、前述の 5 つの学習条件すべてで新しい「車」カテゴリを学習しました。図5Aは「車」カテゴリの類似度マトリックスを示しています。他の既存のカテゴリと比較すると、「車」と「トラック」、「船」と「飛行機」は同じ階層ノードの下にあるため、より類似していることがわかります。さらに確認するために、著者チームは類似度計算に使用した活性化層に対してt-SNE次元削減可視化解析を実行した（図5B）。調査の結果、「車」クラスは他の乗り物クラス（「トラック」、「船」、「飛行機」）と大幅に重複しており、「猫」クラスは他の動物クラス（「犬」、「カエル」、「馬」、「鳥」、「鹿」）と重複していることがわかりました。

著者らの予想通り、FoL は「車」カテゴリを学習する際に壊滅的な干渉を生じ、類似の古いカテゴリを学習する際にはより混乱を招きますが、FIL を使用するとこれを克服できます (図 5D)。 PIL、SWIL、EqWILの場合、エポックあたり合計n = 2000枚の画像があります（図5C）。 SWIL アルゴリズムを使用すると、モデルは、既存のカテゴリ (類似カテゴリと異なるカテゴリを含む) への干渉を最小限に抑えながら、FIL と同様の精度 (H=0.79、P>0.05) で新しい「車」カテゴリを学習できます。図5Dの2列目に示すように、EqWILを使用すると、モデルはSWILと同じ方法で新しい「車」クラスを学習しますが、他の同様のクラス（「トラック」など）への摂動の度合いは高くなります（H = 53.81、P < 0.05）。

FIL と比較すると、SWIL は新しいコンテンツをより速く学習でき、スピードアップ率は 48.75 倍 (45000×12/(2000×6))、メモリ要件は削減され、メモリ比率は 22.5 倍です。「車」は「猫」に比べて、より少ないクラス（「トラック」、「船」、「飛行機」など）をインターリーブすることでより速く学習できます（48.75 倍対 31.25 倍）が、「猫」はより多くのクラス（「犬」、「カエル」、「馬」、「カエル」、「鹿」など）と重複しています。これらのシミュレーション実験は、新しいカテゴリを相互学習するために必要な古いカテゴリのデータ量は、新しい情報と事前の知識との一貫性に依存することを示しています。

図 5: (A) 著者チームが最後から 2 番目の層の活性化関数に基づいて計算した類似度マトリックス (左)、および新しい「車」カテゴリを提示した後の類似度マトリックスの階層的クラスタリングの結果 (右)。 (B) モデルはそれぞれ新しい「車」と「猫」のカテゴリを学習します。最後の畳み込み層が活性化関数を通過した後、著者チームは t-SNE 次元削減を実行し、結果を視覚化します。 ( C ) 著者らは、新しい「車」クラス (オリーブグリーン) を学習するように、パフォーマンスが頭打ちになるまで 5 つの異なる条件下で CNN を事前トレーニングしました。1) FoL (n=5000 画像/エポック)、2) FIL (n=45000 画像/エポック)、3) PIL (n=2000 画像/エポック)、4) SWIL (n=2000 画像/エポック)、5) EqWIL (n=2000 画像/エポック)。 (D) FoL (黒)、FIL (青)、PIL (茶色)、SWIL (マゼンタ)、EqWIL (金色) によって予測された新しいカテゴリ、類似の古いカテゴリ (「飛行機」、「船」、「トラック」)、異なる古いカテゴリ (CIFAR10 データセット内の他の動物クラス) の再現率、すべてのカテゴリを予測した合計精度、およびテストデータセットでのクロスエントロピー損失。横軸はエポック番号です。各グラフは 10 回の反復の平均を示しており、網掛け部分は ±1 SEM です。

SWILによるシーケンス学習

次に、SWIL を使用して、順次形式で提示される新しいコンテンツを学習できるかどうかをテストしました (シーケンス学習フレームワーク)。この目的のために、研究者らは図 4 のトレーニング済み CNN モデルを使用し、FIL および SWIL 条件下で CIFAR10 データセットの「cat」クラスを学習し (タスク 1)、CIFAR10 の残りの 9 つのカテゴリのみをトレーニングした後、各条件下で新しい「car」クラスを学習するようにモデルをトレーニングしました (タスク 2)。図 6 の最初の列は、SWIL 条件下で「車」カテゴリを学習したときの各カテゴリの画像数の分布を示しています (合計 n = 2500 画像/エポック)。「cat」クラスを予測するときに、新しい「car」クラスも相互学習されることに注意することが重要です。モデルのパフォーマンスは FIL 条件下で最も優れているため、SWIL は FIL とのみ比較されます。

図6に示すように、SWILの新旧カテゴリーを予測する能力はFILの能力と同等である（H = 14.3、P> 0.05）。このモデルは、SWIL アルゴリズムを使用して新しい「車」カテゴリをより速く学習でき、速度は 45 倍 (50000×20/(2500×8)) 向上し、エポックあたりのメモリ使用量は FIL の 20 分の 1 になります。モデルは、FIL でのエポックあたりのデータセット全体 (それぞれ 31.25 倍のメモリ比と 45 倍のスピードアップ) よりも、SWIL でのエポックあたりの画像数が少なくても (それぞれ 18.75 倍のメモリ比と 20 倍のスピードアップ)、「猫」と「車」のカテゴリを学習し、新しいカテゴリを迅速に学習できます。この考えを拡張すると、学習したカテゴリの数が増えるにつれて、モデルの学習時間とデータストレージが指数関数的に減少し、新しいカテゴリをより効率的に学習できるようになると著者チームは予想しており、これは人間の脳が実際に学習する方法を反映している可能性があります。

実験結果によると、SWIL はシーケンス学習フレームワークに複数の新しいクラスを統合でき、ニューラルネットワークが干渉を受けることなく学習を継続できることがわかりました。

図 6:著者らは、6 層の CNN をトレーニングして、新しい「猫」クラス (タスク 1) を学習し、次に「車」クラス (タスク 2) を学習して、次の 2 つのケースでパフォーマンスが安定するまでトレーニングしました。1) FIL: すべての古いカテゴリ (異なる色で描画) と新しいカテゴリ (「猫」/「車」) の画像が等確率で表示される。2) SWIL: 新しいカテゴリ (「猫」/「車」) との類似性によって重み付けされ、古いカテゴリの例が比例して使用される。タスク 1 で学習した「cat」クラスも含まれており、タスク 2 で学習した「car」クラスとの類似性に基づいて重み付けされています。最初のサブ図は、各エポックで使用された画像数の分布を示しています。残りのサブ図は、それぞれ、FIL (青) と SWIL (マゼンタ) によって予測された新しいカテゴリ、類似した古いカテゴリ、異なる古いカテゴリのリコール率、すべてのカテゴリの合計精度、およびテストデータセットのクロスエントロピー損失を表しています。横軸はエポック番号です。

SWILを使用してカテゴリ間の距離を広げ、学習時間とデータ量を削減する

著者チームは最終的に、SWIL アルゴリズムの一般化をテストし、より多くのカテゴリを含むデータセットを学習できるかどうか、およびより複雑なネットワークアーキテクチャに適用できるかどうかを検証しました。

彼らは、CIFAR100 データセット (トレーニングセットに 500 枚の画像/クラス、テストセットに 100 枚の画像/クラス) で複雑な CNN モデル VGG19 (合計 19 層) をトレーニングし、90 のカテゴリを学習しました。その後、ネットワークは新しいカテゴリを学習するように再トレーニングされます。図7Aは、CIFAR100データセットに基づく最後から2番目の層の活性化関数に基づいて著者チームが計算した類似度マトリックスを示しています。図7B に示すように、新しい「列車」クラスは、「バス」、「路面電車」、「トラクター」など、多くの既存の交通機関のカテゴリと非常によく似ています。

FILと比較すると、SWILは新しいことをより速く学習でき（スピードアップ比=95.45倍（45500×6/(1430×2))）、使用するデータ量が大幅に少なくなります（メモリ比=31.8倍）。パフォーマンスは基本的に同じです（H=8.21、P>0.05）。図7Cに示すように、PIL（H = 10.34、P < 0.05）およびEqWIL（H = 24.77、P < 0.05）条件下では、モデルは新しいカテゴリの想起率が低く、より多くの干渉を生成すると予測しましたが、SWILは上記の欠点を克服しました。

同時に、異なるカテゴリの表現間の距離が大きいことがモデル学習を加速するための基本条件を構成するかどうかを調べるために、著者チームは他の 2 つのニューラルネットワークモデルをトレーニングしました。

6層CNN（CIFAR10に基づく図4および図5と同じ）
VGG11 (11 層) は CIFAR100 データセットから 90 のカテゴリを学習し、FIL と SWIL の 2 つの条件でのみ新しい「トレーニング」クラスでトレーニングされます。

図 7B に示すように、上記の 2 つのネットワークモデルでは、新しい「列車」クラスと車両カテゴリの重複は大きくなっていますが、カテゴリ間の分離は VGG19 モデルと比較して小さくなっています。 FIL と比較すると、SWIL が新しいことを学習する速度は、レイヤーの数とほぼ直線的です (傾き = 0.84)。この結果は、カテゴリ表現間の距離を増やすことで学習が加速され、メモリ負荷が軽減されることを示唆しています。

図 7: (A) VGG19 が新しい「トレーニング」クラスを学習した後、最後から 2 番目のレイヤーの活性化関数に基づいて私たちのチームが計算した類似度マトリックス。「トラック」、「路面電車」、「バス」、「家」、「トラクター」の 5 つのカテゴリは、「電車」との類似性が最も高いです。類似度行列から対角要素 (類似度 = 1) を除外します。 (B、左) 著者チームは、活性化関数の最後から2番目の層の後に、6層CNN、VGG11、VGG19ネットワーク上でt-SNE次元削減可視化を実行しました。 (B、右) 縦軸は高速化率 (FIL/SWIL) を表し、横軸は 6 層 CNN に対する 3 つの異なるネットワークの層数の比率を表します。黒い破線、赤い破線、青い実線は、それぞれ傾き = 1 の標準線、最適適合線、シミュレーション結果を表します。 ( C ) VGG19 モデルの学習状態: FoL (黒)、FIL (青)、PIL (茶色)、SWIL (マゼンタ)、EqWIL (金) は、新しい「トレーニング」クラスのリコール、類似の古いクラス (車両クラス)、異なる古いクラス (車両クラスを除く)、すべてのクラスを予測する合計精度、およびテストデータセットのクロスエントロピー損失を予測します。横軸はエポック番号です。各グラフは 10 回の反復の平均を示しており、網掛け部分は ±1 SEM です。 (D) 左から右へ、Fashion-MNIST「ブーツ」クラス(図3)、CIFAR10「猫」クラス(図4)、CIFAR10「車」クラス(図5)、CIFAR100「電車」クラスのモデル予測の再現率を、SWIL(マゼンタ)とFIL(青)に使用された画像の総数(対数スケール)の関数として示しています。「N」は、各学習条件ごとにエポックごとに使用される画像の総数（新旧のカテゴリを含む）を表します。

表現間の距離が大きく、重複しないクラスをさらに多く使ってネットワークをトレーニングすると、速度はさらに向上するでしょうか?

これを実現するために、図 1-3 の Fashion-MNIST の例で使用されている深層線形ネットワークを、8 つの Fashion-MNIST カテゴリ (「バッグ」と「ブーツ」のクラスを除く) と 10 の Digit-MNIST カテゴリを組み合わせたデータセットを学習するようにトレーニングし、次に新しい「ブーツ」カテゴリを学習するようにネットワークをトレーニングしました。

著者チームの予想通り、「ブーツ」は古いカテゴリ「サンダル」や「スニーカー」に似ており、続いて Fashion-MNIST カテゴリの残りの部分（主に衣服の画像を含む）、最後に Digit-MNIST カテゴリ（主に数字の画像を含む）が続きます。

これに基づいて、著者チームは最初に、より類似した古いカテゴリのサンプルを織り交ぜ、次に Fashion-MNIST および Digit-MNIST クラスのサンプルを織り交ぜました (合計 n = 350 画像/エポック)。実験結果によると、FIL と同様に、SWIL は干渉なしに新しいカテゴリのコンテンツをすばやく学習できますが、使用するデータサブセットははるかに小さく、メモリ比は 325.7 倍 (114000/350)、スピードアップは 162.85 倍 (228000/1400) です。著者チームは、現在の結果で 2.1 倍 (162.85/77.1) の高速化を観察し、Fashion-MNIST データセットと比較してカテゴリの数は 2.25 倍 (18/8) 増加しました。

このセクションの実験結果は、SWIL がより複雑なデータセット (CIFAR100) やニューラルネットワークモデル (VGG19) に適用できることを判定するのに役立ち、アルゴリズムの一般化を実証します。また、カテゴリ間の内部距離を拡大したり、重複しないカテゴリの数を増やしたりすると、学習速度がさらに向上し、メモリ負荷が軽減される可能性があることも示しています。

要約する

人工ニューラルネットワークは、継続的な学習において大きな課題に直面しており、壊滅的な干渉が発生することもよくあります。この問題を克服するために、多くの研究では、新しいコンテンツと古いコンテンツを相互学習し、ネットワークを共同でトレーニングする完全インターリーブ学習 (FIL) が使用されてきました。 FIL では、新しい情報を学習するたびに既存の情報をすべて織り交ぜる必要があるため、生物学的に不可能で時間のかかるプロセスになります。最近、いくつかの研究では、FIL は必要なく、表現上の類似性が大きい古いコンテンツを新しいコンテンツと単純にインターリーブする、つまり類似性加重インターリーブ学習 (SWIL) 法を使用するだけで、同じ学習効果が得られる可能性があることが示されています。しかし、SWIL のスケーラビリティについて懸念を表明する人もいます。

この論文では、SWIL アルゴリズムを拡張し、さまざまなデータセット (Fashion-MNIST、CIFAR10、CIFAR100) とニューラルネットワークモデル (ディープリニアネットワークと CNN) でテストします。すべての条件において、類似性加重インターリーブ学習 (SWIL) と等加重インターリーブ学習 (EqWIL) は、部分的インターリーブ学習 (PIL) と比較して、新しいカテゴリの学習において優れたパフォーマンスを発揮します。これは私たちのチームの予想と一致しており、SWIL と EqWIL では、古いカテゴリと比較して新しいカテゴリの相対的な頻度が増加しました。

また、類似コンテンツを慎重に選択してインターリーブすると、既存のカテゴリを同等にサブサンプリングする場合（つまり、EqWIL アプローチ）と比較して、密接に関連する古いカテゴリへの壊滅的な干渉が減少することも示しています。 SWIL は、新規および既存のカテゴリの予測において FIL と同様のパフォーマンスを発揮しますが、必要なトレーニングデータを大幅に削減しながら、新しいコンテンツの学習を大幅に加速します (図 7D)。 SWIL はシーケンス学習フレームワークで新しいカテゴリを学習できるため、一般化能力がさらに発揮されます。

最後に、以前に学習したカテゴリとの重複が少ない (距離が大きい) 新しいカテゴリは、多くの古いカテゴリとの類似性を持つ新しいカテゴリよりも統合時間を短縮し、データ効率を高めることができます。全体として、実験結果は、非現実的なトレーニング時間を短縮することで、脳が元の CLST モデルの主な弱点を実際に克服しているという可能性のある洞察を提供します。

<<: 音声認識を開発する方法

>>: ルカンのリーダーシップの下、自己監督に賭けるMeta AI