モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入力方法からネットワーク接続やネットワークアーキテクチャの設計まで、多くの画期的な研究は脳の動作戦略を模倣することに基づいています。近年、モジュール性とアテンションが人工ネットワークで頻繁に組み合わせて使用され、素晴らしい成果を上げていることは驚くべきことではありません。

実際、認知神経科学の研究では、大脳皮質が知識をモジュール方式で表現し、異なるモジュールが相互に通信し、注意機構がコンテンツを選択することが示されており、これが前述のモジュール性と注意の組み合わせです。最近の研究では、脳内のこの種のコミュニケーションが深層ネットワークの帰納的バイアスに影響を及ぼす可能性があることが示唆されています。これらの高レベル変数間の依存関係の希薄性により、知識は可能な限り独立した再結合可能な断片に分割され、学習がより効率的になります。

最近の多くの研究はこのようなモジュール式アーキテクチャに依存していますが、研究者が使用するトリックやアーキテクチャの変更が多数あるため、真に使用可能なアーキテクチャの原則を分析することが困難になっています。

機械学習システムは、よりスパースでモジュール化されたアーキテクチャの利点を徐々に示しており、これは優れた一般化パフォーマンスをもたらすだけでなく、分布外 (OoD) 一般化、スケーラビリティ、学習速度、解釈可能性の向上にもつながります。このようなシステムが成功するための鍵は、現実世界の設定で使用されるデータ生成システムは疎に相互作用する部分で構成されていると考えられており、同様の帰納的バイアスをモデルに与えることが役立つということです。しかし、これらの現実世界のデータの分布は複雑かつ未知であるため、この分野ではこれらのシステムの厳密な定量的評価が不足しています。

カナダのモントリオール大学の Sarthak Mittal、Yoshua Bengio、Guillaume Lajoie が執筆した論文では、単純で既知のモジュールデータ分布を使用して、一般的なモジュールアーキテクチャの包括的な評価が行われました。この研究では、モジュール性とスパース性の利点を強調し、モジュール式システムの最適化における課題についての洞察を明らかにしています。第一著者であり責任著者でもある Sarthak Mittal 氏は、Bengio 氏と Lajoie 氏の修士課程の学生です。

論文アドレス: https://arxiv.org/pdf/2206.02713.pdf
GitHub アドレス: https://github.com/sarthmit/Mod_Arch

具体的には、この研究では、Rosenbaum らによる分析を拡張し、モジュール型アーキテクチャの共通コンポーネントを評価、定量化、分析する方法を提案しています。この目的のために、本研究では、モジュール型ネットワークの有効性を調査することを目的とした一連のベンチマークとメトリックを開発します。これにより、現在のアプローチがどこで成功しているかだけでなく、それらのアプローチがいつどのように失敗しているかを特定するのに役立つ貴重な洞察が明らかになります。

この研究の貢献は次のように要約できます。

この研究では、確率的選択ルールに基づいてベンチマークタスクと指標を開発し、ベンチマークと指標を使用して、モジュールシステムにおける 2 つの重要な現象である崩壊と特化を定量化します。
この研究では、共通のモジュール性誘導バイアスを抽出し、共通のアーキテクチャ特性 (モノリシック、モジュラー、モジュラーオプ、GT モジュラーモデル) を抽出するように設計されたさまざまなモデルにわたって体系的に評価します。
研究では、タスクに潜在的なルールが多数ある場合、モジュールシステムの特化によってモデルのパフォーマンスが大幅に向上する可能性があるが、ルールが少数の場合はそうではないことが判明しました。
研究では、標準的なモジュールシステムは、正しい情報に集中する能力と専門化する能力が最適ではないことが多く、追加の帰納的バイアスが必要であることが示唆されていることが判明しました。

定義 / 用語

本稿では、さまざまなモジュールシステムが、通常データと呼ばれる合成データ生成プロセスを使用して定式化された共通タスクをどのように実行できるかを調査します。これらは、(1)ルールとこれらのルールがどのようにタスクを形成するか、(2)モジュールとこれらのモジュールがどのように異なるモデルアーキテクチャを採用するか、(3)特殊化とモデルがどのように評価されるかなど、主要なコンポーネントの定義を紹介します。詳細な設定は以下の図1に示されています。

ルール。モジュラーシステムを適切に理解し、その長所と短所を分析するために、さまざまなタスク要件をきめ細かく制御できる包括的なセットアップを検討します。特に、以下の式 1-3 に示すデータ生成分布に対する、ルールと呼ばれる操作を学習する必要があります。

上記の分布を前提として、ルールをそのエキスパートとして定義します。つまり、ルール r は p_y(·|x, c = r) として定義されます。ここで、c はコンテキストを表すカテゴリ変数であり、x は入力シーケンスです。

タスク。タスクは、式 1-3 に示す一連のルール (データ生成分布) によって記述されます。 {p_y(· | x, c)}_cの異なるセットは異なるタスクを意味します。研究者らは、与えられた数のルールについて、特定のタスクに対する偏りを排除するために、複数のタスクでモデルをトレーニングしました。

モジュール。モジュラーシステムは一連のニューラルネットワークモジュールで構成され、各モジュールが全体の出力に貢献します。これは次の関数形式で確認できます。

ここで、y_m は出力を表し、p_m は m 番目のモジュールのアクティブ化を表します。

モデルアーキテクチャ。モデルアーキテクチャは、モジュラーシステムの各モジュールまたはモノリシックシステムの単一モジュールに対して選択するアーキテクチャを記述します。この論文では、研究者らは、多層パーセプトロン (MLP)、マルチヘッドアテンション (MHA)、およびリカレントニューラルネットワーク (RNN) の使用を検討しました。重要なのは、ルール (またはデータ生成分布) が MLP ベースのルールなどのモデルアーキテクチャに適合されていることです。

データ生成プロセス

研究者の目標は合成データを通じてモジュールシステムを調査することであるため、上記のルールスキームに基づいてデータ生成プロセスを詳しく説明します。具体的には、ルール内のさまざまなモジュールがさまざまな専門家に特化できることを期待して、単純な専門家混合 (MoE) スタイルのデータ生成プロセスを使用しました。

MLP、MHA、RNN という 3 つのモデルアーキテクチャに適用可能なデータ生成プロセスについて説明します。さらに、各タスクには回帰と分類の 2 つのバージョンがあります。

MLPP。研究者らは、モジュラー MLP システムに基づく学習に適したデータスキームを定義しました。この合成データ生成方式では、データサンプルは 2 つの独立した数値と、何らかの分布からサンプリングされた通常の選択から構成されます。異なるルールによって、2 つの数値の異なる線形結合が生成され、出力が生成されます。つまり、線形結合の選択は、以下の式 4-6 に示すように、ルールに従って動的にインスタンス化されます。

MHA。ここでは、モジュラー MHA システムでの学習用に調整されたデータスキームを定義します。そのため、彼らは、各ルールが異なる検索、取得コンセプト、および取得された情報の最終的な線形結合で構成されるという特性を持つデータ生成分布を設計しました。研究者たちはこのプロセスを次の式7～11で数学的に説明しました。

RNNN。周期的システムの場合、研究者は、複数のルールのうちの 1 つを任意の時点でトリガーできる線形動的システムのルールを定義しました。数学的には、このプロセスは次の式 12-15 で示されます。

モデル

これまでの研究では、エンドツーエンドでトレーニングされたモジュール式システムは、特に分散環境においてモノリシックシステムよりも優れていると主張しています。しかし、これらのモジュール式システムの利点や、データ生成分布に基づいて実際に特化しているかどうかについて、詳細かつ徹底的な分析は行われていません。

そのため、研究者は、異なるレベルの特殊化を可能にするモノリシック、モジュラー、モジュラーオペレーション、GT モジュラーの 4 種類のモデルを検討しました。以下の表 1 にこれらのモデルを示します。

モノリシック。モノリシックシステムは、データセット全体 (x、c) を入力として受け取り、それに基づいて y^ を予測する大規模なニューラルネットワークです。システム内に明示的に組み込まれたモジュール性またはスパース性は、帰納的バイアスを示さず、タスクを解決するために必要な関数形式を学習するためにバックプロパゲーションに完全に依存します。

モジュラー。モジュラーシステムは多数のモジュールで構成され、各モジュールは特定のアーキテクチャタイプ (MLP、MHA、または RNN) のニューラルネットワークです。各モジュールmはデータ(x, c)を入力として受け取り、出力yˆ_mと信頼スコアを計算し、モジュール間で活性化確率p_mに正規化します。

モジュラーオペレーション。モジュラーオペレーティングシステムはモジュラーシステムと非常によく似ていますが、違いが 1 つあります。モジュール m のアクティベーション確率 p_m を (x, c) の関数として定義する代わりに、アクティベーションがルールコンテキスト C によってのみ決定されるようにします。

GT-モジュラー。真理値モジュラーシステムは、オラクルベンチマーク、つまり完全に特殊化されたモジュラーシステムとして機能します。

研究者は、モノリシックから GT モジュラーまで、モデルにはモジュール性とスパース性の帰納的バイアスがますます含まれるようになっていることを示しています。

測定

モジュール式システムを確実に評価するために、そのようなシステムのパフォーマンス上の利点を測定するだけでなく、崩壊と特殊化という 2 つの重要な形式で評価する一連のメトリックを提案します。

パフォーマンス。最初の評価メトリックセットは、分布内および分布外 (OoD) 設定でのパフォーマンスに基づいており、さまざまなモデルがさまざまなタスクでどのように機能するかを反映しています。分類設定の場合、研究者は分類エラーを報告し、回帰設定の場合、研究者は損失を報告します。

崩壊。研究者らは、モジュール式システムが遭遇する崩壊の量（つまり、モジュールが十分に活用されていない程度）を定量化するために、Collapse-Avg と Collapse-Worst という一連の指標を提案しました。下の図 2 は、モジュール 3 が使用されていない例を示しています。

専門分野。崩壊指標を補完するために、モジュールシステムによって達成される特化の度合いを定量化する（1）アライメント、（2）適応、（3）逆相互情報量の一連の指標を提案する。

実験

下の図は、GT-Modular システムがほとんどの場合に最適であること (左) を示しており、特化が有益であることを示しています。また、標準トレーニングでエンドツーエンドでトレーニングされたモジュラーシステムはモノリシックシステムよりも優れていることがわかりますが、その差は大きくありません。これら 2 つの円グラフを合わせると、エンドツーエンドでトレーニングされた現在のモジュールシステムは適切な特化を達成しておらず、したがって大部分が最適ではないことがわかります。

次に、この調査では、特定のアーキテクチャの選択肢に注目し、増加するルールにわたってそのパフォーマンスと傾向を分析します。

図 4 は、完全に特化されたシステム (GT-Modular) はメリットをもたらす一方で、典型的なエンドツーエンドのトレーニング済みモジュラーシステムは最適ではなく、特にルールの数が増えると、これらのメリットを実現できないことを示しています。さらに、このようなエンドツーエンドのモジュラーシステムはモノリシックシステムよりも優れたパフォーマンスを発揮することが多いものの、その利点は通常わずかです。

図 7 では、他のすべての設定におけるさまざまなモデルのトレーニングパターンの平均も表示されており、平均には分類エラーと回帰損失が含まれています。適切な専門化はパフォーマンスの向上だけでなく、トレーニングの高速化にもつながることがわかります。

次の図は、Collapse-Avg と Collapse-Worst という 2 つの崩壊メトリックを示しています。さらに、次の図は、ルールの数が異なるさまざまなモデルの 3 つの特殊化メトリック、アライメント、適応、逆相互情報量を示しています。

<<: AIRankingsが世界の大学AIランキングを発表

>>: 世界初、AIによる豚のクローン作成に成功！南開大学がやった