モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入力方法からネットワーク接続やネットワーク アーキテクチャの設計まで、多くの画期的な研究は脳の動作戦略を模倣することに基づいています。近年、モジュール性とアテンションが人工ネットワークで頻繁に組み合わせて使用​​され、素晴らしい成果を上げていることは驚くべきことではありません。

実際、認知神経科学の研究では、大脳皮質が知識をモジュール方式で表現し、異なるモジュールが相互に通信し、注意機構がコンテンツを選択することが示されており、これが前述のモジュール性と注意の組み合わせです。最近の研究では、脳内のこの種のコミュニケーションが深層ネットワークの帰納的バイアスに影響を及ぼす可能性があることが示唆されています。これらの高レベル変数間の依存関係の希薄性により、知識は可能な限り独立した再結合可能な断片に分割され、学習がより効率的になります。​

最近の多くの研究はこのようなモジュール式アーキテクチャに依存していますが、研究者が使用するトリックやアーキテクチャの変更が多数あるため、真に使用可能なアーキテクチャの原則を分析することが困難になっています。

機械学習システムは、よりスパースでモジュール化されたアーキテクチャの利点を徐々に示しており、これは優れた一般化パフォーマンスをもたらすだけでなく、分布外 (OoD) 一般化、スケーラビリティ、学習速度、解釈可能性の向上にもつながります。このようなシステムが成功するための鍵は、現実世界の設定で使用されるデータ生成システムは疎に相互作用する部分で構成されていると考えられており、同様の帰納的バイアスをモデルに与えることが役立つということです。しかし、これらの現実世界のデータの分布は複雑かつ未知であるため、この分野ではこれらのシステムの厳密な定量的評価が不足しています。

カナダのモントリオール大学の Sarthak Mittal、Yoshua Bengio、Guillaume Lajoie が執筆した論文では、単純で既知のモジュール データ分布を使用して、一般的なモジュール アーキテクチャの包括的な評価が行われました。この研究では、モジュール性とスパース性の利点を強調し、モジュール式システムの最適化における課題についての洞察を明らかにしています。第一著者であり責任著者でもある Sarthak Mittal 氏は、Bengio 氏と Lajoie 氏の修士課程の学生です。

  • 論文アドレス: https://arxiv.org/pdf/2206.02713.pdf
  • GitHub アドレス: https://github.com/sarthmit/Mod_Arch

具体的には、この研究では、Rosenbaum らによる分析を拡張し、モジュール型アーキテクチャの共通コンポーネントを評価、定量化、分析する方法を提案しています。この目的のために、本研究では、モジュール型ネットワークの有効性を調査することを目的とした一連のベンチマークとメトリックを開発します。これにより、現在のアプローチがどこで成功しているかだけでなく、それらのアプローチがいつどのように失敗しているかを特定するのに役立つ貴重な洞察が明らかになります。

この研究の貢献は次のように要約できます。

  • この研究では、確率的選択ルールに基づいてベンチマークタスクと指標を開発し、ベンチマークと指標を使用して、モジュールシステムにおける 2 つの重要な現象である崩壊と特化を定量化します。
  • この研究では、共通のモジュール性誘導バイアスを抽出し、共通のアーキテクチャ特性 (モノリシック、モジュラー、モジュラー オプ、GT モジュラー モデル) を抽出するように設計されたさまざまなモデルにわたって体系的に評価します。
  • 研究では、タスクに潜在的なルールが多数ある場合、モジュール システムの特化によってモデルのパフォーマンスが大幅に向上する可能性があるが、ルールが少数の場合はそうではないことが判明しました。
  • 研究では、標準的なモジュールシステムは、正しい情報に集中する能力と専門化する能力が最適ではないことが多く、追加の帰納的バイアスが必要であることが示唆されていることが判明しました。

定義 / 用語

本稿では、さまざまなモジュール システムが、通常データと呼ばれる合成データ生成プロセスを使用して定式化された共通タスクをどのように実行できるかを調査します。これらは、(1)ルールとこれらのルールがどのようにタスクを形成するか、(2)モジュールとこれらのモジュールがどのように異なるモデルアーキテクチャを採用するか、(3)特殊化とモデルがどのように評価されるかなど、主要なコンポーネントの定義を紹介します。詳細な設定は以下の図1に示されています。

ルール。モジュラー システムを適切に理解し、その長所と短所を分析するために、さまざまなタスク要件をきめ細かく制御できる包括的なセットアップを検討します。特に、以下の式 1-3 に示すデータ生成分布に対する、ルールと呼ばれる操作を学習する必要があります。

上記の分布を前提として、ルールをそのエキスパートとして定義します。つまり、ルール r は p_y(·|x, c = r) として定義されます。ここで、c はコンテキストを表すカテゴリ変数であり、x は入力シーケンスです。

タスク。タスクは、式 1-3 に示す一連のルール (データ生成分布) によって記述されます。 {p_y(· | x, c)}_cの異なるセットは異なるタスクを意味します。研究者らは、与えられた数のルールについて、特定のタスクに対する偏りを排除するために、複数のタスクでモデルをトレーニングしました。

モジュール。モジュラー システムは一連のニューラル ネットワーク モジュールで構成され、各モジュールが全体の出力に貢献します。これは次の関数形式で確認できます。

ここで、y_m は出力を表し、p_m は m 番目のモジュールのアクティブ化を表します。

モデルアーキテクチャ。モデル アーキテクチャは、モジュラー システムの各モジュールまたはモノリシック システムの単一モジュールに対して選択するアーキテクチャを記述します。この論文では、研究者らは、多層パーセプトロン (MLP)、マルチヘッドアテンション (MHA)、およびリカレントニューラルネットワーク (RNN) の使用を検討しました。重要なのは、ルール (またはデータ生成分布) が MLP ベースのルールなどのモデル アーキテクチャに適合されていることです。

データ生成プロセス

研究者の目標は合成データを通じてモジュールシステムを調査することであるため、上記のルールスキームに基づいてデータ生成プロセスを詳しく説明します。具体的には、ルール内のさまざまなモジュールがさまざまな専門家に特化できることを期待して、単純な専門家混合 (MoE) スタイルのデータ生成プロセスを使用しました。

MLP、MHA、RNN という 3 つのモデル アーキテクチャに適用可能なデータ生成プロセスについて説明します。さらに、各タスクには回帰と分類の 2 つのバージョンがあります。

MLPP。研究者らは、モジュラー MLP システムに基づく学習に適したデータ スキームを定義しました。この合成データ生成方式では、データ サンプルは 2 つの独立した数値と、何らかの分布からサンプリングされた通常の選択から構成されます。異なるルールによって、2 つの数値の異なる線形結合が生成され、出力が生成されます。つまり、線形結合の選択は、以下の式 4-6 に示すように、ルールに従って動的にインスタンス化されます。

MHA。ここでは、モジュラー MHA システムでの学習用に調整されたデータ スキームを定義します。そのため、彼らは、各ルールが異なる検索、取得コンセプト、および取得された情報の最終的な線形結合で構成されるという特性を持つデータ生成分布を設計しました。研究者たちはこのプロセスを次の式7~11で数学的に説明しました。

RNNN。周期的システムの場合、研究者は、複数のルールのうちの 1 つを任意の時点でトリガーできる線形動的システムのルールを定義しました。数学的には、このプロセスは次の式 12-15 で示されます。

モデル

これまでの研究では、エンドツーエンドでトレーニングされたモジュール式システムは、特に分散環境においてモノリシックシステムよりも優れていると主張しています。しかし、これらのモジュール式システムの利点や、データ生成分布に基づいて実際に特化しているかどうかについて、詳細かつ徹底的な分析は行われていません。

そのため、研究者は、異なるレベルの特殊化を可能にするモノリシック、モジュラー、モジュラー オペレーション、GT モジュラーの 4 種類のモデルを検討しました。以下の表 1 にこれらのモデルを示します。

モノリシック。モノリシック システムは、データ セット全体 (x、c) を入力として受け取り、それに基づいて y^ を予測する大規模なニューラル ネットワークです。システム内に明示的に組み込まれたモジュール性またはスパース性は、帰納的バイアスを示さず、タスクを解決するために必要な関数形式を学習するためにバックプロパゲーションに完全に依存します。

モジュラー。モジュラー システムは多数のモジュールで構成され、各モジュールは特定のアーキテクチャ タイプ (MLP、MHA、または RNN) のニューラル ネットワークです。各モジュールmはデータ(x, c)を入力として受け取り、出力yˆ_mと信頼スコアを計算し、モジュール間で活性化確率p_mに正規化します。

モジュラーオペレーション。モジュラー オペレーティング システムはモジュラー システムと非常によく似ていますが、違いが 1 つあります。モジュール m のアクティベーション確率 p_m を (x, c) の関数として定義する代わりに、アクティベーションがルールコンテキスト C によってのみ決定されるようにします。

GT-モジュラー。真理値モジュラー システムは、オラクル ベンチマーク、つまり完全に特殊化されたモジュラー システムとして機能します。

研究者は、モノリシックから GT モジュラーまで、モデルにはモジュール性とスパース性の帰納的バイアスがますます含まれるようになっていることを示しています。

測定

モジュール式システムを確実に評価するために、そのようなシステムのパフォーマンス上の利点を測定するだけでなく、崩壊と特殊化という 2 つの重要な形式で評価する一連のメトリックを提案します。

パフォーマンス。最初の評価メトリック セットは、分布内および分布外 (OoD) 設定でのパフォーマンスに基づいており、さまざまなモデルがさまざまなタスクでどのように機能するかを反映しています。分類設定の場合、研究者は分類エラーを報告し、回帰設定の場合、研究者は損失を報告します。

崩壊。研究者らは、モジュール式システムが遭遇する崩壊の量(つまり、モジュールが十分に活用されていない程度)を定量化するために、Collapse-Avg と Collapse-Worst という一連の指標を提案しました。下の図 2 は、モジュール 3 が使用されていない例を示しています。

専門分野。崩壊指標を補完するために、モジュールシステムによって達成される特化の度合いを定量化する(1)アライメント、(2)適応、(3)逆相互情報量の一連の指標を提案する。

実験

下の図は、GT-Modular システムがほとんどの場合に最適であること (左) を示しており、特化が有益であることを示しています。また、標準トレーニングでエンドツーエンドでトレーニングされたモジュラー システムはモノリシック システムよりも優れていることがわかりますが、その差は大きくありません。これら 2 つの円グラフを合わせると、エンドツーエンドでトレーニングされた現在のモジュール システムは適切な特化を達成しておらず、したがって大部分が最適ではないことがわかります。

次に、この調査では、特定のアーキテクチャの選択肢に注目し、増加するルールにわたってそのパフォーマンスと傾向を分析します。

図 4 は、完全に特化されたシステム (GT-Modular) はメリットをもたらす一方で、典型的なエンドツーエンドのトレーニング済みモジュラー システムは最適ではなく、特にルールの数が増えると、これらのメリットを実現できないことを示しています。さらに、このようなエンドツーエンドのモジュラー システムはモノリシック システムよりも優れたパフォーマンスを発揮することが多いものの、その利点は通常わずかです。

図 7 では、他のすべての設定におけるさまざまなモデルのトレーニング パターンの平均も表示されており、平均には分類エラーと回帰損失が含まれています。適切な専門化はパフォーマンスの向上だけでなく、トレーニングの高速化にもつながることがわかります。

次の図は、Collapse-Avg と Collapse-Worst という 2 つの崩壊メトリックを示しています。さらに、次の図は、ルールの数が異なるさまざまなモデルの 3 つの特殊化メトリック、アライメント、適応、逆相互情報量を示しています。

<<:  AIRankingsが世界の大学AIランキングを発表

>>:  世界初、AIによる豚のクローン作成に成功!南開大学がやった

ブログ    
ブログ    
ブログ    

推薦する

AIコンピューティングパワーギャップを越えて、人工知能コンピューティングセンターの産業的価値が強調される

「第14次5カ年計画」の骨子には「デジタル化の加速とデジタル中国の構築」という独立した章が設けられ、...

2021 年に備えるべきビジネス インテリジェンスのトレンド トップ 10

2020 年には多くの業界セクターが根本的な変化を経験しましたが、ビジネス インテリジェンス業界も...

...

AI投資を最大限に活用するための6つのステップ

人工知能は、将来の発展にとって大きな破壊的技術の 1 つであるとよく考えられています。これにより、多...

...

何開明のMAE制限が破られ、Swin Transformerと組み合わせることで、トレーニング速度が向上しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

音声アシスタント業界はどこへ向かうのでしょうか?

プログレス・パートナーズの創設者兼シニアマネージングディレクターのニック・マクシェーン氏は、「今後数...

アメリカでは500万の仕事が機械に置き換えられました!スーパーAIは人類に不死をもたらすのか、それとも破滅をもたらすのか?

人工知能は1956年以来40年以上の発展を遂げてきました。現在、AI の目標はコンピューターを人間の...

...

...

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

何十年もの間、ニュースの見出しやSF小説では、トラック運転手やショッピングモールの警備員から芸術家や...

Uber劉延東:Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた

[ 51CTO.comより引用 ] 2017年7月21日から22日まで、51CTOが主催する人工知能...

2024 年のビッグデータ業界予測 (パート 4)

生成 AI は、すぐに過大な期待のピークから幻滅の谷間へと移行するでしょう。控えめに言っても、現在、...

コンピューティングセンターからコンピューティングネットワークまで、人工知能は静かに変化している

人工知能はデジタル経済の高品質な発展の原動力であり、新たな科学技術革命と産業変革の重要な原動力です。...

IoTセキュリティにおける人工知能の重要性

[[423901]]画像ソース: https://pixabay.com/images/id-601...