モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入力方法からネットワーク接続やネットワーク アーキテクチャの設計まで、多くの画期的な研究は脳の動作戦略を模倣することに基づいています。近年、モジュール性とアテンションが人工ネットワークで頻繁に組み合わせて使用​​され、素晴らしい成果を上げていることは驚くべきことではありません。

実際、認知神経科学の研究では、大脳皮質が知識をモジュール方式で表現し、異なるモジュールが相互に通信し、注意機構がコンテンツを選択することが示されており、これが前述のモジュール性と注意の組み合わせです。最近の研究では、脳内のこの種のコミュニケーションが深層ネットワークの帰納的バイアスに影響を及ぼす可能性があることが示唆されています。これらの高レベル変数間の依存関係の希薄性により、知識は可能な限り独立した再結合可能な断片に分割され、学習がより効率的になります。​

最近の多くの研究はこのようなモジュール式アーキテクチャに依存していますが、研究者が使用するトリックやアーキテクチャの変更が多数あるため、真に使用可能なアーキテクチャの原則を分析することが困難になっています。

機械学習システムは、よりスパースでモジュール化されたアーキテクチャの利点を徐々に示しており、これは優れた一般化パフォーマンスをもたらすだけでなく、分布外 (OoD) 一般化、スケーラビリティ、学習速度、解釈可能性の向上にもつながります。このようなシステムが成功するための鍵は、現実世界の設定で使用されるデータ生成システムは疎に相互作用する部分で構成されていると考えられており、同様の帰納的バイアスをモデルに与えることが役立つということです。しかし、これらの現実世界のデータの分布は複雑かつ未知であるため、この分野ではこれらのシステムの厳密な定量的評価が不足しています。

カナダのモントリオール大学の Sarthak Mittal、Yoshua Bengio、Guillaume Lajoie が執筆した論文では、単純で既知のモジュール データ分布を使用して、一般的なモジュール アーキテクチャの包括的な評価が行われました。この研究では、モジュール性とスパース性の利点を強調し、モジュール式システムの最適化における課題についての洞察を明らかにしています。第一著者であり責任著者でもある Sarthak Mittal 氏は、Bengio 氏と Lajoie 氏の修士課程の学生です。

  • 論文アドレス: https://arxiv.org/pdf/2206.02713.pdf
  • GitHub アドレス: https://github.com/sarthmit/Mod_Arch

具体的には、この研究では、Rosenbaum らによる分析を拡張し、モジュール型アーキテクチャの共通コンポーネントを評価、定量化、分析する方法を提案しています。この目的のために、本研究では、モジュール型ネットワークの有効性を調査することを目的とした一連のベンチマークとメトリックを開発します。これにより、現在のアプローチがどこで成功しているかだけでなく、それらのアプローチがいつどのように失敗しているかを特定するのに役立つ貴重な洞察が明らかになります。

この研究の貢献は次のように要約できます。

  • この研究では、確率的選択ルールに基づいてベンチマークタスクと指標を開発し、ベンチマークと指標を使用して、モジュールシステムにおける 2 つの重要な現象である崩壊と特化を定量化します。
  • この研究では、共通のモジュール性誘導バイアスを抽出し、共通のアーキテクチャ特性 (モノリシック、モジュラー、モジュラー オプ、GT モジュラー モデル) を抽出するように設計されたさまざまなモデルにわたって体系的に評価します。
  • 研究では、タスクに潜在的なルールが多数ある場合、モジュール システムの特化によってモデルのパフォーマンスが大幅に向上する可能性があるが、ルールが少数の場合はそうではないことが判明しました。
  • 研究では、標準的なモジュールシステムは、正しい情報に集中する能力と専門化する能力が最適ではないことが多く、追加の帰納的バイアスが必要であることが示唆されていることが判明しました。

定義 / 用語

本稿では、さまざまなモジュール システムが、通常データと呼ばれる合成データ生成プロセスを使用して定式化された共通タスクをどのように実行できるかを調査します。これらは、(1)ルールとこれらのルールがどのようにタスクを形成するか、(2)モジュールとこれらのモジュールがどのように異なるモデルアーキテクチャを採用するか、(3)特殊化とモデルがどのように評価されるかなど、主要なコンポーネントの定義を紹介します。詳細な設定は以下の図1に示されています。

ルール。モジュラー システムを適切に理解し、その長所と短所を分析するために、さまざまなタスク要件をきめ細かく制御できる包括的なセットアップを検討します。特に、以下の式 1-3 に示すデータ生成分布に対する、ルールと呼ばれる操作を学習する必要があります。

上記の分布を前提として、ルールをそのエキスパートとして定義します。つまり、ルール r は p_y(·|x, c = r) として定義されます。ここで、c はコンテキストを表すカテゴリ変数であり、x は入力シーケンスです。

タスク。タスクは、式 1-3 に示す一連のルール (データ生成分布) によって記述されます。 {p_y(· | x, c)}_cの異なるセットは異なるタスクを意味します。研究者らは、与えられた数のルールについて、特定のタスクに対する偏りを排除するために、複数のタスクでモデルをトレーニングしました。

モジュール。モジュラー システムは一連のニューラル ネットワーク モジュールで構成され、各モジュールが全体の出力に貢献します。これは次の関数形式で確認できます。

ここで、y_m は出力を表し、p_m は m 番目のモジュールのアクティブ化を表します。

モデルアーキテクチャ。モデル アーキテクチャは、モジュラー システムの各モジュールまたはモノリシック システムの単一モジュールに対して選択するアーキテクチャを記述します。この論文では、研究者らは、多層パーセプトロン (MLP)、マルチヘッドアテンション (MHA)、およびリカレントニューラルネットワーク (RNN) の使用を検討しました。重要なのは、ルール (またはデータ生成分布) が MLP ベースのルールなどのモデル アーキテクチャに適合されていることです。

データ生成プロセス

研究者の目標は合成データを通じてモジュールシステムを調査することであるため、上記のルールスキームに基づいてデータ生成プロセスを詳しく説明します。具体的には、ルール内のさまざまなモジュールがさまざまな専門家に特化できることを期待して、単純な専門家混合 (MoE) スタイルのデータ生成プロセスを使用しました。

MLP、MHA、RNN という 3 つのモデル アーキテクチャに適用可能なデータ生成プロセスについて説明します。さらに、各タスクには回帰と分類の 2 つのバージョンがあります。

MLPP。研究者らは、モジュラー MLP システムに基づく学習に適したデータ スキームを定義しました。この合成データ生成方式では、データ サンプルは 2 つの独立した数値と、何らかの分布からサンプリングされた通常の選択から構成されます。異なるルールによって、2 つの数値の異なる線形結合が生成され、出力が生成されます。つまり、線形結合の選択は、以下の式 4-6 に示すように、ルールに従って動的にインスタンス化されます。

MHA。ここでは、モジュラー MHA システムでの学習用に調整されたデータ スキームを定義します。そのため、彼らは、各ルールが異なる検索、取得コンセプト、および取得された情報の最終的な線形結合で構成されるという特性を持つデータ生成分布を設計しました。研究者たちはこのプロセスを次の式7~11で数学的に説明しました。

RNNN。周期的システムの場合、研究者は、複数のルールのうちの 1 つを任意の時点でトリガーできる線形動的システムのルールを定義しました。数学的には、このプロセスは次の式 12-15 で示されます。

モデル

これまでの研究では、エンドツーエンドでトレーニングされたモジュール式システムは、特に分散環境においてモノリシックシステムよりも優れていると主張しています。しかし、これらのモジュール式システムの利点や、データ生成分布に基づいて実際に特化しているかどうかについて、詳細かつ徹底的な分析は行われていません。

そのため、研究者は、異なるレベルの特殊化を可能にするモノリシック、モジュラー、モジュラー オペレーション、GT モジュラーの 4 種類のモデルを検討しました。以下の表 1 にこれらのモデルを示します。

モノリシック。モノリシック システムは、データ セット全体 (x、c) を入力として受け取り、それに基づいて y^ を予測する大規模なニューラル ネットワークです。システム内に明示的に組み込まれたモジュール性またはスパース性は、帰納的バイアスを示さず、タスクを解決するために必要な関数形式を学習するためにバックプロパゲーションに完全に依存します。

モジュラー。モジュラー システムは多数のモジュールで構成され、各モジュールは特定のアーキテクチャ タイプ (MLP、MHA、または RNN) のニューラル ネットワークです。各モジュールmはデータ(x, c)を入力として受け取り、出力yˆ_mと信頼スコアを計算し、モジュール間で活性化確率p_mに正規化します。

モジュラーオペレーション。モジュラー オペレーティング システムはモジュラー システムと非常によく似ていますが、違いが 1 つあります。モジュール m のアクティベーション確率 p_m を (x, c) の関数として定義する代わりに、アクティベーションがルールコンテキスト C によってのみ決定されるようにします。

GT-モジュラー。真理値モジュラー システムは、オラクル ベンチマーク、つまり完全に特殊化されたモジュラー システムとして機能します。

研究者は、モノリシックから GT モジュラーまで、モデルにはモジュール性とスパース性の帰納的バイアスがますます含まれるようになっていることを示しています。

測定

モジュール式システムを確実に評価するために、そのようなシステムのパフォーマンス上の利点を測定するだけでなく、崩壊と特殊化という 2 つの重要な形式で評価する一連のメトリックを提案します。

パフォーマンス。最初の評価メトリック セットは、分布内および分布外 (OoD) 設定でのパフォーマンスに基づいており、さまざまなモデルがさまざまなタスクでどのように機能するかを反映しています。分類設定の場合、研究者は分類エラーを報告し、回帰設定の場合、研究者は損失を報告します。

崩壊。研究者らは、モジュール式システムが遭遇する崩壊の量(つまり、モジュールが十分に活用されていない程度)を定量化するために、Collapse-Avg と Collapse-Worst という一連の指標を提案しました。下の図 2 は、モジュール 3 が使用されていない例を示しています。

専門分野。崩壊指標を補完するために、モジュールシステムによって達成される特化の度合いを定量化する(1)アライメント、(2)適応、(3)逆相互情報量の一連の指標を提案する。

実験

下の図は、GT-Modular システムがほとんどの場合に最適であること (左) を示しており、特化が有益であることを示しています。また、標準トレーニングでエンドツーエンドでトレーニングされたモジュラー システムはモノリシック システムよりも優れていることがわかりますが、その差は大きくありません。これら 2 つの円グラフを合わせると、エンドツーエンドでトレーニングされた現在のモジュール システムは適切な特化を達成しておらず、したがって大部分が最適ではないことがわかります。

次に、この調査では、特定のアーキテクチャの選択肢に注目し、増加するルールにわたってそのパフォーマンスと傾向を分析します。

図 4 は、完全に特化されたシステム (GT-Modular) はメリットをもたらす一方で、典型的なエンドツーエンドのトレーニング済みモジュラー システムは最適ではなく、特にルールの数が増えると、これらのメリットを実現できないことを示しています。さらに、このようなエンドツーエンドのモジュラー システムはモノリシック システムよりも優れたパフォーマンスを発揮することが多いものの、その利点は通常わずかです。

図 7 では、他のすべての設定におけるさまざまなモデルのトレーニング パターンの平均も表示されており、平均には分類エラーと回帰損失が含まれています。適切な専門化はパフォーマンスの向上だけでなく、トレーニングの高速化にもつながることがわかります。

次の図は、Collapse-Avg と Collapse-Worst という 2 つの崩壊メトリックを示しています。さらに、次の図は、ルールの数が異なるさまざまなモデルの 3 つの特殊化メトリック、アライメント、適応、逆相互情報量を示しています。

<<:  AIRankingsが世界の大学AIランキングを発表

>>:  世界初、AIによる豚のクローン作成に成功!南開大学がやった

ブログ    

推薦する

...

MITの研究者はAIを使って自動運転車が赤信号でアイドリングを回避できるように支援する

ドライバーが毎回信号を直進できるように旅行を計画できたらどうなるでしょうか?これは、特に幸運な状況下...

...

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大...

強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

強化学習となると、多くの研究者のアドレナリンが抑えきれないほど湧き上がります!これは、ゲーム AI ...

CycleGAN が敵対的ネットワーク画像処理ツールを生成

1. GANの紹介「食べるために一生懸命働く人、食べるために一生懸命働く人こそが人々の中で最も優れて...

人工知能の急速な発展により、小売業界は第5の変革期を迎えている。

[[252330]]人工知能の急速な発展は、新しい小売業者に力を与え、小売業界の「人、商品、場所」...

人工知能における非構造化データの役割

人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...

金融AIの実装は難しいですか?ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

金融分野で AI を適切に導入するには、単に時間や資金を最も多く投資すればよいという問題ではありませ...

「素晴らしい成果物!」ハードウェア AI パフォーマンス テスト用の Python ライブラリがリリースされました

現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...

なぜロボット起業のチャンスはBサイドにあると言われるのでしょうか?

技術の変化のスピードは常に保守派の想像を超えています。 [[348702]]多くの人々の直感では、過...

反復コラボレーション法に基づく顔の超解像

2020CVPR 受理論文「Deep Face Super-Resolution with Iter...

数は力なり!テンセントが明らかに:エージェントの数が増えるほど、大規模言語モデルはより良くなる

Tencent の研究者は、エージェントのスケーリング特性に関する研究を行いました。単純なサンプリン...

出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

権限の取得方法についての簡単な説明: ファイルのアップロード

概要ファイルアップロードの脆弱性は、アップロード機能を持つアプリケーションで発生します。アプリケーシ...