Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっかけとなった新しいアーキテクチャは「Mamba」と呼ばれ、言語モデリングにおいて Transformer に匹敵するか、あるいはそれを上回る選択的状態空間モデルです。さらに、コンテキストの長さが増加するにつれて線形スケーラビリティを実現でき、実際のデータでは 100 万トークンのシーケンスまでパフォーマンスが向上し、推論スループットが 5 倍に増加します。

リリースから1か月以上が経ち、Mambaは徐々にその影響力を発揮し、MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByteなど多くの作品を生み出し、Transformerの欠点を克服する潜在力が高まっていることを示しました。

しかし、この新星は2024年のICLR会議で大敗を喫した。最新の公開結果によると、Mamba の論文はまだ会議で承認されていません。決定保留列でのみ確認できます (決定が遅れているか、拒否されている可能性があります)。

全体として、Mamba を評価したレビュアーは 4 人おり、それぞれ 8/8/6/3 のスコアを付けています。そのようなスコアで拒否されるのは非常に奇妙だと言う人もいました。

理由を理解するには、低いスコアを付けたレビュー担当者のコメントを見る必要があります。

論文レビューページ: https://openreview.net/forum?id=AL1fq05o7H

なぜ「十分ではない」のでしょうか?

レビューフィードバックでは、「3: 拒否、不十分」というスコアを付けたレビュー担当者が、Mamba についての意見を次のように説明しています。

モデル設計に関する考察:

Mamba の目的は、注意ベースのモデルの効率性を向上させながら、再帰モデルの欠点を解決することです。この方向では多くの研究が行われています：S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、そして多くの効率的なTransformerモデル（[5]など）です。これらのモデルはすべてほぼ線形の複雑さを実現しており、著者はモデルのパフォーマンスと効率の観点から Mamba とこれらの研究を比較する必要があります。モデルのパフォーマンスに関しては、いくつかの簡単な実験 (Wikitext-103 での言語モデリングなど) で十分です。
多くの注意ベースの Transformer モデルは長さの一般化機能を示します。つまり、モデルは短いシーケンス長でトレーニングし、長いシーケンス長でテストできます。例としては相対位置エンコーディング（T5）やアリバイ[6]などがあげられる。 SSM は一般に連続的であるため、Mamba にはこの長さの一般化機能がありますか?

実験についての考察:

著者はより強力なベースラインと比較する必要があります。著者らは、H3 がモデルアーキテクチャの動機として使用されたと述べていますが、実験では H3 との比較は行っていません。 [7]の表4によると、Pileデータセットでは、H3のpplは8.8（125万）、7.1（355万）、6.0（13億）であり、Mambaよりもはるかに優れています。著者は H3 との比較を示す必要があります。
事前トレーニング済みモデルの場合、著者はゼロショット推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を強く裏付けるものではありません。著者は、入力シーケンスが自然に長い（たとえば、arXiv データセットの平均シーケンス長は 8k を超える）ドキュメントの要約などの長いシーケンスでより多くの実験を行うことをお勧めします。
著者らは、彼らの主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者は、基本的に長いシーケンスを理解するための標準ベンチマークである LRA (Long Range Arena) のより多くのベースラインと比較する必要があります。
メモリベンチマークがありません。セクション 4.5 のタイトルは「速度とメモリのベンチマーク」ですが、速度の比較のみが示されています。さらに、著者は、モデルレイヤー、モデルサイズ、畳み込みの詳細など、図 8 の左側に、より詳細な設定を提供する必要があります。シーケンスの長さが非常に長い場合に FlashAttention が最も遅くなる理由について、著者は何らかの直感を提供できますか (図 8 左)?

さらに、別のレビュー担当者も Mamba の欠点を指摘しました。このモデルは、Transformer と同様に、トレーニング中に依然として 2 次メモリ要件を抱えています。

著者: 変更しました。確認してください

著者チームは、すべての査読者のコメントを要約した後、論文の内容を修正して改善し、新しい実験結果と分析を追加しました。

H3モデルの評価結果を追加しました

著者らは、サイズ 125M-2.7B パラメータの事前トレーニング済み H3 モデルをダウンロードし、一連の評価を実行しました。 Mamba はすべての言語評価において大幅に優れており、これらの H3 モデルは二次注意を使用するハイブリッドモデルであるのに対し、線形時間 Mamba レイヤーのみを使用する純粋なモデルはすべてのメトリックにおいて大幅に優れていることは注目に値します。

事前トレーニング済みの H3 モデルとの評価比較は次のとおりです。

完全にトレーニングされたモデルをより大きなモデルサイズにスケーリングする

下の図に示すように、Mamba は、すべての評価結果において、同じ数のトークン (300B) でトレーニングされた 3B オープンソースモデルよりも優れています。 7B サイズのモデルに匹敵するパフォーマンスも備えています。Mamba (2.8B) を OPT、Pythia、RWKV (7B) と比較すると、Mamba はすべてのベンチマークで最高の平均スコアと最高/2 番目に優れたスコアを達成しています。

トレーニングの長さを超えて長さを外挿した結果を表示します

著者は、事前トレーニング済みの 3B パラメータ言語モデルの長さの外挿を評価する図を添付しました。

各位置の平均損失（ログの可読性）がプロットされます。最初のトークンのパープレキシティはコンテキストがないため高くなりますが、Mamba とベースライン Transformer (Pythia) のパープレキシティはトレーニングコンテキストの長さ (2048) に達する前に増加します。興味深いことに、Mamba の解決可能性は、トレーニングコンテキストを超えて、長さ 3000 程度まで大幅に向上します。

著者らは、長さの外挿はモデルの直接的な動機ではなく、むしろボーナス機能として考えられていることを強調しています。

ここでのベースラインモデル (Pythia) は長さの外挿を考慮してトレーニングされておらず、より一般的な他の Transformer バリアント (T5 や Alibi 相対位置エンコーディングなど) が存在する可能性があります。
相対位置エンコーディングを使用して Pile でトレーニングされたオープンソースの 3B モデルは見つからなかったため、このような比較を行うことはできません。
Mamba は Pythia と同様に、長さの外挿を考慮せずに訓練されたため、比較できません。 Transformer には、長さの一般化などの軸上の機能を向上させるための多くのテクニック (さまざまな位置埋め込みなど) があるため、将来の作業で同様の機能を実現する SSM 固有のテクニックを導出することは興味深いかもしれません。

WikiText-103 に新しい結果を追加しました

著者らは複数の論文の結果を分析し、Mamba が WikiText-103 において他の 20 以上の最先端のサブ二次シーケンスモデルを大幅に上回る性能を示したことを示しました。

それにもかかわらず、2か月が経過しても、論文は依然として「決定保留」プロセスにあり、「受理」または「却下」の明確な結果が出ていません。

トップカンファレンスで却下された論文

主要な AI カンファレンスでは、「投稿数の爆発的増加」が頭痛の種であり、エネルギーが限られている査読者はミスを犯すことになります。このため、YOLO、Transformer XL、Dropout、サポートベクターマシン (SVM)、知識蒸留、SIFT、Google 検索エンジンの Web ページランキングアルゴリズム PageRank など、歴史上トップクラスのカンファレンスで多くの有名な論文が拒否されました (「非常に影響力のある有名な YOLO と PageRank の研究がトップクラスの CS カンファレンスで拒否された」を参照)。

ディープラーニングの三大巨頭の一人であるヤン・ルカン氏も、論文を頻繁に却下されている。ちょうど今、彼は、1,887回引用された論文「グラフ構造データ上の深層畳み込みネットワーク」もトップカンファレンスで拒否されたとツイートした。

ICML 2022では、彼は「3つの論文を提出したが、3つとも却下された」という。

したがって、トップレベルの会議で論文が拒否されたからといって、その論文に価値がないということではありません。上記の却下された論文の中には、他の会議に移送することを選択し、最終的に受け入れられたものも多くあります。そのため、ネットユーザーは、Mambaが陳丹奇などの若い学者によって設立されたCOLMに切り替えることを提案した。 COLM は言語モデル研究に特化した学術的な場であり、言語モデル技術の開発の理解、改善、コメントに重点を置いており、Mamba のような論文にはより適している可能性があります。

しかし、最終的にMambaがICLRに受け入れられるかどうかは別として、それは影響力のある作品になりました。また、コミュニティにTransformerの束縛を打ち破る希望を与え、従来のTransformerモデルを超える探求に新たな活力を注入しました。

<<: NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

>>: Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も！ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす