2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっかけとなった新しいアーキテクチャは「Mamba」と呼ばれ、言語モデリングにおいて Transformer に匹敵するか、あるいはそれを上回る選択的状態空間モデルです。さらに、コンテキストの長さが増加するにつれて線形スケーラビリティを実現でき、実際のデータでは 100 万トークンのシーケンスまでパフォーマンスが向上し、推論スループットが 5 倍に増加します。 リリースから1か月以上が経ち、Mambaは徐々にその影響力を発揮し、MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByteなど多くの作品を生み出し、Transformerの欠点を克服する潜在力が高まっていることを示しました。 しかし、この新星は2024年のICLR会議で大敗を喫した。最新の公開結果によると、Mamba の論文はまだ会議で承認されていません。決定保留列でのみ確認できます (決定が遅れているか、拒否されている可能性があります)。 全体として、Mamba を評価したレビュアーは 4 人おり、それぞれ 8/8/6/3 のスコアを付けています。そのようなスコアで拒否されるのは非常に奇妙だと言う人もいました。 理由を理解するには、低いスコアを付けたレビュー担当者のコメントを見る必要があります。 論文レビューページ: https://openreview.net/forum?id=AL1fq05o7H なぜ「十分ではない」のでしょうか?レビューフィードバックでは、「3: 拒否、不十分」というスコアを付けたレビュー担当者が、Mamba についての意見を次のように説明しています。 モデル設計に関する考察:
実験についての考察:
さらに、別のレビュー担当者も Mamba の欠点を指摘しました。このモデルは、Transformer と同様に、トレーニング中に依然として 2 次メモリ要件を抱えています。 著者: 変更しました。確認してください著者チームは、すべての査読者のコメントを要約した後、論文の内容を修正して改善し、新しい実験結果と分析を追加しました。
著者らは、サイズ 125M-2.7B パラメータの事前トレーニング済み H3 モデルをダウンロードし、一連の評価を実行しました。 Mamba はすべての言語評価において大幅に優れており、これらの H3 モデルは二次注意を使用するハイブリッド モデルであるのに対し、線形時間 Mamba レイヤーのみを使用する純粋なモデルはすべてのメトリックにおいて大幅に優れていることは注目に値します。 事前トレーニング済みの H3 モデルとの評価比較は次のとおりです。
下の図に示すように、Mamba は、すべての評価結果において、同じ数のトークン (300B) でトレーニングされた 3B オープンソース モデルよりも優れています。 7B サイズのモデルに匹敵するパフォーマンスも備えています。Mamba (2.8B) を OPT、Pythia、RWKV (7B) と比較すると、Mamba はすべてのベンチマークで最高の平均スコアと最高/2 番目に優れたスコアを達成しています。
著者は、事前トレーニング済みの 3B パラメータ言語モデルの長さの外挿を評価する図を添付しました。 各位置の平均損失(ログの可読性)がプロットされます。最初のトークンのパープレキシティはコンテキストがないため高くなりますが、Mamba とベースライン Transformer (Pythia) のパープレキシティはトレーニング コンテキストの長さ (2048) に達する前に増加します。興味深いことに、Mamba の解決可能性は、トレーニング コンテキストを超えて、長さ 3000 程度まで大幅に向上します。 著者らは、長さの外挿はモデルの直接的な動機ではなく、むしろボーナス機能として考えられていることを強調しています。
著者らは複数の論文の結果を分析し、Mamba が WikiText-103 において他の 20 以上の最先端のサブ二次シーケンス モデルを大幅に上回る性能を示したことを示しました。 それにもかかわらず、2か月が経過しても、論文は依然として「決定保留」プロセスにあり、「受理」または「却下」の明確な結果が出ていません。 トップカンファレンスで却下された論文主要な AI カンファレンスでは、「投稿数の爆発的増加」が頭痛の種であり、エネルギーが限られている査読者はミスを犯すことになります。このため、YOLO、Transformer XL、Dropout、サポートベクターマシン (SVM)、知識蒸留、SIFT、Google 検索エンジンの Web ページランキングアルゴリズム PageRank など、歴史上トップクラスのカンファレンスで多くの有名な論文が拒否されました (「非常に影響力のある有名な YOLO と PageRank の研究がトップクラスの CS カンファレンスで拒否された」を参照)。 ディープラーニングの三大巨頭の一人であるヤン・ルカン氏も、論文を頻繁に却下されている。ちょうど今、彼は、1,887回引用された論文「グラフ構造データ上の深層畳み込みネットワーク」もトップカンファレンスで拒否されたとツイートした。 ICML 2022では、彼は「3つの論文を提出したが、3つとも却下された」という。 したがって、トップレベルの会議で論文が拒否されたからといって、その論文に価値がないということではありません。上記の却下された論文の中には、他の会議に移送することを選択し、最終的に受け入れられたものも多くあります。そのため、ネットユーザーは、Mambaが陳丹奇などの若い学者によって設立されたCOLMに切り替えることを提案した。 COLM は言語モデル研究に特化した学術的な場であり、言語モデル技術の開発の理解、改善、コメントに重点を置いており、Mamba のような論文にはより適している可能性があります。 しかし、最終的にMambaがICLRに受け入れられるかどうかは別として、それは影響力のある作品になりました。また、コミュニティにTransformerの束縛を打ち破る希望を与え、従来のTransformerモデルを超える探求に新たな活力を注入しました。 |
<<: NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る
>>: Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす
検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...
人工知能は商業ビルを変革し、エネルギー使用に関してよりスマートなものにしています。周囲に誰もいないと...
[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...
いよいよ、「ヴィンセント・ピクチャーズの新王者」Stable Diffusion 3 の技術レポート...
IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...
海外メディアの報道によると、ニューヨーク州議会は、学校での顔認証やその他の生体認証技術の使用を202...
産業情報ウェブサイトReportlinkerが2020年11月に発表したレポートによると、産業用ロボ...
1970 年代以来、顔認識はコンピューター ビジョンと生体認証の分野で最も研究されているトピックの ...
石油は産業の血液であるだけでなく、私たちの日常生活にも深く関わっていることは周知の事実です。統計によ...
最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...
[51CTO記者の李玲玲が北京からレポート] 真夏が到来し、人工知能も北京の天気のように、より暑い...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...