2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっかけとなった新しいアーキテクチャは「Mamba」と呼ばれ、言語モデリングにおいて Transformer に匹敵するか、あるいはそれを上回る選択的状態空間モデルです。さらに、コンテキストの長さが増加するにつれて線形スケーラビリティを実現でき、実際のデータでは 100 万トークンのシーケンスまでパフォーマンスが向上し、推論スループットが 5 倍に増加します。 リリースから1か月以上が経ち、Mambaは徐々にその影響力を発揮し、MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByteなど多くの作品を生み出し、Transformerの欠点を克服する潜在力が高まっていることを示しました。 しかし、この新星は2024年のICLR会議で大敗を喫した。最新の公開結果によると、Mamba の論文はまだ会議で承認されていません。決定保留列でのみ確認できます (決定が遅れているか、拒否されている可能性があります)。 全体として、Mamba を評価したレビュアーは 4 人おり、それぞれ 8/8/6/3 のスコアを付けています。そのようなスコアで拒否されるのは非常に奇妙だと言う人もいました。 理由を理解するには、低いスコアを付けたレビュー担当者のコメントを見る必要があります。 論文レビューページ: https://openreview.net/forum?id=AL1fq05o7H なぜ「十分ではない」のでしょうか?レビューフィードバックでは、「3: 拒否、不十分」というスコアを付けたレビュー担当者が、Mamba についての意見を次のように説明しています。 モデル設計に関する考察:
実験についての考察:
さらに、別のレビュー担当者も Mamba の欠点を指摘しました。このモデルは、Transformer と同様に、トレーニング中に依然として 2 次メモリ要件を抱えています。 著者: 変更しました。確認してください著者チームは、すべての査読者のコメントを要約した後、論文の内容を修正して改善し、新しい実験結果と分析を追加しました。
著者らは、サイズ 125M-2.7B パラメータの事前トレーニング済み H3 モデルをダウンロードし、一連の評価を実行しました。 Mamba はすべての言語評価において大幅に優れており、これらの H3 モデルは二次注意を使用するハイブリッド モデルであるのに対し、線形時間 Mamba レイヤーのみを使用する純粋なモデルはすべてのメトリックにおいて大幅に優れていることは注目に値します。 事前トレーニング済みの H3 モデルとの評価比較は次のとおりです。
下の図に示すように、Mamba は、すべての評価結果において、同じ数のトークン (300B) でトレーニングされた 3B オープンソース モデルよりも優れています。 7B サイズのモデルに匹敵するパフォーマンスも備えています。Mamba (2.8B) を OPT、Pythia、RWKV (7B) と比較すると、Mamba はすべてのベンチマークで最高の平均スコアと最高/2 番目に優れたスコアを達成しています。
著者は、事前トレーニング済みの 3B パラメータ言語モデルの長さの外挿を評価する図を添付しました。 各位置の平均損失(ログの可読性)がプロットされます。最初のトークンのパープレキシティはコンテキストがないため高くなりますが、Mamba とベースライン Transformer (Pythia) のパープレキシティはトレーニング コンテキストの長さ (2048) に達する前に増加します。興味深いことに、Mamba の解決可能性は、トレーニング コンテキストを超えて、長さ 3000 程度まで大幅に向上します。 著者らは、長さの外挿はモデルの直接的な動機ではなく、むしろボーナス機能として考えられていることを強調しています。
著者らは複数の論文の結果を分析し、Mamba が WikiText-103 において他の 20 以上の最先端のサブ二次シーケンス モデルを大幅に上回る性能を示したことを示しました。 それにもかかわらず、2か月が経過しても、論文は依然として「決定保留」プロセスにあり、「受理」または「却下」の明確な結果が出ていません。 トップカンファレンスで却下された論文主要な AI カンファレンスでは、「投稿数の爆発的増加」が頭痛の種であり、エネルギーが限られている査読者はミスを犯すことになります。このため、YOLO、Transformer XL、Dropout、サポートベクターマシン (SVM)、知識蒸留、SIFT、Google 検索エンジンの Web ページランキングアルゴリズム PageRank など、歴史上トップクラスのカンファレンスで多くの有名な論文が拒否されました (「非常に影響力のある有名な YOLO と PageRank の研究がトップクラスの CS カンファレンスで拒否された」を参照)。 ディープラーニングの三大巨頭の一人であるヤン・ルカン氏も、論文を頻繁に却下されている。ちょうど今、彼は、1,887回引用された論文「グラフ構造データ上の深層畳み込みネットワーク」もトップカンファレンスで拒否されたとツイートした。 ICML 2022では、彼は「3つの論文を提出したが、3つとも却下された」という。 したがって、トップレベルの会議で論文が拒否されたからといって、その論文に価値がないということではありません。上記の却下された論文の中には、他の会議に移送することを選択し、最終的に受け入れられたものも多くあります。そのため、ネットユーザーは、Mambaが陳丹奇などの若い学者によって設立されたCOLMに切り替えることを提案した。 COLM は言語モデル研究に特化した学術的な場であり、言語モデル技術の開発の理解、改善、コメントに重点を置いており、Mamba のような論文にはより適している可能性があります。 しかし、最終的にMambaがICLRに受け入れられるかどうかは別として、それは影響力のある作品になりました。また、コミュニティにTransformerの束縛を打ち破る希望を与え、従来のTransformerモデルを超える探求に新たな活力を注入しました。 |
<<: NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る
>>: Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす
失業率が急上昇、それはAIのせいか? !科学技術の発展に伴い、高コストで非効率的な手作業が人工知能に...
あらゆる業界でますます多くの企業がビジネス プロセスを変革するために人工知能 (AI) を導入してい...
[[382214]]編纂者:Qi Lubei編集者:陳彩仙機械学習の分野は非常にホットであり、新しい...
認知科学、人工知能、言語学、哲学の研究者たちは、35年間にわたり、ニューラルネットワークが人間のよう...
[[417131]]韓国が「カメレオンソフトロボット」の開発に成功、78件のコメントがつき、ホット検...
プログラマーからデータ エンジニアまで、プログラム コードを書くことは基本的なスキルですが、長いコー...
著者 | タスミア企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:...
長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
ソロモンが動物とコミュニケーションをとることができたのは、魔法のアイテムを持っていたからではなく、観...
さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...
トランスフォーマーは、ペアワイズ依存関係を記述し、シーケンス内のマルチレベル表現を抽出できるため、時...
夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...