8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー：吊り下げられた心臓はついに死んだ

数日前、ICLR 2024 の最終合格結果が発表されました。

ICLR 2024 カンファレンスで Mamba が決定保留中であるというニュースが、1 月にコミュニティ内で白熱した議論を引き起こしたことを誰もが覚えているはずです。

当時、多くの研究者は、Decision Pending は決定が遅れていることを意味すると分析しました。却下される可能性はありますが、この論文は 8/8/6/3 というスコアを獲得したので、却下されるべきではありません。

論文レビューページ: https://openreview.net/forum?id=AL1fq05o7H

『Decision』がリリースされ、『Mamba』が完全に拒否された今、私の心はようやく平穏になりました。

「Mamba」は、リリース当初は「Transformerの強力なライバル」とみなされていました。言語モデリングにおいてTransformerに匹敵、あるいは凌駕する選択的状態空間モデルです。さらに、コンテキストの長さが増加するにつれて線形スケーラビリティを実現でき、実際のデータでは 100 万トークンのシーケンスまでパフォーマンスが向上し、推論スループットが 5 倍に増加します。

しかし、ICLR の査読者にとっては、この論文には依然として大きな欠陥がある (少なくとも現在のバージョンでは)。

スコアが 8/8/6/3 なのに、なぜ拒否されたのですか?

OpenReview ページを再確認したところ、新しいレビューコメントが見つかりました。

ICLR エリアチェアによる最終声明は、論文で使用された評価方法が議論の余地があるというものだった。

レビューコメントは次のように要約されます。

この論文では、長距離言語モデリング用に設計された新しい状態空間モデルの変種を紹介します。実験では、このモデルは言語モデリングタスクの困惑度指標に関して既存のモデルよりも大幅に改善されていることが示されています。 2 人の査読者が非常に肯定的なコメントをしたことは注目に値します (ただし、査読者の 1 人は言語モデルの経験が限られていました)。しかし、言語モデルに関してより経験豊富な専門家である 3 人目の査読者は、ベンチマークと評価指標に関連する 2 つの重大な懸念を提起しました。

1. LRA (Long Range Arena) の結果の欠如: 査読者は、長いシーケンスモデリングのベンチマークとして認められている LRA の結果が不足していることを強調しました。これまでの状態空間モデルの研究では、LRA は日常的なものとなっているため、徹底的に評価する必要があります。

2. 評価に困惑度を使用する: レビュー担当者は、困惑度を主要な評価基準として使用することに疑問を呈しました。この論文は、Sun ら (2021) (「長距離言語モデルは実際に長距離コンテキストを使用しているか?」) の見解を引用しており、彼らは、難解度が低いことが必ずしも最終的な NLP アプリケーションにおけるモデリング機能の向上を意味するわけではないと考えています。彼らの主張は、低い困惑度を達成するものの、要約や質問応答などの生成タスクに苦労するいくつかのトランスフォーマーモデルの限界を強調したZhangら（2023）によってさらに強化されています。

さらに、長いシーケンス言語モデルが短いテキストシーケンスに対してパフォーマンスのギャップを生じる可能性についても懸念が表明されています。この点に対処するために、補足的な実験結果を追加することを提案します。

これらの異なる見解を調整するために、私たちは査読者の du8a と話し合い、その後、シニアエリア委員長と話し合いました。論文を慎重に検討し、提起された正当な懸念を考慮した後、最終決定では論文の却下を推奨します。これらの問題、特に実験方法論と選択された評価基準に関連する問題は重大であると考えられ、提示された反論では十分に対処されていませんでした。これらの問題に対処するために追加の実験を加えることで、この論文は大きな恩恵を受けるだろうと私たちは考えています。

ICLRでも拒否された傑作「Word2vec」

マンバさんの経験は、10年前に発表された論文を思い出させる。

言及されている写真は、Tomas Mikolov を含む 4 人の Google 研究者が共同で完成させた Word2vec に関する最初の論文「ベクトル空間での単語表現の効率的な推定」です。

論文リンク: https://arxiv.org/pdf/1301.3781.pdf

この論文は、2013 年の第 1 回 ICLR 会議では、その年の採択率が比較的高かったにもかかわらず、却下されました。昨年、Tomas Mikolov 氏は Word2vec の開発をレビューした際に次のように後悔していました。「これは、査読者が論文の将来的な影響を予測することがいかに難しいかを思い出させます。」

しかし、よく調べてみると、Word2vec が拒否された理由は一般的な論文とは異なります。

OpenReview ページでは、モデルを定義するための方程式を追加するなど、提出されたバージョンに対して複数の査読者が次々とコメントを寄せているのがわかりました。

レビューページ: https://openreview.net/forum?id=idpCdOWtqXd60

トマス・ミコロフ氏の返答はかなり厳しく、各レビューコメントに返答するのに十分な資料を提供しなかったことは明らかで、その反論を読んだ数人のレビュー担当者はさらに怒りを覚えた。

ある査読者は最終的に「強く拒否」しました。

別の査読者は「ほぼ明確で良好」というコメントをしましたが、後に「弱い拒否」に変更しました。

写真

別の評論家は率直にこう指摘した。

「著者が、合理的な科学的比較を強く無視し、自身のモデルとモデルの組み合わせのあらゆる可能な調整にのみ関心があるように見えるのは残念である。」

「著者らは、単語埋め込みが役立つはずの明白な現実世界のタスクが数多くあると書いているが、そのいずれも示したり言及したりしていない。」

「著者は、自分のモデル、データセット、タスク以外のすべてを無視することを好むようです。モデルのどの部分がパフォーマンスの向上をもたらすのか、私にはまだわかりません。トップレベルのタスクなのか、単語埋め込みの平均化なのか?

「著者がウィキペディアで公開した記事へのリンクは、実際の違いを指摘する方程式を示すのと同様に、強力な議論にはなりません。査読者の間で議論した結果、論文の改訂版とそれに付随する反論は、査読者が提起した多くの問題に対処しておらず、査読者の質問の多く（どのモデルに非線形性が含まれているかなど）は未回答のままであるという点で一致しました。」

全体的に見て、このレビューは楽しいものではありませんでした。

その後、当時 Google で働いていた Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean、Ilya Sutskever の 4 人の著者が、Word2vec に関する別の論文「単語と句の分散表現とその構成性」を執筆し、NeurIPS に提出して受理されました。

昨年、この論文は NeurIPS 2023 で Test of Time Award も受賞しました。受賞理由は、「この研究は画期的な単語埋め込み技術 word2vec を導入し、大量の非構造化テキストから学習する能力を実証し、自然言語処理の新時代の到来を促進した」というものでした。

残念ながら、その後の著者間の関係は行き詰まり、トーマス・ミコロフによって明らかにされたバージョンは次のようになりました。

私は Google Brain 内で、主に私が Facebook AI に移った後にプロジェクトを引き継いだ Quoc と Ilya と、このプロジェクトについて何度か話し合いました。最終的に、彼らが私のアイデアを「From Sequence to Sequence」というタイトルで出版し、私を共著者として挙げなかっただけでなく、長い謝辞のセクションで私を除く Google Brain のほぼ全員の名前を挙げたことに、私は非常に驚きました。当時は、人工知能の分野に巨額の資金が投入され、あらゆるアイデアが莫大な価値を持っていた時代でした。ディープラーニングコミュニティがあっという間に「ゲーム・オブ・スローンズ」のような状況になってしまったのは悲しいことです。

この傑作の影響力は時が経てば証明されるだろう。

Mamba の OpenReview ページから判断すると、このレビュープロセス中に「十分に冷静でなかった」メンバーはいなかったようです。

著者チームは、すべての査読者の意見をまとめた後、論文の内容を速やかに修正・改善し、詳細な実験結果と分析を補足しました。しかし、審査員が述べたように、依然として「LRA（ロングレンジアリーナ）の結果が不足している」ため、最終的に却下されました。

同時に、注意深いネットユーザーは、人気のオープンソースのマルチモーダル大規模モデルCogVLMも今回ICLRに拒否されたことを発見した。

Mamba と CogVLM の著者チームにとって、却下は残念な結果ですが、別の観点から見ると、研究の真の価値は単一の学術会議によって定義されるものではなく、またそれによって埋もれるものでもありません。理論研究における継続的な進歩により、Mamba と CogVLM はより有意義な結果を生み出し、新しい時代を切り開く機会を得る可能性があります。

<<: 高性能 LLM 推論フレームワークの設計と実装

>>: AIの最下層に突入！ NUSのYou Yang氏のチームは拡散モデルを使用してニューラルネットワークパラメータを構築したとLeCun氏は称賛した。