8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー:吊り下げられた心臓はついに死んだ

8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー:吊り下げられた心臓はついに死んだ

数日前、ICLR 2024 の最終合格結果が発表されました。

ICLR 2024 カンファレンスで Mamba が決定保留中であるというニュースが、1 月にコミュニティ内で白熱した議論を引き起こしたことを誰もが覚えているはずです。

当時、多くの研究者は、Decision Pending は決定が遅れていることを意味すると分析しました。却下される可能性はありますが、この論文は 8/8/6/3 というスコアを獲得したので、却下されるべきではありません。

論文レビューページ: https://openreview.net/forum?id=AL1fq05o7H

『Decision』がリリースされ、『Mamba』が完全に拒否された今、私の心はようやく平穏になりました。

「Mamba」は、リリース当初は「Transformerの強力なライバル」とみなされていました。言語モデリングにおいてTransformerに匹敵、あるいは凌駕する選択的状態空間モデルです。さらに、コンテキストの長さが増加するにつれて線形スケーラビリティを実現でき、実際のデータでは 100 万トークンのシーケンスまでパフォーマンスが向上し、推論スループットが 5 倍に増加します。

しかし、ICLR の査読者にとっては、この論文には依然として大きな欠陥がある (少なくとも現在のバージョンでは)。

スコアが 8/8/6/3 なのに、なぜ拒否されたのですか?

OpenReview ページを再確認したところ、新しいレビューコメントが見つかりました。

ICLR エリア チェアによる最終声明は、論文で使用された評価方法が議論の余地があるというものだった。

レビューコメントは次のように要約されます。

この論文では、長距離言語モデリング用に設計された新しい状態空間モデルの変種を紹介します。実験では、このモデルは言語モデリングタスクの困惑度指標に関して既存のモデルよりも大幅に改善されていることが示されています。 2 人の査読者が非常に肯定的なコメントをしたことは注目に値します (ただし、査読者の 1 人は言語モデルの経験が限られていました)。しかし、言語モデルに関してより経験豊富な専門家である 3 人目の査読者は、ベンチマークと評価指標に関連する 2 つの重大な懸念を提起しました。

1. LRA (Long Range Arena) の結果の欠如: 査読者は、長いシーケンス モデリングのベンチマークとして認められている LRA の結果が不足していることを強調しました。これまでの状態空間モデルの研究では、LRA は日常的なものとなっているため、徹底的に評価する必要があります。

2. 評価に困惑度を使用する: レビュー担当者は、困惑度を主要な評価基準として使用することに疑問を呈しました。この論文は、Sun ら (2021) (「長距離言語モデルは実際に長距離コンテキストを使用しているか?」) の見解を引用しており、彼らは、難解度が低いことが必ずしも最終的な NLP アプリケーションにおけるモデリング機能の向上を意味するわけではないと考えています。彼らの主張は、低い困惑度を達成するものの、要約や質問応答などの生成タスクに苦労するいくつかのトランスフォーマーモデルの限界を強調したZhangら(2023)によってさらに強化されています。

さらに、長いシーケンス言語モデルが短いテキストシーケンスに対してパフォーマンスのギャップを生じる可能性についても懸念が表明されています。この点に対処するために、補足的な実験結果を追加することを提案します。

これらの異なる見解を調整するために、私たちは査読者の du8a と話し合い、その後、シニアエリア委員長と話し合いました。論文を慎重に検討し、提起された正当な懸念を考慮した後、最終決定では論文の却下を推奨します。これらの問題、特に実験方法論と選択された評価基準に関連する問題は重大であると考えられ、提示された反論では十分に対処されていませんでした。これらの問題に対処するために追加の実験を加えることで、この論文は大きな恩恵を受けるだろうと私たちは考えています。

ICLRでも拒否された傑作「Word2vec」

マンバさんの経験は、10年前に発表された論文を思い出させる。

言及されている写真は、Tomas Mikolov を含む 4 人の Google 研究者が共同で完成させた Word2vec に関する最初の論文「ベクトル空間での単語表現の効率的な推定」です。

論文リンク: https://arxiv.org/pdf/1301.3781.pdf

この論文は、2013 年の第 1 回 ICLR 会議では、その年の採択率が比較的高かったにもかかわらず、却下されました。昨年、Tomas Mikolov 氏は Word2vec の開発をレビューした際に次のように後悔していました。「これは、査読者が論文の将来的な影響を予測することがいかに難しいかを思い出させます。」

しかし、よく調べてみると、Word2vec が拒否された理由は一般的な論文とは異なります。

OpenReview ページでは、モデルを定義するための方程式を追加するなど、提出されたバージョンに対して複数の査読者が次々とコメントを寄せているのがわかりました。

レビューページ: https://openreview.net/forum?id=idpCdOWtqXd60

トマス・ミコロフ氏の返答はかなり厳しく、各レビューコメントに返答するのに十分な資料を提供しなかったことは明らかで、その反論を読んだ数人のレビュー担当者はさらに怒りを覚えた。

ある査読者は最終的に「強く拒否」しました。

別の査読者は「ほぼ明確で良好」というコメントをしましたが、後に「弱い拒否」に変更しました。

写真

別の評論家は率直にこう指摘した。

「著者が、合理的な科学的比較を強く無視し、自身のモデルとモデルの組み合わせのあらゆる可能な調整にのみ関心があるように見えるのは残念である。」

「著者らは、単語埋め込みが役立つはずの明白な現実世界のタスクが数多くあると書いているが、そのいずれも示したり言及したりしていない。」

「著者は、自分のモデル、データセット、タスク以外のすべてを無視することを好むようです。モデルのどの部分がパフォーマンスの向上をもたらすのか、私にはまだわかりません。トップレベルのタスクなのか、単語埋め込みの平均化なのか?

「著者がウィキペディアで公開した記事へのリンクは、実際の違いを指摘する方程式を示すのと同様に、強力な議論にはなりません。査読者の間で議論した結果、論文の改訂版とそれに付随する反論は、査読者が提起した多くの問題に対処しておらず、査読者の質問の多く(どのモデルに非線形性が含まれているかなど)は未回答のままであるという点で一致しました。」

全体的に見て、このレビューは楽しいものではありませんでした。

その後、当時 Google で働いていた Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean、Ilya Sutskever の 4 人の著者が、Word2vec に関する別の論文「単語と句の分散表現とその構成性」を執筆し、NeurIPS に提出して受理されました。

昨年、この論文は NeurIPS 2023 で Test of Time Award も受賞しました。受賞理由は、「この研究は画期的な単語埋め込み技術 word2vec を導入し、大量の非構造化テキストから学習する能力を実証し、自然言語処理の新時代の到来を促進した」というものでした。

残念ながら、その後の著者間の関係は行き詰まり、トーマス・ミコロフによって明らかにされたバージョンは次のようになりました。

私は Google Brain 内で、主に私が Facebook AI に移った後にプロジェクトを引き継いだ Quoc と Ilya と、このプロジェクトについて何度か話し合いました。最終的に、彼らが私のアイデアを「From Sequence to Sequence」というタイトルで出版し、私を共著者として挙げなかっただけでなく、長い謝辞のセクションで私を除く Google Brain のほぼ全員の名前を挙げたことに、私は非常に驚きました。当時は、人工知能の分野に巨額の資金が投入され、あらゆるアイデアが莫大な価値を持っていた時代でした。ディープラーニング コミュニティがあっという間に「ゲーム・オブ・スローンズ」のような状況になってしまったのは悲しいことです。

この傑作の影響力は時が経てば証明されるだろう。

Mamba の OpenReview ページから判断すると、このレビュー プロセス中に「十分に冷静でなかった」メンバーはいなかったようです。

著者チームは、すべての査読者の意見をまとめた後、論文の内容を速やかに修正・改善し、詳細な実験結果と分析を補足しました。しかし、審査員が述べたように、依然として「LRA(ロングレンジアリーナ)の結果が不足している」ため、最終的に却下されました。

同時に、注意深いネットユーザーは、人気のオープンソースのマルチモーダル大規模モデルCogVLMも今回ICLRに拒否されたことを発見した。

Mamba と CogVLM の著者チームにとって、却下は残念な結果ですが、別の観点から見ると、研究の真の価値は単一の学術会議によって定義されるものではなく、またそれによって埋もれるものでもありません。理論研究における継続的な進歩により、Mamba と CogVLM はより有意義な結果を生み出し、新しい時代を切り開く機会を得る可能性があります。

<<:  高性能 LLM 推論フレームワークの設計と実装

>>:  AIの最下層に突入! NUSのYou Yang氏のチームは拡散モデルを使用してニューラルネットワークパラメータを構築したとLeCun氏は称賛した。

ブログ    

推薦する

...

中国の大学の人工知能専攻ランキング:清華大学、浙江大学、上海交通大学がトップ3にランクイン

AIの開発が国家戦略にまで上り詰めるにつれ、人工知能は大学入試の選択肢の中でも最も注目され、最も人気...

AI予算は増加しているが、導入の課題は残る

企業の人工知能予算は急速に増加しているが、導入には依然として大きな課題が残っていることが、Algor...

レノボ、HPC+AI によるアルゴリズムの世界を構築する初のハイブリッド インテリジェンス アカデミック カンファレンスに初参加

8月25日〜26日、第1回中国認知コンピューティングおよびハイブリッドインテリジェンス学術会議が西安...

AI 導入の謎を解明: クラウドとエッジ

現在、ディープラーニング テクノロジーを展開できる方法としては、デバイス上への直接展開、クラウド内へ...

...

無料の Python 機械学習コース 5: 多クラス分類ロジスティック回帰

ロジスティック回帰の2つの方法:勾配降下法と最適化関数ロジスティック回帰は非常に人気のある機械学習手...

5GとAI: 現在と未来の補完的なテクノロジー

人工知能と5G、そしてそれらがもたらす変革の可能性は、テクノロジーの世界で大きな注目を集めています。...

私たちが作ったAIは私たちを裏切るでしょうか?

数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...

畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

この記事では、畳み込みニューラル ネットワーク (CNN) の基本原理を、関連する数学理論を省き、最...

AIに関する誤解

企業は意思決定を強化し、消費者体験を向上させるために、幅広いアプリケーションで人工知能を活用すること...

イノベーションを統合し、障壁を下げ、PaddlePaddleは人工知能を推進して大規模な工業生産を実現します。

5月20日、中国国家深層学習技術応用工程研究室と百度が共催する「WAVE SUMMIT 2021 ...

大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか?このレビューでは明らかに

大規模言語モデル (LLM) は私たちの生活や仕事の一部となり、その驚くべき汎用性とインテリジェンス...

...