Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も！ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

昨年 12 月、CMU とプリンストンの 2 人の研究者が Mamba アーキテクチャをリリースし、AI コミュニティで瞬く間にセンセーションを巻き起こしました。

その結果、「Transformer の覇権を覆す」と広く予想されていたこの論文が、トップカンファレンスで拒否されたことが本日明らかになった。！

今朝、コーネル大学の准教授であるサーシャ・ラッシュ氏は、画期的な研究になると期待されていたこの論文がICLR 2024で拒否されそうだということを最初に発見した。

彼は「正直言って理解できません。もし拒否されたら、私たちにどんなチャンスがあるのでしょうか？」と言いました。

OpenReview では、4 人のレビュー担当者が付けたスコアが 3、6、8、8 であることがわかります。

このスコアが必ずしも論文の却下につながるわけではありませんが、スコアが 3 と低いのはひどいことです。

牛雯が3点獲得、レ・クンが抗議

この論文は、CMU とプリンストン大学の 2 人の研究者によって発表され、新しいアーキテクチャである Mamba を提案しました。

この SSM アーキテクチャは、言語モデリングの Transformer に匹敵しますが、推論スループットが 5 倍になりながら線形に拡張されます。

論文アドレス: https://arxiv.org/pdf/2312.00752.pdf

この論文が発表されると、AIコミュニティはたちまち大きな反響を呼び、「ついにTransformerを覆すアーキテクチャが誕生した」と多くの人が語りました。

現在、マンバの論文が却下される可能性は、多くの人々にとって理解不能なことである。

チューリングの巨匠ルカン氏もこの議論に加わり、同様の「不当な扱い」を受けたことがあると語った。

「当時、私が最も引用した論文は、Arxivに投稿した論文だけで1,880回以上引用されていたが、受け入れられることはなかった。」

LeCun 氏は、畳み込みニューラルネットワーク (CNN) を使用した光学文字認識とコンピュータービジョンの分野で知られており、その功績により 2019 年にチューリング賞を受賞しました。

しかし、2015年に発表された彼の論文「グラフ構造データのための深層畳み込みネットワーク」は、トップレベルの会議では一度も受け入れられませんでした。

論文アドレス: https://arxiv.org/pdf/1506.05163.pdf

それにもかかわらず、MambaはAIコミュニティに大きな影響を与えてきたと、ディープラーニングAI研究者のセバスチャン・ラシュカ氏は語った。

最近の多くの研究プロジェクトは、MoE-Mamba や Vision Mamba など、Mamba アーキテクチャから派生しています。

興味深いことに、Mamba が低いスコアを獲得したというニュースを報じた Sasha Rush 氏も、本日、同様の研究に基づいた新しい論文「MambaByte」を発表しました。

実際、マンバアーキテクチャは「草原の火災を引き起こす火種」となる兆候をすでに示しており、学術界におけるその影響はますます広がっています。

一部のネットユーザーは、Mamba の論文が arXiv を占領し始めるだろうと述べた。

「たとえば、トークンレス選択的状態空間モデルである MambaByte を提案するこの論文を見たばかりです。基本的に、これは Mamba SSM を微調整して、生のトークンから直接学習するものです。」

マンバ紙のトリ・ダオ氏も本日この研究を転送した。

こんなに人気のある論文なのに、低い評価を受けました。査読者はマーケティングの声の大きさをあまり気にしていないようだ、という人もいました。

マンバエッセイが3点を取った理由

マンバの論文に低い点数を付けた理由は正確には何ですか?

スコア 3 を付けたレビュー担当者の信頼度レベルは依然として 5 であり、このスコアに非常に自信があることがわかります。

レビューでは、彼が提起した疑問は 2 つの部分に分かれており、1 つはモデル設計に対する疑問、もう 1 つは実験に対する疑問でした。

モデル設計

- Mamba の設計目的は、Transformer ベースのモデルの効率性を向上させながら、再帰モデルの欠点を解決することです。この方向では多くの研究が行われています：S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、そして多くの効率的なTransformerモデル（[5]など）です。これらのモデルはすべてほぼ線形の複雑さを実現しており、著者はモデルのパフォーマンスと効率の観点から Mamba とこれらの研究を比較する必要があります。モデルのパフォーマンスに関しては、Wikitext-103 での言語モデリングなどの簡単な実験で十分です。

- 多くの注意ベースの Transformer モデルは、長さに対して一般化する能力を示しています。つまり、モデルは短いシーケンス長でトレーニングしてから、より長いシーケンス長でテストできます。例としては相対位置エンコーディング（T5）やAlibi [6]などがあげられる。 SSM は一般に連続的であるため、Mamba にはこの長さの一般化機能がありますか?

実験

- 著者はより強力なベースラインと比較する必要があります。著者らは、H3 がモデルアーキテクチャの動機として使用されたことを認めています。しかし、彼らは実験で H3 との比較を行っていません。 [7]の表4からわかるように、Pileデータセットでは、H3のpplは8.8（125M）、7.1（355M）、6.0（130億）であり、Mambaよりもはるかに優れています。著者は H3 との比較を示す必要があります。

- 事前トレーニング済みモデルの場合、著者はゼロショット推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を十分に示すものではありません。著者らは、文書要約などの長いシーケンスに関するさらなる実験を行うことをお勧めします。その場合、入力シーケンスは自然に長くなります (たとえば、arXiv データセットの平均シーケンス長は 8k を超えます)。

- 著者らは、主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者は、基本的に長いシーケンスを理解するための標準ベンチマークである LRA (Long Range Arena) のより多くのベースラインと比較する必要があります。

- メモリベンチマークがありません。セクション 4.5 のタイトルは「速度とメモリのベンチマーク」ですが、速度の比較のみが示されています。さらに、著者は、モデルレイヤー、モデルサイズ、畳み込みの詳細など、図 8 の左側に、より詳細な設定を提供する必要があります。シーケンスの長さが非常に長い場合に FlashAttention が最も遅くなる理由について、著者は直感的な説明を提供できますか (図 8 左)。

査読者の質問に答えるために、著者は宿題をやり直し、反論のための実験データをいくつか提出した。

たとえば、モデル設計に関する最初の質問に対する回答で、著者は、チームが小規模なベンチマークではなく、大規模な事前トレーニングの複雑さに意図的に重点を置いたと述べました。

それでも、言語に関する一般的な結果から予想されるように、Mamba は WikiText-103 において、提案されたすべてのモデルを大幅に上回ります。

まず、Hyenaの論文[Poli、表4.3]と全く同じ状況でMambaを比較しました。彼らが報告するデータに加えて、私たち独自の強力な Transformer ベースラインも採用しています。

次に、モデルを Mamba に交換します。これにより、Transformer と比較して 1.7 ppl の改善、元のベースライン Transformer と比較して 2.3 ppl の改善が達成されます。

メモリベンチマークの欠如に関して、著者は次のように述べています。

ほとんどのディープシーケンスモデル (FlashAttention を含む) と同様に、メモリ使用量はアクティベーションテンソルのサイズと同じです。実際、Mamba は非常にメモリ効率が高く、A100 80GB GPU 上の 125M モデルのトレーニングメモリ要件も測定しました。各バッチは長さ 2048 のシーケンスで構成されます。これを、私たちが知る限り最もメモリ効率の高い Transformer 実装 (torch.compile を使用したカーネルフュージョンと FlashAttention-2) と比較します。

反論の詳細については、https://openreview.net/forum?id=AL1fq05o7H をご覧ください。

一般的に、著者らは査読者のコメントに対処しましたが、これらの反論はすべて査読者によって無視されました。

誰かがレビュー担当者の意見に「ハイライト」を見つけました。おそらく彼は RNN が何であるかをまったく理解していないのでしょうか?

このプロセス全体を見たネットユーザーたちは、プロセス全体を読むのがとても苦痛だったと語った。論文の著者はこのような徹底した回答をしたが、査読者は動揺せず、再評価もしなかった。

5 点満点中 3 点を付けて、著者の論理的な反論を無視するこの種のレビューアは本当に迷惑です。

他の 3 人のレビュー担当者は、6、8、8 という高いスコアを付けました。

スコア 6 を付けたレビュー担当者は、「このモデルは、Transformer のようにトレーニング中に依然として二次メモリを必要とする」という弱点を指摘しました。

8 点を付けた査読者は、この論文の弱点は「いくつかの関連研究への引用が不足している」ことだけだと述べた。

この論文に8点の点数をつけた別の査読者は、「実証的な部分は非常に徹底しており、結果は非常に説得力がある」と述べ、この論文を高く評価した。

弱点すら気づかなかった。

分類におけるこのような大きな違いには説明があるはずです。しかし、メタレビューアのコメントはまだありません。

ネットユーザーからは「学術界も衰退した！」という声が上がった。

コメント欄で、誰かが魂を問うような質問をしました。いったい誰がこんなに低い 3 点を付けたのでしょうか? ?

明らかに、この論文は非常に低いパラメータでより良い結果を達成しており、GitHub コードも明確で誰でもテストできるため、世間から認められた賞賛を獲得しており、誰もがとんでもないことだと思っています。

中には、ただ「何だって？」と叫ぶ人もいました。Mamba アーキテクチャは LLM の状況を変えることはできませんが、長いシーケンスで複数の用途を持つ信頼性の高いモデルです。実際このスコアを取ったということは、現代の学術界が衰退しているということでしょうか？

全員が感謝の意を表し、幸いなことにこれは 4 つのコメントのうちの 1 つに過ぎず、他の査読者も高い評価を与えており、最終決定はまだ下されていないと述べました。

審査員が疲れすぎて判断力を失ってしまったのではないかと推測する人もいました。

もう1つの理由は、状態空間モデルのような新しい研究方向が、Transformer分野で大きな成果を上げてきた一部の査読者や専門家を脅かす可能性があることです。状況は非常に複雑です。

マンバ論文で3ポイントを獲得するのは業界では冗談だと言う人もいます。

彼らは非常に細かいベンチマークを比較することに重点を置いていますが、論文の本当に興味深い部分はエンジニアリングと効率性です。研究は衰退しています。なぜなら、SOTA は分野の極めて狭いサブセットにおける時代遅れのベンチマークであるにもかかわらず、SOTA だけを気にしているからです。

「理論が足りない、エンジニアリングが多すぎる。」

現時点では、この「謎」はまだ解明されておらず、AIコミュニティ全体がその結果を待っています。

<<: Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

>>: GPT-4 の「lazy」バグが修正され、価格が 80% 下がりました。 OpenAIは5つの新モデルを連続リリースし、パフォーマンスが急上昇

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も！ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

牛雯が3点獲得、レ・クンが抗議

マンバエッセイが3点を取った理由

ネットユーザーからは「学術界も衰退した！」という声が上がった。

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

AI ビデオカットアウトの威力: 映画レベルの効果を実現するのに「グリーンスクリーン」は不要

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

北京が初の政策実験区を設置：自動運転は今年中に試験運用へ

トヨタが GenAI を活用して IT サービスを変革する方法

2020年世界人工知能会議が開催されます! AI が人間の言語の高度な能力をいかにして習得するかをご覧ください。

待ちに待った！ ByteDance初の大規模モデル製品「Doubao」が公開テスト可能、招待コードは不要！

ラマ2 ビッグバン！バークレーは実機テストで8位、iPhoneでローカル実行可能、多数のアプリが無料でプレイ可能、ルカンも夢中

推薦する

Google AIが既知のタンパク質配列の10%を一度に注釈付け、10年で人間の研究成果を上回る

AIツールClaude 2が世界中で利用可能に：ファイルのアップロードとより長い応答テキストをサポート

自動運転タクシーの分野では競争が激しく、中国では百度がリードしています。

脅威検出システムにAIを統合するメリット

GPT-4 に追いつく!李開復のYi-34Bの新しい結果が発表されました：勝率94.08％はLLaMA2などの主流の大型モデルを超えています

Transformer の再考: 反転がより効果的になり、現実世界の予測のための新しい SOTA が出現

自動運転はAIの今後の発展の鍵となるのか？

Go 言語 - データ構造とアルゴリズムプロジェクト

インテリジェントプロセスオートメーションについて知っておくべきこと

一般的な MapReduce データマイニングアルゴリズム: 平均と分散

認知システムが機械学習とセマンティック技術を組み合わせるべき理由

人工知能と機械学習は、組織がデジタルシステムを運用する上でますます重要になる