Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

昨年 12 月、CMU とプリンストンの 2 人の研究者が Mamba アーキテクチャをリリースし、AI コミュニティで瞬く間にセンセーションを巻き起こしました。

その結果、「Transformer の覇権を覆す」と広く予想されていたこの論文が、トップカンファレンスで拒否されたことが本日明らかになった。 !

今朝、コーネル大学の准教授であるサーシャ・ラッシュ氏は、画期的な研究になると期待されていたこの論文がICLR 2024で拒否されそうだということを最初に発見した。

彼は「正直言って理解できません。もし拒否されたら、私たちにどんなチャンスがあるのでしょうか?」と言いました。

OpenReview では、4 人のレビュー担当者が付けたスコアが 3、6、8、8 であることがわかります。

このスコアが必ずしも論文の却下につながるわけではありませんが、スコアが 3 と低いのはひどいことです。

牛雯が3点獲得、レ・クンが抗議

この論文は、CMU とプリンストン大学の 2 人の研究者によって発表され、新しいアーキテクチャである Mamba を提案しました。

この SSM アーキテクチャは、言語モデリングの Transformer に匹敵しますが、推論スループットが 5 倍になりながら線形に拡張されます。

論文アドレス: https://arxiv.org/pdf/2312.00752.pdf

この論文が発表されると、AIコミュニティはたちまち大きな反響を呼び、「ついにTransformerを覆すアーキテクチャが誕生した」と多くの人が語りました。

現在、マンバの論文が却下される可能性は、多くの人々にとって理解不能なことである。

チューリングの巨匠ルカン氏もこの議論に加わり、同様の「不当な扱い」を受けたことがあると語った。

「当時、私が最も引用した論文は、Arxivに投稿した論文だけで1,880回以上引用されていたが、受け入れられることはなかった。」

LeCun 氏は、畳み込みニューラル ネットワーク (CNN) を使用した光学文字認識とコンピューター ビジョンの分野で知られており、その功績により 2019 年にチューリング賞を受賞しました。

しかし、2015年に発表された彼の論文「グラフ構造データのための深層畳み込みネットワーク」は、トップレベルの会議では一度も受け入れられませんでした。

論文アドレス: https://arxiv.org/pdf/1506.05163.pdf

それにもかかわらず、MambaはAIコミュニティに大きな影響を与えてきたと、ディープラーニングAI研究者のセバスチャン・ラシュカ氏は語った。

最近の多くの研究プロジェクトは、MoE-Mamba や Vision Mamba など、Mamba アーキテクチャから派生しています。

興味深いことに、Mamba が低いスコアを獲得したというニュースを報じた Sasha Rush 氏も、本日、同様の研究に基づいた新しい論文「MambaByte」を発表しました。

実際、マンバ アーキテクチャは「草原の火災を引き起こす火種」となる兆候をすでに示しており、学術界におけるその影響はますます広がっています。

一部のネットユーザーは、Mamba の論文が arXiv を占領し始めるだろうと述べた。

「たとえば、トークンレス選択的状態空間モデルである MambaByte を提案するこの論文を見たばかりです。基本的に、これは Mamba SSM を微調整して、生のトークンから直接学習するものです。」

マンバ紙のトリ・ダオ氏も本日この研究を転送した。

こんなに人気のある論文なのに、低い評価を受けました。査読者はマーケティングの声の大きさをあまり気にしていないようだ、という人もいました。

マンバエッセイが3点を取った理由

マンバの論文に低い点数を付けた理由は正確には何ですか?

スコア 3 を付けたレビュー担当者の信頼度レベルは依然として 5 であり、このスコアに非常に自信があることがわかります。

レビューでは、彼が提起した疑問は 2 つの部分に分かれており、1 つはモデル設計に対する疑問、もう 1 つは実験に対する疑問でした。

モデル設計

- Mamba の設計目的は、Transformer ベースのモデルの効率性を向上させながら、再帰モデルの欠点を解決することです。この方向では多くの研究が行われています:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、そして多くの効率的なTransformerモデル([5]など)です。これらのモデルはすべてほぼ線形の複雑さを実現しており、著者はモデルのパフォーマンスと効率の観点から Mamba とこれらの研究を比較する必要があります。モデルのパフォーマンスに関しては、Wikitext-103 での言語モデリングなどの簡単な実験で十分です。

- 多くの注意ベースの Transformer モデルは、長さに対して一般化する能力を示しています。つまり、モデルは短いシーケンス長でトレーニングしてから、より長いシーケンス長でテストできます。例としては相対位置エンコーディング(T5)やAlibi [6]などがあげられる。 SSM は一般に連続的であるため、Mamba にはこの長さの一般化機能がありますか?

実験

- 著者はより強力なベースラインと比較する必要があります。著者らは、H3 がモデル アーキテクチャの動機として使用されたことを認めています。しかし、彼らは実験で H3 との比較を行っていません。 [7]の表4からわかるように、Pileデータセットでは、H3のpplは8.8(125M)、7.1(355M)、6.0(130億)であり、Mambaよりもはるかに優れています。著者は H3 との比較を示す必要があります。

- 事前トレーニング済みモデルの場合、著者はゼロショット推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を十分に示すものではありません。著者らは、文書要約などの長いシーケンスに関するさらなる実験を行うことをお勧めします。その場合、入力シーケンスは自然に長くなります (たとえば、arXiv データセットの平均シーケンス長は 8k を超えます)。

- 著者らは、主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者は、基本的に長いシーケンスを理解するための標準ベンチマークである LRA (Long Range Arena) のより多くのベースラインと比較する必要があります。

- メモリベンチマークがありません。セクション 4.5 のタイトルは「速度とメモリのベンチマーク」ですが、速度の比較のみが示されています。さらに、著者は、モデルレイヤー、モデルサイズ、畳み込みの詳細など、図 8 の左側に、より詳細な設定を提供する必要があります。シーケンスの長さが非常に長い場合に FlashAttention が最も遅くなる理由について、著者は直感的な説明を提供できますか (図 8 左)。

査読者の質問に答えるために、著者は宿題をやり直し、反論のための実験データをいくつか提出した。

たとえば、モデル設計に関する最初の質問に対する回答で、著者は、チームが小規模なベンチマークではなく、大規模な事前トレーニングの複雑さに意図的に重点を置いたと述べました。

それでも、言語に関する一般的な結果から予想されるように、Mamba は WikiText-103 において、提案されたすべてのモデルを大幅に上回ります。

まず、Hyenaの論文[Poli、表4.3]と全く同じ状況でMambaを比較しました。彼らが報告するデータに加えて、私たち独自の強力な Transformer ベースラインも採用しています。

次に、モデルを Mamba に交換します。これにより、Transformer と比較して 1.7 ppl の改善、元のベースライン Transformer と比較して 2.3 ppl の改善が達成されます。

メモリベンチマークの欠如に関して、著者は次のように述べています。

ほとんどのディープ シーケンス モデル (FlashAttention を含む) と同様に、メモリ使用量はアクティベーション テンソルのサイズと同じです。実際、Mamba は非常にメモリ効率が高く、A100 80GB GPU 上の 125M モデルのトレーニング メモリ要件も測定しました。各バッチは長さ 2048 のシーケンスで構成されます。これを、私たちが知る限り最もメモリ効率の高い Transformer 実装 (torch.compile を使用したカーネル フュージョンと FlashAttention-2) と比較します。

反論の詳細については、https://openreview.net/forum?id=AL1fq05o7H をご覧ください。

一般的に、著者らは査読者のコメントに対処しましたが、これらの反論はすべて査読者によって無視されました。

誰かがレビュー担当者の意見に「ハイライト」を見つけました。おそらく彼は RNN が何であるかをまったく理解していないのでしょうか?

このプロセス全体を見たネットユーザーたちは、プロセス全体を読むのがとても苦痛だったと語った。論文の著者はこのような徹底した回答をしたが、査読者は動揺せず、再評価もしなかった。

5 点満点中 3 点を付けて、著者の論理的な反論を無視するこの種のレビューアは本当に迷惑です。

他の 3 人のレビュー担当者は、6、8、8 という高いスコアを付けました。

スコア 6 を付けたレビュー担当者は、「このモデルは、Transformer のようにトレーニング中に依然として二次メモリを必要とする」という弱点を指摘しました。

8 点を付けた査読者は、この論文の弱点は「いくつかの関連研究への引用が不足している」ことだけだと述べた。

この論文に8点の点数をつけた別の査読者は、「実証的な部分は非常に徹底しており、結果は非常に説得力がある」と述べ、この論文を高く評価した。

弱点すら気づかなかった。

分類におけるこのような大きな違いには説明があるはずです。しかし、メタレビューアのコメントはまだありません。

ネットユーザーからは「学術界も衰退した!」という声が上がった。

コメント欄で、誰かが魂を問うような質問をしました。いったい誰がこんなに低い 3 点を付けたのでしょうか? ?

明らかに、この論文は非常に低いパラメータでより良い結果を達成しており、GitHub コードも明確で誰でもテストできるため、世間から認められた賞賛を獲得しており、誰もがとんでもないことだと思っています。

中には、ただ「何だって?」と叫ぶ人もいました。Mamba アーキテクチャは LLM の状況を変えることはできませんが、長いシーケンスで複数の用途を持つ信頼性の高いモデルです。実際このスコアを取ったということは、現代の学術界が衰退しているということでしょうか?

全員が感謝の意を表し、幸いなことにこれは 4 つのコメントのうちの 1 つに過ぎず、他の査読者も高い評価を与えており、最終決定はまだ下されていないと述べました。

審査員が疲れすぎて判断力を失ってしまったのではないかと推測する人もいました。

もう1つの理由は、状態空間モデルのような新しい研究方向が、Transformer分野で大きな成果を上げてきた一部の査読者や専門家を脅かす可能性があることです。状況は非常に複雑です。

マンバ論文で3ポイントを獲得するのは業界では冗談だと言う人もいます。

彼らは非常に細かいベンチマークを比較することに重点を置いていますが、論文の本当に興味深い部分はエンジニアリングと効率性です。研究は衰退しています。なぜなら、SOTA は分野の極めて狭いサブセットにおける時代遅れのベンチマークであるにもかかわらず、SOTA だけを気にしているからです。

「理論が足りない、エンジニアリングが多すぎる。」

現時点では、この「謎」はまだ解明されておらず、AIコミュニティ全体がその結果を待っています。

<<:  Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

>>:  GPT-4 の「lazy」バグが修正され、価格が 80% 下がりました。 OpenAIは5つの新モデルを連続リリースし、パフォーマンスが急上昇

ブログ    
ブログ    

推薦する

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回...

仕事を完了するにはまだ人間が必要か?ポストパンデミック時代に急成長する自動化の長所と短所

[[422568]]イーストロサンゼルスのアービーズ・ドライブスルーでローストビーフサンドイッチを注...

PyTorch から Mxnet まで、7 つの主要な Python ディープラーニング フレームワークを比較

[[184728]]最近、Data Science Stack Exchange の「ニューラル ネ...

クラウド コンピューティングに必要な 5 つの機械学習スキル

機械学習と人工知能は、IT サービス分野に浸透し続け、ソフトウェア エンジニアが開発したアプリケーシ...

デジタル変革時代の産業用ロボットの5つの大きなトレンド

適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...

ScalableMap: オンラインで長距離ベクトル化された高精度マップ構築のためのスケーラブルなマップ学習

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント

本当の「三人の靴屋は一人の諸葛亮より優れている」 -オープンソースの小規模モデルに基づく 3 つのエ...

[ディープラーニングシリーズ] PaddlePaddle 手書き数字認識

先週、ディープラーニングの分散操作モードに関する情報を検索していたところ、偶然 PaddlePadd...

...

機械学習向けのテキスト注釈ツールとサービスのトップ 10: どれを選びますか?

[[347945]] [51CTO.com クイック翻訳] 現在、検索エンジンや感情分析から仮想ア...

...

人工知能は怖いものではありません。怖いのは、使い方がわからず淘汰されてしまうことです。

王鵬坤:過去半世紀、人類は人間のようにすべての問題を解決できる機械を発明していません。その代わりに、...

量子コンピュータ、数学オリンピックのための AI... これらは 2020 年のコンピュータと数学における大きな進歩です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

誇大広告か、効率か?サイバーセキュリティにおける人工知能の実用的応用

サイバーセキュリティにおける人工知能をめぐる誇大宣伝は、多くの専門家の間で不満を引き起こしています。...