Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

Transformerの根幹を覆す作品に却下疑惑、ICLR審査に疑問の声も!ネットユーザーはそれを怪しい取引と呼び、ルカンも同様の経験を明かす

昨年 12 月、CMU とプリンストンの 2 人の研究者が Mamba アーキテクチャをリリースし、AI コミュニティで瞬く間にセンセーションを巻き起こしました。

その結果、「Transformer の覇権を覆す」と広く予想されていたこの論文が、トップカンファレンスで拒否されたことが本日明らかになった。 !

今朝、コーネル大学の准教授であるサーシャ・ラッシュ氏は、画期的な研究になると期待されていたこの論文がICLR 2024で拒否されそうだということを最初に発見した。

彼は「正直言って理解できません。もし拒否されたら、私たちにどんなチャンスがあるのでしょうか?」と言いました。

OpenReview では、4 人のレビュー担当者が付けたスコアが 3、6、8、8 であることがわかります。

このスコアが必ずしも論文の却下につながるわけではありませんが、スコアが 3 と低いのはひどいことです。

牛雯が3点獲得、レ・クンが抗議

この論文は、CMU とプリンストン大学の 2 人の研究者によって発表され、新しいアーキテクチャである Mamba を提案しました。

この SSM アーキテクチャは、言語モデリングの Transformer に匹敵しますが、推論スループットが 5 倍になりながら線形に拡張されます。

論文アドレス: https://arxiv.org/pdf/2312.00752.pdf

この論文が発表されると、AIコミュニティはたちまち大きな反響を呼び、「ついにTransformerを覆すアーキテクチャが誕生した」と多くの人が語りました。

現在、マンバの論文が却下される可能性は、多くの人々にとって理解不能なことである。

チューリングの巨匠ルカン氏もこの議論に加わり、同様の「不当な扱い」を受けたことがあると語った。

「当時、私が最も引用した論文は、Arxivに投稿した論文だけで1,880回以上引用されていたが、受け入れられることはなかった。」

LeCun 氏は、畳み込みニューラル ネットワーク (CNN) を使用した光学文字認識とコンピューター ビジョンの分野で知られており、その功績により 2019 年にチューリング賞を受賞しました。

しかし、2015年に発表された彼の論文「グラフ構造データのための深層畳み込みネットワーク」は、トップレベルの会議では一度も受け入れられませんでした。

論文アドレス: https://arxiv.org/pdf/1506.05163.pdf

それにもかかわらず、MambaはAIコミュニティに大きな影響を与えてきたと、ディープラーニングAI研究者のセバスチャン・ラシュカ氏は語った。

最近の多くの研究プロジェクトは、MoE-Mamba や Vision Mamba など、Mamba アーキテクチャから派生しています。

興味深いことに、Mamba が低いスコアを獲得したというニュースを報じた Sasha Rush 氏も、本日、同様の研究に基づいた新しい論文「MambaByte」を発表しました。

実際、マンバ アーキテクチャは「草原の火災を引き起こす火種」となる兆候をすでに示しており、学術界におけるその影響はますます広がっています。

一部のネットユーザーは、Mamba の論文が arXiv を占領し始めるだろうと述べた。

「たとえば、トークンレス選択的状態空間モデルである MambaByte を提案するこの論文を見たばかりです。基本的に、これは Mamba SSM を微調整して、生のトークンから直接学習するものです。」

マンバ紙のトリ・ダオ氏も本日この研究を転送した。

こんなに人気のある論文なのに、低い評価を受けました。査読者はマーケティングの声の大きさをあまり気にしていないようだ、という人もいました。

マンバエッセイが3点を取った理由

マンバの論文に低い点数を付けた理由は正確には何ですか?

スコア 3 を付けたレビュー担当者の信頼度レベルは依然として 5 であり、このスコアに非常に自信があることがわかります。

レビューでは、彼が提起した疑問は 2 つの部分に分かれており、1 つはモデル設計に対する疑問、もう 1 つは実験に対する疑問でした。

モデル設計

- Mamba の設計目的は、Transformer ベースのモデルの効率性を向上させながら、再帰モデルの欠点を解決することです。この方向では多くの研究が行われています:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、そして多くの効率的なTransformerモデル([5]など)です。これらのモデルはすべてほぼ線形の複雑さを実現しており、著者はモデルのパフォーマンスと効率の観点から Mamba とこれらの研究を比較する必要があります。モデルのパフォーマンスに関しては、Wikitext-103 での言語モデリングなどの簡単な実験で十分です。

- 多くの注意ベースの Transformer モデルは、長さに対して一般化する能力を示しています。つまり、モデルは短いシーケンス長でトレーニングしてから、より長いシーケンス長でテストできます。例としては相対位置エンコーディング(T5)やAlibi [6]などがあげられる。 SSM は一般に連続的であるため、Mamba にはこの長さの一般化機能がありますか?

実験

- 著者はより強力なベースラインと比較する必要があります。著者らは、H3 がモデル アーキテクチャの動機として使用されたことを認めています。しかし、彼らは実験で H3 との比較を行っていません。 [7]の表4からわかるように、Pileデータセットでは、H3のpplは8.8(125M)、7.1(355M)、6.0(130億)であり、Mambaよりもはるかに優れています。著者は H3 との比較を示す必要があります。

- 事前トレーニング済みモデルの場合、著者はゼロショット推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を十分に示すものではありません。著者らは、文書要約などの長いシーケンスに関するさらなる実験を行うことをお勧めします。その場合、入力シーケンスは自然に長くなります (たとえば、arXiv データセットの平均シーケンス長は 8k を超えます)。

- 著者らは、主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者は、基本的に長いシーケンスを理解するための標準ベンチマークである LRA (Long Range Arena) のより多くのベースラインと比較する必要があります。

- メモリベンチマークがありません。セクション 4.5 のタイトルは「速度とメモリのベンチマーク」ですが、速度の比較のみが示されています。さらに、著者は、モデルレイヤー、モデルサイズ、畳み込みの詳細など、図 8 の左側に、より詳細な設定を提供する必要があります。シーケンスの長さが非常に長い場合に FlashAttention が最も遅くなる理由について、著者は直感的な説明を提供できますか (図 8 左)。

査読者の質問に答えるために、著者は宿題をやり直し、反論のための実験データをいくつか提出した。

たとえば、モデル設計に関する最初の質問に対する回答で、著者は、チームが小規模なベンチマークではなく、大規模な事前トレーニングの複雑さに意図的に重点を置いたと述べました。

それでも、言語に関する一般的な結果から予想されるように、Mamba は WikiText-103 において、提案されたすべてのモデルを大幅に上回ります。

まず、Hyenaの論文[Poli、表4.3]と全く同じ状況でMambaを比較しました。彼らが報告するデータに加えて、私たち独自の強力な Transformer ベースラインも採用しています。

次に、モデルを Mamba に交換します。これにより、Transformer と比較して 1.7 ppl の改善、元のベースライン Transformer と比較して 2.3 ppl の改善が達成されます。

メモリベンチマークの欠如に関して、著者は次のように述べています。

ほとんどのディープ シーケンス モデル (FlashAttention を含む) と同様に、メモリ使用量はアクティベーション テンソルのサイズと同じです。実際、Mamba は非常にメモリ効率が高く、A100 80GB GPU 上の 125M モデルのトレーニング メモリ要件も測定しました。各バッチは長さ 2048 のシーケンスで構成されます。これを、私たちが知る限り最もメモリ効率の高い Transformer 実装 (torch.compile を使用したカーネル フュージョンと FlashAttention-2) と比較します。

反論の詳細については、https://openreview.net/forum?id=AL1fq05o7H をご覧ください。

一般的に、著者らは査読者のコメントに対処しましたが、これらの反論はすべて査読者によって無視されました。

誰かがレビュー担当者の意見に「ハイライト」を見つけました。おそらく彼は RNN が何であるかをまったく理解していないのでしょうか?

このプロセス全体を見たネットユーザーたちは、プロセス全体を読むのがとても苦痛だったと語った。論文の著者はこのような徹底した回答をしたが、査読者は動揺せず、再評価もしなかった。

5 点満点中 3 点を付けて、著者の論理的な反論を無視するこの種のレビューアは本当に迷惑です。

他の 3 人のレビュー担当者は、6、8、8 という高いスコアを付けました。

スコア 6 を付けたレビュー担当者は、「このモデルは、Transformer のようにトレーニング中に依然として二次メモリを必要とする」という弱点を指摘しました。

8 点を付けた査読者は、この論文の弱点は「いくつかの関連研究への引用が不足している」ことだけだと述べた。

この論文に8点の点数をつけた別の査読者は、「実証的な部分は非常に徹底しており、結果は非常に説得力がある」と述べ、この論文を高く評価した。

弱点すら気づかなかった。

分類におけるこのような大きな違いには説明があるはずです。しかし、メタレビューアのコメントはまだありません。

ネットユーザーからは「学術界も衰退した!」という声が上がった。

コメント欄で、誰かが魂を問うような質問をしました。いったい誰がこんなに低い 3 点を付けたのでしょうか? ?

明らかに、この論文は非常に低いパラメータでより良い結果を達成しており、GitHub コードも明確で誰でもテストできるため、世間から認められた賞賛を獲得しており、誰もがとんでもないことだと思っています。

中には、ただ「何だって?」と叫ぶ人もいました。Mamba アーキテクチャは LLM の状況を変えることはできませんが、長いシーケンスで複数の用途を持つ信頼性の高いモデルです。実際このスコアを取ったということは、現代の学術界が衰退しているということでしょうか?

全員が感謝の意を表し、幸いなことにこれは 4 つのコメントのうちの 1 つに過ぎず、他の査読者も高い評価を与えており、最終決定はまだ下されていないと述べました。

審査員が疲れすぎて判断力を失ってしまったのではないかと推測する人もいました。

もう1つの理由は、状態空間モデルのような新しい研究方向が、Transformer分野で大きな成果を上げてきた一部の査読者や専門家を脅かす可能性があることです。状況は非常に複雑です。

マンバ論文で3ポイントを獲得するのは業界では冗談だと言う人もいます。

彼らは非常に細かいベンチマークを比較することに重点を置いていますが、論文の本当に興味深い部分はエンジニアリングと効率性です。研究は衰退しています。なぜなら、SOTA は分野の極めて狭いサブセットにおける時代遅れのベンチマークであるにもかかわらず、SOTA だけを気にしているからです。

「理論が足りない、エンジニアリングが多すぎる。」

現時点では、この「謎」はまだ解明されておらず、AIコミュニティ全体がその結果を待っています。

<<:  Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

>>:  GPT-4 の「lazy」バグが修正され、価格が 80% 下がりました。 OpenAIは5つの新モデルを連続リリースし、パフォーマンスが急上昇

ブログ    
ブログ    
ブログ    

推薦する

インテリジェントオートメーション: コンピュータビジョン、AI、ARが統合されるとき

インテリジェント オートメーションは、業界がまだビジネスに統合していない、かなり新しい概念です。この...

IEEE: AI の時代において、基本的なサイバー衛生で十分でしょうか?

長年にわたり、強力なパスワード、定期的なデータ バックアップ、多要素認証は、個人情報を安全に保つため...

ジェネレーティブAIは企業にとって新たなリスクとなっているが、重要な問題を放置すべきではない

2023年、生成AI技術が繭から現れ、世界的なデジタル革命を引き起こしました。初期のチャットやチェス...

訓練されたディープラーニングモデルは、もともとこのように展開されていました

データの収集、データのクリーンアップ、環境の構築、モデルのトレーニング、モデルの評価とテストに一生懸...

ポストエピデミック時代の8つの主要な技術開発トレンド

COVID-19パンデミックは、パンデミック中でも企業や人々の生活が通常通り継続できるようにデジタル...

AIGCの投資刺激策のおかげで、マイクロソフトとグーグルのクラウドコンピューティング事業は大幅に成長した

MicrosoftとGoogleはAI市場の支配を競っており、両社ともAIハードウェアに多額の投資を...

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

2017年7月、国務院は「新世代人工知能開発計画」を発表し、人工知能が国家戦略の重要なツールとなって...

...

ディープラーニングの専門家になるにはどうすればいいですか?このアリ天池大会の優勝者はあなたのためにプロとしての成長の道を計画しました

[[209722]]ディープラーニングは本質的には深層人工ニューラルネットワークです。これは孤立した...

Python、Java、C++がすべて含まれています。このGitHubプロジェクトは、複数の言語で古典的なアルゴリズムを実装しています。

古典的なデータ構造とアルゴリズムをいくつ知っていますか?大企業で面接を受けてみませんか?アルゴリズム...

マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。

つい先日、「劇的な対立に耽溺する」マスク氏は新たな行動を起こした。共同設立者の一人であるOpenAI...

「CNNの父」ヤン・ルカン氏:人工知能には脳がなく、そのIQは犬ほど高くない

ビッグデータダイジェスト制作ディープラーニングの三大巨頭の一人として知られるヤン・ルカン氏は、常に楽...

7つの変革的技術トレンド:第4次産業革命をリードする

テクノロジーは常に進化し、私たちの未来を形作っています。第四次産業革命は、さまざまな産業に革命をもた...