RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1％のコストパフォーマンス、世界最多の100以上の言語をサポート

ビッグモデルが退化する中、トランスフォーマーの地位も次々と脅かされてきました。

最近、RWKV は最新の RWKV-v5 アーキテクチャに基づく Eagle 7B モデルをリリースしました。

Eagle 7B は、多言語ベンチマークで同等のモデルをすべて上回り、英語テストだけでも最高のパフォーマンスを発揮したモデルとほぼ同等でした。

同時に、Eagle 7BはRNNアーキテクチャを採用しており、同サイズのTransformerモデルと比較して推論コストを10〜100倍以上削減します。世界で最も環境に優しい7Bモデルと言えます。

RWKV-v5 の論文は来月まで公開されない可能性があるため、ここではまず RWKV の論文を紹介します。これは、数百億のパラメータに拡張できる最初の非 Transformer アーキテクチャでもあります。

写真

論文アドレス: https://arxiv.org/pdf/2305.13048.pdf

この研究はEMNLP 2023に採択されました。論文の著者は、さまざまな国のトップ大学、研究機関、テクノロジー企業の出身者であることがわかります。

以下はイーグル7Bの公式写真で、ワシがトランスフォーマーの上を飛んでいる様子が写っています。

写真

イーグル7B

Eagle 7B は、100 を超える言語から 1.1T (兆) トークンのトレーニングデータを使用します。下図に示す多言語ベンチマークテストでは、Eagle 7B が平均スコアで 1 位にランクされています。

ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれ、23 の言語と、それぞれの言語での常識推論をカバーしています。

Eagle 7Bは3つのカテゴリーで1位を獲得しました。1つのカテゴリーでMistral-7Bに敗れ2位となりましたが、対戦相手が使用したトレーニングデータはEagleのものよりはるかに優れていました。

写真

以下の英語テストでは、12 の個別のベンチマーク、常識的な推論、世界知識がカバーされています。

英語のパフォーマンステストでは、Eagle 7B のレベルは Falcon (1.5T)、LLaMA2 (2T)、Mistral (>2T) に近く、同じく約 1T のトレーニングデータを使用する MPT-7B に匹敵します。

写真

そして、両方のテストにおいて、新しい v5 アーキテクチャは、以前の v4 と比較して全体的に大きな進歩を遂げています。

Eagle 7B は現在 Linux Foundation によってホストされており、Apache 2.0 ライセンスに基づいてライセンスされており、個人または商用での無制限の使用が許可されています。

多言語サポート

前述のように、Eagle 7B のトレーニングデータは 100 を超える言語から取得されますが、上記で使用した 4 つの多言語ベンチマークには 23 の言語のみが含まれています。

写真

Eagle 7B は 1 位を獲得したものの、全体的には不利でした。結局のところ、このベンチマークでは、70 を超える他の言語でのモデルのパフォーマンスを直接評価することはできません。

追加のトレーニング費用はランキングの向上には役立ちません。英語に重点を置けば、今よりも良い結果が得られるかもしれません。

——それで、RWKVはなぜこれをやったのですか？公式声明:

イギリス人だけでなく、世界中のすべての人のための包括的なAIを構築する

RWKV モデルに対する多くの応答の中で、最も一般的なものは次のとおりです。

多言語アプローチはモデルの英語評価スコアを低下させ、線形トランスフォーマーの進歩を遅らせました。

多言語モデルの多言語パフォーマンスを英語のみのモデルと比較するのは不公平です。

「ほとんどの場合、われわれはこうしたコメントに同意する」と当局者は述べた。

「しかし、私たちは世界のためにAIを構築しているので、それを変える予定はありません。それは英語圏だけのためのものではありません。」

写真

2023年には、世界人口のわずか17%（約13億人）しか英語を話せませんが、世界のトップ25言語をサポートすることで、このモデルは約40億人、つまり世界人口の50%にリーチすることができます。

チームは、モデルをローエンドのハードウェアで安価に実行したり、より多くの言語をサポートしたりできるなど、将来の AI がすべての人に役立つことを期待しています。

その後、チームは多言語データセットを徐々に拡張して、より幅広い言語をサポートし、どの言語も取り残されないように、ゆっくりと世界の 100% をカバーするように拡大していきます。

データセット + スケーラブルなアーキテクチャ

モデルのトレーニングプロセス中に、注目すべき現象が発生します。

トレーニングデータのサイズが大きくなるにつれて、モデルのパフォーマンスは徐々に向上します。トレーニングデータが約 300B に達すると、モデルは 300B のトレーニングデータを持つ pythia-6.9b と同等のパフォーマンスを示します。

写真

この現象は、RWKV-v4 アーキテクチャで行われた以前の実験と一致しています。つまり、同じサイズのトレーニングデータが与えられた場合、RWKV のような線形トランスフォーマーはトランスフォーマーと同様に動作します。

したがって、もしこれが真実であるならば、正確なアーキテクチャと比較して、モデルのパフォーマンスを向上させるにはデータの方が重要なのかと疑問に思わざるを得ません。

写真

Transformer モデルの場合、計算コストとストレージコストは 2 次関数であることがわかっていますが、上の図では、RWKV アーキテクチャの計算コストはトークンの数に応じて線形にのみ増加します。

おそらく私たちは、アクセシビリティを高め、すべての人にとって AI のコストを引き下げ、環境への影響を減らすために、より効率的でスケーラブルなアーキテクチャを追求する必要があるでしょう。

R

RWKV アーキテクチャは、GPT レベルの LLM パフォーマンスを備えた RNN ですが、Transformer のように並列でトレーニングできます。

RWKV は、優れたパフォーマンス、高速な推論、高速なトレーニング、VRAM の節約、「無制限」のコンテキスト長、自由な文の埋め込みなど、RNN と Transformer の利点を兼ね備えています。RWKV はアテンションメカニズムを使用しません。

次の図は、RWKV モデルと Transformer モデルの計算コストの比較を示しています。

写真

Transformer の時間と空間の複雑さの問題を解決するために、研究者はさまざまなアーキテクチャを提案してきました。

写真

RWKV アーキテクチャは、一連の積み重ねられた残差ブロックで構成され、各残差ブロックは、時間的混合サブブロックと、再帰構造を持つチャネル混合サブブロックで構成されます。

下の図は、左側に RWKV ブロック要素、右側に RWKV 残差ブロック、言語モデルの最終ヘッドを示しています。

写真

再帰は、現在の入力と前のタイムステップの入力 (下の図の対角線で表示) 間の線形補間として定式化でき、入力埋め込みの各線形投影に対して個別に調整できます。

潜在的な劣化を補うために、現在のトークンを個別に処理するベクトルもここで導入されています。

写真

RWKV は、時間並列モードと呼ばれる方法で効率的に並列化 (行列乗算) できます。

再帰型ネットワークでは、通常、前のタイムステップの出力が現在のタイムステップの入力として使用されます。これは、言語モデルの自己回帰デコード推論で特に顕著です。この推論では、次のステップが入力される前に各トークンを計算する必要があり、RWKV は時間順序モードと呼ばれる RNN のような構造を活用できます。

この文脈では、各出力トークンがシーケンスの長さに関係なく一定サイズの最新の状態にのみ依存するという事実を利用して、RWKV は推論中のデコードのために再帰的に便利に定式化できます。

次に、RNN デコーダーとして機能し、シーケンスの長さに応じて一定の速度とメモリ使用量を実現し、より長いシーケンスをより効率的に処理できるようになります。

対照的に、自己注意の KV キャッシュはシーケンスの長さに応じて増加し続けるため、シーケンスが長くなるにつれて効率が低下し、メモリ使用量と時間が増加します。

参考文献:

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

<<: WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

>>: