RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ビッグモデルが退化する中、トランスフォーマーの地位も次々と脅かされてきました。

最近、RWKV は最新の RWKV-v5 アーキテクチャに基づく Eagle 7B モデルをリリースしました。

Eagle 7B は、多言語ベンチマークで同等のモデルをすべて上回り、英語テストだけでも最高のパフォーマンスを発揮したモデルとほぼ同等でした。

同時に、Eagle 7BはRNNアーキテクチャを採用しており、同サイズのTransformerモデルと比較して推論コストを10〜100倍以上削減します。世界で最も環境に優しい7Bモデルと言えます。

RWKV-v5 の論文は来月まで公開されない可能性があるため、ここではまず RWKV の論文を紹介します。これは、数百億のパラメータに拡張できる最初の非 Transformer アーキテクチャでもあります。

写真

論文アドレス: https://arxiv.org/pdf/2305.13048.pdf

この研究はEMNLP 2023に採択されました。論文の著者は、さまざまな国のトップ大学、研究機関、テクノロジー企業の出身者であることがわかります。

以下はイーグル7Bの公式写真で、ワシがトランスフォーマーの上を飛んでいる様子が写っています。

写真

イーグル7B

Eagle 7B は、100 を超える言語から 1.1T (兆) トークンのトレーニング データを使用します。下図に示す多言語ベンチマーク テストでは、Eagle 7B が平均スコアで 1 位にランクされています。

ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれ、23 の言語と、それぞれの言語での常識推論をカバーしています。

Eagle 7Bは3つのカテゴリーで1位を獲得しました。1つのカテゴリーでMistral-7Bに敗れ2位となりましたが、対戦相手が使用したトレーニングデータはEagleのものよりはるかに優れていました。

写真

以下の英語テストでは、12 の個別のベンチマーク、常識的な推論、世界知識がカバーされています。

英語のパフォーマンステストでは、Eagle 7B のレベルは Falcon (1.5T)、LLaMA2 (2T)、Mistral (>2T) に近く、同じく約 1T のトレーニングデータを使用する MPT-7B に匹敵します。

写真

そして、両方のテストにおいて、新しい v5 アーキテクチャは、以前の v4 と比較して全体的に大きな進歩を遂げています。

Eagle 7B は現在 Linux Foundation によってホストされており、Apache 2.0 ライセンスに基づいてライセンスされており、個人または商用での無制限の使用が許可されています。

多言語サポート

前述のように、Eagle 7B のトレーニング データは 100 を超える言語から取得されますが、上記で使用した 4 つの多言語ベンチマークには 23 の言語のみが含まれています。

写真

Eagle 7B は 1 位を獲得したものの、全体的には不利でした。結局のところ、このベンチマークでは、70 を超える他の言語でのモデルのパフォーマンスを直接評価することはできません。

追加のトレーニング費用はランキングの向上には役立ちません。英語に重点を置けば、今よりも良い結果が得られるかもしれません。

——それで、RWKVはなぜこれをやったのですか?公式声明:

イギリス人だけでなく、世界中のすべての人のための包括的なAIを構築する

RWKV モデルに対する多くの応答の中で、最も一般的なものは次のとおりです。

多言語アプローチはモデルの英語評価スコアを低下させ、線形トランスフォーマーの進歩を遅らせました。

多言語モデルの多言語パフォーマンスを英語のみのモデルと比較するのは不公平です。

「ほとんどの場合、われわれはこうしたコメントに同意する」と当局者は述べた。

「しかし、私たちは世界のためにAIを構築しているので、それを変える予定はありません。それは英語圏だけのためのものではありません。」

写真

2023年には、世界人口のわずか17%(約13億人)しか英語を話せませんが、世界のトップ25言語をサポートすることで、このモデルは約40億人、つまり世界人口の50%にリーチすることができます。

チームは、モデルをローエンドのハードウェアで安価に実行したり、より多くの言語をサポートしたりできるなど、将来の AI がすべての人に役立つことを期待しています。

その後、チームは多言語データセットを徐々に拡張して、より幅広い言語をサポートし、どの言語も取り残されないように、ゆっくりと世界の 100% をカバーするように拡大していきます。

データセット + スケーラブルなアーキテクチャ

モデルのトレーニング プロセス中に、注目すべき現象が発生します。

トレーニングデータのサイズが大きくなるにつれて、モデルのパフォーマンスは徐々に向上します。トレーニングデータが約 300B に達すると、モデルは 300B のトレーニングデータを持つ pythia-6.9b と同等のパフォーマンスを示します。

写真

この現象は、RWKV-v4 アーキテクチャで行われた以前の実験と一致しています。つまり、同じサイズのトレーニング データが与えられた場合、RWKV のような線形トランスフォーマーはトランスフォーマーと同様に動作します。

したがって、もしこれが真実であるならば、正確なアーキテクチャと比較して、モデルのパフォーマンスを向上させるにはデータの方が重要なのかと疑問に思わざるを得ません。

写真

Transformer モデルの場合、計算コストとストレージ コストは 2 次関数であることがわかっていますが、上の図では、RWKV アーキテクチャの計算コストは​​トークンの数に応じて線形にのみ増加します。

おそらく私たちは、アクセシビリティを高め、すべての人にとって AI のコストを引き下げ、環境への影響を減らすために、より効率的でスケーラブルなアーキテクチャを追求する必要があるでしょう。

R

RWKV アーキテクチャは、GPT レベルの LLM パフォーマンスを備えた RNN ですが、Transformer のように並列でトレーニングできます。

RWKV は、優れたパフォーマンス、高速な推論、高速なトレーニング、VRAM の節約、「無制限」のコンテキスト長、自由な文の埋め込みなど、RNN と Transformer の利点を兼ね備えています。RWKV はアテンション メカニズムを使用しません。

次の図は、RWKV モデルと Transformer モデルの計算コストの比較を示しています。

写真

Transformer の時間と空間の複雑さの問題を解決するために、研究者はさまざまなアーキテクチャを提案してきました。

写真

RWKV アーキテクチャは、一連の積み重ねられた残差ブロックで構成され、各残差ブロックは、時間的混合サブブロックと、再帰構造を持つチャネル混合サブブロックで構成されます。

下の図は、左側に RWKV ブロック要素、右側に RWKV 残差ブロック、言語モデルの最終ヘッドを示しています。

写真

再帰は、現在の入力と前のタイムステップの入力 (下の図の対角線で表示) 間の線形補間として定式化でき、入力埋め込みの各線形投影に対して個別に調整できます。

潜在的な劣化を補うために、現在のトークンを個別に処理するベクトルもここで導入されています。

写真

RWKV は、時間並列モードと呼ばれる方法で効率的に並列化 (行列乗算) できます。

再帰型ネットワークでは、通常、前のタイム ステップの出力が現在のタイム ステップの入力として使用されます。これは、言語モデルの自己回帰デコード推論で特に顕著です。この推論では、次のステップが入力される前に各トークンを計算する必要があり、RWKV は時間順序モードと呼ばれる RNN のような構造を活用できます。

この文脈では、各出力トークンがシーケンスの長さに関係なく一定サイズの最新の状態にのみ依存するという事実を利用して、RWKV は推論中のデコードのために再帰的に便利に定式化できます。

次に、RNN デコーダーとして機能し、シーケンスの長さに応じて一定の速度とメモリ使用量を実現し、より長いシーケンスをより効率的に処理できるようになります。

対照的に、自己注意の KV キャッシュはシーケンスの長さに応じて増加し続けるため、シーケンスが長くなるにつれて効率が低下し、メモリ使用量と時間が増加します。

参考文献:

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

<<:  WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

>>: 

ブログ    
ブログ    

推薦する

...

オープンソースAIとプロプライエタリAIの戦い

IBM と Meta のパートナーおよび協力者には、AMD、Intel、NASA、CERN、Hugg...

Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

クラウド向けに最適化された機械学習および分析のための最新プラットフォームを提供する Cloudera...

tf.keras と Eager Execution を使用して複雑な問題を解決する方法

生成モデルとシーケンス モデルは、常に私を魅了してきました。これらのモデルは、機械学習を初めて学ぶと...

テスラのヒューマノイドロボットが再び進化:視覚のみに基づいて物体を自律的に分類し、ヨガができる

数ヶ月沈黙していたテスラのヒューマノイドロボット、オプティマスプライムがついに新たな展開を見せた。私...

AIがモノのインターネットをどう変えるのか

AI は、ネットワークとデバイスが過去の決定から学習し、将来のアクティビティを予測し、パフォーマン...

中国初!最も人気のあるMoE大型モデルアプリがここにあります。無料でダウンロードでき、誰でもプレイできます。

MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...

量子化学計算と機械学習に基づいて、肉眼で検出可能な蛍光分子をゼロから作成する

蛍光分子を設計するには、分子の光吸収など、分子構造に直接関連するものだけでなく、相互に関連する複数の...

人間の顔の価値はどれくらいでしょうか?顔認識グレー産業チェーン

[[335658]]現在、数十のスタートアップ企業や大手テクノロジー企業が、ホテル、小売店、さらには...

なぜ機械学習は人工知能よりも優れているのでしょうか?

人工知能、データサイエンス、機械学習はすべて同じ分野に属します。問題は、この場合、どちらが正しい目的...

Google Brain の新たな研究: 強化学習はどのようにして音で観察することを学ぶのでしょうか?

人間は、脳内の神経系が外部環境の変化に継続的に適応するためにその構造を変える能力を持っていることを証...

クラウド コンピューティングにおいて人工知能はどのような役割を果たすのでしょうか?

今日のデジタル世界では、人工知能とクラウド コンピューティングが毎日多くの人々の仕事と生活に影響を与...

AI+クラウドランディングBeifei Technology、Amazon Pollyの助けを借りて教育モードの変化を促進

[51CTO.comより引用] 時代のトレンドである最先端技術として、人工知能はニュースという形で人...

...

クラウド コンピューティングにおいて人工知能はどのような役割を果たすことができますか?

人工知能の台頭により、誰もがその将来に大きな期待を抱いています。クラウド コンピューティングに関する...