RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ビッグモデルが退化する中、トランスフォーマーの地位も次々と脅かされてきました。

最近、RWKV は最新の RWKV-v5 アーキテクチャに基づく Eagle 7B モデルをリリースしました。

Eagle 7B は、多言語ベンチマークで同等のモデルをすべて上回り、英語テストだけでも最高のパフォーマンスを発揮したモデルとほぼ同等でした。

同時に、Eagle 7BはRNNアーキテクチャを採用しており、同サイズのTransformerモデルと比較して推論コストを10〜100倍以上削減します。世界で最も環境に優しい7Bモデルと言えます。

RWKV-v5 の論文は来月まで公開されない可能性があるため、ここではまず RWKV の論文を紹介します。これは、数百億のパラメータに拡張できる最初の非 Transformer アーキテクチャでもあります。

写真

論文アドレス: https://arxiv.org/pdf/2305.13048.pdf

この研究はEMNLP 2023に採択されました。論文の著者は、さまざまな国のトップ大学、研究機関、テクノロジー企業の出身者であることがわかります。

以下はイーグル7Bの公式写真で、ワシがトランスフォーマーの上を飛んでいる様子が写っています。

写真

イーグル7B

Eagle 7B は、100 を超える言語から 1.1T (兆) トークンのトレーニング データを使用します。下図に示す多言語ベンチマーク テストでは、Eagle 7B が平均スコアで 1 位にランクされています。

ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれ、23 の言語と、それぞれの言語での常識推論をカバーしています。

Eagle 7Bは3つのカテゴリーで1位を獲得しました。1つのカテゴリーでMistral-7Bに敗れ2位となりましたが、対戦相手が使用したトレーニングデータはEagleのものよりはるかに優れていました。

写真

以下の英語テストでは、12 の個別のベンチマーク、常識的な推論、世界知識がカバーされています。

英語のパフォーマンステストでは、Eagle 7B のレベルは Falcon (1.5T)、LLaMA2 (2T)、Mistral (>2T) に近く、同じく約 1T のトレーニングデータを使用する MPT-7B に匹敵します。

写真

そして、両方のテストにおいて、新しい v5 アーキテクチャは、以前の v4 と比較して全体的に大きな進歩を遂げています。

Eagle 7B は現在 Linux Foundation によってホストされており、Apache 2.0 ライセンスに基づいてライセンスされており、個人または商用での無制限の使用が許可されています。

多言語サポート

前述のように、Eagle 7B のトレーニング データは 100 を超える言語から取得されますが、上記で使用した 4 つの多言語ベンチマークには 23 の言語のみが含まれています。

写真

Eagle 7B は 1 位を獲得したものの、全体的には不利でした。結局のところ、このベンチマークでは、70 を超える他の言語でのモデルのパフォーマンスを直接評価することはできません。

追加のトレーニング費用はランキングの向上には役立ちません。英語に重点を置けば、今よりも良い結果が得られるかもしれません。

——それで、RWKVはなぜこれをやったのですか?公式声明:

イギリス人だけでなく、世界中のすべての人のための包括的なAIを構築する

RWKV モデルに対する多くの応答の中で、最も一般的なものは次のとおりです。

多言語アプローチはモデルの英語評価スコアを低下させ、線形トランスフォーマーの進歩を遅らせました。

多言語モデルの多言語パフォーマンスを英語のみのモデルと比較するのは不公平です。

「ほとんどの場合、われわれはこうしたコメントに同意する」と当局者は述べた。

「しかし、私たちは世界のためにAIを構築しているので、それを変える予定はありません。それは英語圏だけのためのものではありません。」

写真

2023年には、世界人口のわずか17%(約13億人)しか英語を話せませんが、世界のトップ25言語をサポートすることで、このモデルは約40億人、つまり世界人口の50%にリーチすることができます。

チームは、モデルをローエンドのハードウェアで安価に実行したり、より多くの言語をサポートしたりできるなど、将来の AI がすべての人に役立つことを期待しています。

その後、チームは多言語データセットを徐々に拡張して、より幅広い言語をサポートし、どの言語も取り残されないように、ゆっくりと世界の 100% をカバーするように拡大していきます。

データセット + スケーラブルなアーキテクチャ

モデルのトレーニング プロセス中に、注目すべき現象が発生します。

トレーニングデータのサイズが大きくなるにつれて、モデルのパフォーマンスは徐々に向上します。トレーニングデータが約 300B に達すると、モデルは 300B のトレーニングデータを持つ pythia-6.9b と同等のパフォーマンスを示します。

写真

この現象は、RWKV-v4 アーキテクチャで行われた以前の実験と一致しています。つまり、同じサイズのトレーニング データが与えられた場合、RWKV のような線形トランスフォーマーはトランスフォーマーと同様に動作します。

したがって、もしこれが真実であるならば、正確なアーキテクチャと比較して、モデルのパフォーマンスを向上させるにはデータの方が重要なのかと疑問に思わざるを得ません。

写真

Transformer モデルの場合、計算コストとストレージ コストは 2 次関数であることがわかっていますが、上の図では、RWKV アーキテクチャの計算コストは​​トークンの数に応じて線形にのみ増加します。

おそらく私たちは、アクセシビリティを高め、すべての人にとって AI のコストを引き下げ、環境への影響を減らすために、より効率的でスケーラブルなアーキテクチャを追求する必要があるでしょう。

R

RWKV アーキテクチャは、GPT レベルの LLM パフォーマンスを備えた RNN ですが、Transformer のように並列でトレーニングできます。

RWKV は、優れたパフォーマンス、高速な推論、高速なトレーニング、VRAM の節約、「無制限」のコンテキスト長、自由な文の埋め込みなど、RNN と Transformer の利点を兼ね備えています。RWKV はアテンション メカニズムを使用しません。

次の図は、RWKV モデルと Transformer モデルの計算コストの比較を示しています。

写真

Transformer の時間と空間の複雑さの問題を解決するために、研究者はさまざまなアーキテクチャを提案してきました。

写真

RWKV アーキテクチャは、一連の積み重ねられた残差ブロックで構成され、各残差ブロックは、時間的混合サブブロックと、再帰構造を持つチャネル混合サブブロックで構成されます。

下の図は、左側に RWKV ブロック要素、右側に RWKV 残差ブロック、言語モデルの最終ヘッドを示しています。

写真

再帰は、現在の入力と前のタイムステップの入力 (下の図の対角線で表示) 間の線形補間として定式化でき、入力埋め込みの各線形投影に対して個別に調整できます。

潜在的な劣化を補うために、現在のトークンを個別に処理するベクトルもここで導入されています。

写真

RWKV は、時間並列モードと呼ばれる方法で効率的に並列化 (行列乗算) できます。

再帰型ネットワークでは、通常、前のタイム ステップの出力が現在のタイム ステップの入力として使用されます。これは、言語モデルの自己回帰デコード推論で特に顕著です。この推論では、次のステップが入力される前に各トークンを計算する必要があり、RWKV は時間順序モードと呼ばれる RNN のような構造を活用できます。

この文脈では、各出力トークンがシーケンスの長さに関係なく一定サイズの最新の状態にのみ依存するという事実を利用して、RWKV は推論中のデコードのために再帰的に便利に定式化できます。

次に、RNN デコーダーとして機能し、シーケンスの長さに応じて一定の速度とメモリ使用量を実現し、より長いシーケンスをより効率的に処理できるようになります。

対照的に、自己注意の KV キャッシュはシーケンスの長さに応じて増加し続けるため、シーケンスが長くなるにつれて効率が低下し、メモリ使用量と時間が増加します。

参考文献:

https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

<<:  WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

>>: 

推薦する

ChatGPT の背後にあるビッグモデル技術を 3 分で簡単に理解する

過去 10 年間で、人工知能の分野で大きな進歩が遂げられてきましたが、その中で自然言語処理 (NLP...

グラフディープラーニングで複雑な研究​​タイプのタスクを実装するのは、あまりにも面倒ですか?この新しいツールキットは、

ディープラーニングは、AI分野で最も注目されている分野の1つです。現在、PyGやDGLなどの主流のグ...

より賢い人工知能が人間に取って代わるのはもうすぐなのでしょうか?

人工知能の発展により、機械ははるかに賢くなりました。コンピュータプログラムさえ設定しておけば、多くの...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコン...

...

人間を機械に置き換えることで雇用上の課題が生じています。労働市場の将来はどうなるのでしょうか?

現在、世界中で加速する人工知能の発展は各国から大きな注目を集めています。単純な機械動作でも複雑な知覚...

...

AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...

NIST: AIの偏りはデータだけにとどまらない

現時点では、ほとんどの AI がある程度問題のある偏見に基づいて構築され、現在もそれを使用しているこ...

大規模言語モデルはウォール街に勝てるか?株式選択における AI の可能性を明らかにする

金融分野における人工知能(AI)の応用は、特に株式市場の分析と予測において、幅広い注目と議論を集めて...

世界のAIチップ投資環境が明らかに、5つのシナリオにチャンスあり

[[241691]]画像出典: Visual China AIチップ投資マップAI チップの設計は、...

ウェルズ・ファーゴ:人工知能と機械学習は「諸刃の剣」

ウェルズ・ファーゴの上級副社長兼エンタープライズ・アーキテクチャ責任者であるマイク・テラン氏は、過去...