RWKV の紹介: リニア トランスフォーマーの台頭と代替案の検討

RWKV の紹介: リニア トランスフォーマーの台頭と代替案の検討

RWKV ポッドキャストからの私の考えの一部を要約すると次のようになります: https://www.latent.space/p/rwkv#details


代替案が重要なのはなぜですか?

2023年のAI革命を控え、 Transformerアーキテクチャは現在最盛期を迎えています。しかし、成功したTransformerアーキテクチャを急いで採用しようとすると、そこから学ぶことができる代替案を見落としてしまう可能性が高くなります。

エンジニアとして、私たちは画一的なアプローチをとったり、すべての釘に同じハンマーを使ったりすべきではありません。私たちは、あらゆる解決策においてトレードオフを見つける必要があります。そうしないと、特定のプラットフォームの制限に閉じ込められ、他の選択肢があることを知らないために「幸せ」を感じ、一夜にして開発が解放前の時代に戻ってしまう可能性があります。

この問題は人工知能分野に特有のものではなく、古代から現代まで繰り返されてきた歴史的なパターンです。


SQL 戦争の歴史からの一ページ…

ソフトウェア開発における最近の注目すべき例としては、SQL サーバーが物理的な制限に直面し始めたときに出現した NoSQL のトレンドが挙げられます。世界中のスタートアップ企業は、規模がそこまで及ばないにもかかわらず、「規模」を理由に NoSQL に目を向けています。

しかし、時が経つにつれ、最終的な一貫性と NoSQL 管理オーバーヘッドの出現、そして SSD の速度と容量の点でのハードウェア機能の飛躍的な向上により、SQL サーバーは、その使いやすさと、現在では 90% 以上のスタートアップにとって十分なスケーラビリティにより、最近復活を遂げています。

これは、SQL が NoSQL よりも優れていることを意味しますか、それともその逆ですか?いいえ、それは単に、それぞれのテクノロジーには、長所と短所、そして類似のテクノロジー間で相互に作用できる学習ポイントを伴う好ましい使用例があるということを意味します。


現在のTransformerアーキテクチャの最大の問題点は何ですか?

通常、これには計算、コンテキスト サイズ、データセット、およびアライメントが含まれます。この議論では、計算とコンテキストの長さに焦点を当てます。

  • 使用/生成されるトークンごとに O(N^2) 増加するため、計算コストは​​ 2 次になります。これにより、コンテキスト サイズが 100,000 を超えるとコストが非常に高くなり、推論とトレーニングの両方に影響します。
  • 現在の GPU 不足により、問題はさらに悪化しています。
  • コンテキスト サイズによって Attention メカニズムが制約され、「インテリジェント エージェント」の使用例 (smol-dev など) が厳しく制限され、問題解決が強制されます。コンテキストが大きいほど、回避策の必要性は少なくなります。

では、この問題をどう解決すればよいのでしょうか?


RWKV の紹介: 線形トランスフォーマー/ 最新の大規模 RNN

RWKV と Microsoft RetNet は、「線形トランスフォーマー」と呼ばれる新しいクラスのモデルの最初のものです。

以下のサポートにより、上記の 3 つの制限に直接対処します。

  • コンテキスト サイズに依存しない線形計算コスト。
  • CPU (特に ARM) では、これにより、はるかに低い要件で RNN モードで適切なトークン/秒を出力できるようになります。
  • RNN の場合、コンテキスト サイズの厳密な制限はありません。ドキュメント内の制限はガイドラインであり、微調整することができます。

AI モデルを10 万以上のコンテキスト サイズに拡大し続けると、二次計算コストが指数関数的に増加し始めます。

ただし、線形トランスフォーマーは、リカレント ニューラル ネットワーク アーキテクチャを放棄してそのボトルネックを解決するわけではないため、リカレント ニューラル ネットワーク アーキテクチャを置き換える必要が生じました。

ただし、再設計された RNN は、Transformer から学んだスケーラブルな教訓を活用し、Transformer と同様に動作し、これらのボトルネックを解消します。

トレーニング速度の面では、Transformers が再び登場し、同様のパフォーマンス レベルを維持しながら、トレーニングで 10 億を超えるパラメータにスケーリングしながら、O(N) コストで効率的に実行できるようになりました。

チャート: トークンごとに線形にスケーリングされる線形トランスフォーマーの計算コストと、トランスフォーマーの指数関数的な増加


二乗比率で直線的にスケーリングすると、トークン数が 2,000 の場合に 10 倍以上、トークンの長さが 100,000 の場合に 100 倍以上になります。

RWKV は 140 億のパラメータを持ち、GPT NeoX や Pile などの他の同様のデータセットと同等の最大のオープンソース線形トランスフォーマーです。


さまざまなベンチマークにより、RWKVモデルの性能は、同様のサイズの既存の変圧器モデルと同等であることが示されています。


しかし、もっと簡単に言えば、これは何を意味するのでしょうか?


アドバンテージ

  • 推論/トレーニングは、コンテキストサイズが大きい場合、Transformer よりも 10 倍以上安価です。
  • RNNモードでは、非常に限られたハードウェアでゆっくりと実行できます。
  • 同じデータセットでのTransformerと同様のパフォーマンス
  • RNN には技術的なコンテキスト サイズの制限はありません (コンテキストは無制限です)


欠点

  • スライディングウィンドウ問題、ある一定のポイントを超えるとメモリが失われる
  • 14Bパラメータを超えて拡張できることは証明されていない
  • トランスフォーマーを最適化して採用する方が良い

したがって、RWKV はまだ LLaMA2 の 600 億以上のパラメータ規模には達していませんが、適切なサポートとリソースがあれば、特にモデルがより小型で効率的なモデルへと移行するにつれて、より低コストでより大規模な環境でそれを達成できる可能性があります。

使用ケースにおいて効率性が重要な場合は、これを考慮してください。しかし、これは究極の解決策ではありません。健康的な代替品が依然として重要です。


私たちがおそらく学ぶべき他の選択肢とその利点

拡散モデル: テキストのトレーニングは遅くなりますが、マルチエポックのトレーニングに対して非常に耐性があります。その理由を突き止めれば、トークン危機を緩和できるかもしれない。

生成的敵対ネットワーク/エージェント: データセットが利用できない場合でも、テキストベースのモデルであっても、特定のターゲットに必要なトレーニング セットをトレーニングするテクニックを使用できます。


原題: RWKV の紹介: 線形トランスフォーマーの台頭と代替案の検討、著者: picocreator

https://hackernoon.com/introducing-rwkv-the-rise-of-linear-transformers-and-exploring-alternatives

<<:  ハーバード大学の研究によると、GPT-4は一部の企業従業員のパフォーマンスを40%向上させることができるという。

>>: 

ブログ    
ブログ    

推薦する

2018年に「ブロックチェーン+人工知能」について知っておくべきこと

現在、ビジネス界、テクノロジー界、金融界を問わず、最もホットな言葉は「ブロックチェーン」に他なりませ...

2年後には「ロボット」が人間の活動の80%以上をこなすようになるのでしょうか? AIに関する専門家の見解を聞く

写真:人工知能カンファレンスフォーラム 撮影:新民晩報主任記者 劉欣 「私は生産性を変革し、新しい...

...

GPT-3.5 を選択すべきでしょうか、それとも Llama 2 などのオープンソース モデルを微調整すべきでしょうか?総合的に比較した結果、答えは

GPT-3.5 の微調整には非常にコストがかかることはよく知られています。この論文では、手動で微調整...

高品質な人工知能メンタルヘルスカウンセリングアプリを開発するには?

生活の質は向上している一方で、人々の精神状態は悪化しています。 [[317751]]群衆の中にうつ病...

教師なし機械学習技術は金融セキュリティの懸念を解決できる

「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...

ちょうど今、人工知能に関する大きなニュースが発表されました

中国における人工知能熱の高まりは、テクノロジーとビジネスによって推進されているだけでなく、政府の推進...

エッセンス共有サイトのランキングアルゴリズムのまとめ

ウェブサイトのランキングは、ウェブサイトの最適化を行うすべての人が最も気にしていることです。しかし、...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

...

見逃せない 7 つのディープ ニューラル ネットワーク可視化ツール

TensorBoard: TensorFlow 統合可視化ツールGitHub 公式プロジェクト: h...

クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

モデルが大きくなれば機能も増えるのでしょうか?しかし、そうではありません。最近、マイクロソフトの研究...

栄創同志、競争は発展を促進する。第1回「AIIAカップ」人工知能ツアー説明会が北京で開催

2月28日、中国人工知能産業発展連盟「AIIAカップ」人工知能ツアー報告会において、中国航天科技集団...

...

...