トランスフォーマー後継モデル! MSRA が新しい大規模モデル インフラストラクチャを提案: 推論速度が 8 倍に向上し、メモリ使用量が 70% 削減

トランスフォーマー後継モデル! MSRA が新しい大規模モデル インフラストラクチャを提案: 推論速度が 8 倍に向上し、メモリ使用量が 70% 削減

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Microsoft の新しい大規模モデル アーキテクチャが正式にTransformerに挑戦します。

論文のタイトルには次のように明記されています。

Retentive Network (RetNet): 大規模モデル分野における Transformer の後継。

写真

この論文では、Attention に代わる新しい Retention メカニズムを提案しています。マイクロソフトリサーチアジアと清華大学の研究者たちは、自分たちの野望を隠さず、大胆に次のように述べました。

RetNet は、優れたスケーリング結果、並列トレーニング、低コストの展開、効率的な推論を実現します。

これらの機能により、このアーキテクチャは大規模言語モデルにおける Transformer の強力な後継となります。

実験データは、言語モデリングタスクにおいて次のことを示しています。

  • RetNetはTransformerに匹敵する複雑性を達成できる
  • 推論速度最大8.4倍
  • メモリ使用量が70%削減
  • 優れたスケーラビリティ

また、モデルのサイズが一定規模を超えると、RetNet は Transformer よりも優れたパフォーマンスを発揮します。

写真

トランスフォーマーには本当に後継機があるのでしょうか?具体的な内容を見てみましょう。

「不可能の三位一体」を解く

大規模言語モデルにおける Transformer の重要性は疑う余地がありません。 OpenAI の GPT シリーズ、Google の PaLM、Meta の LLaMA など、これらはすべて Transformer 上に構築されています。

しかし、Transformer は完璧ではありません。並列処理メカニズムは非効率的な推論を犠牲にし、各ステップの複雑さは O(N) です。Transformer はメモリを大量に消費するモデルであり、シーケンスが長くなるほど、占有するメモリも多くなります。

これまで、Transformer をさらに改良することを考えていました。しかし、主な研究の方向性は焦点が定まっていないようです。

線形アテンションは推論のコストを削減できますが、パフォーマンスは低くなります。

リカレントニューラルネットワークは並列にトレーニングできません。

言い換えれば、これらのニューラル ネットワーク アーキテクチャの前には「不可能三角形」があり、3 つの角は並列トレーニング、低コストの推論、優れたスケーラビリティを表しています。

写真

RetNet の研究者がやりたいのは、不可能を可能にすることです。

具体的には、RetNet は、Transformer に基づく標準的な自己注意メカニズムの代わりに、マルチスケール保持メカニズムを使用します

標準的な自己注意メカニズムと比較して、保持メカニズムにはいくつかの特徴があります。

ソフトマックスの代わりに位置依存の指数関数的減衰項を導入すると、前のステップの情報を減衰形式で保持しながら計算が簡素化されます。

位置情報を表現するために複素空間を導入すると、絶対位置または相対位置のエンコーディングが置き換えられ、再帰形式への変換が容易になります。

さらに、保持メカニズムは、マルチスケールの減衰率を使用してモデルの表現力を高め、GroupNorm のスケーリング不変性を活用して保持層の数値精度を向上させます。

写真

△RetNetの二重表現

各 RetNet ブロックには、マルチスケール保持(MSR)モジュールとフィードフォワード ネットワーク(FFN)モジュールの 2 つのモジュールが含まれています。

保持メカニズムは、シーケンスを表現する 3 つの形式をサポートします。

  • 平行
  • 再帰
  • ブロック再帰は並列表現と再帰表現を組み合わせたもので、入力シーケンスをブロックに分割し、並列表現に従ってブロック内で計算を実行し、ブロック間では再帰表現に従います。

その中で、並列表現により、RetNet は Transformer のような並列トレーニングに GPU を効率的に利用できるようになります。

再帰表現により推論の複雑さがO(1)に抑えられ、メモリ使用量とレイテンシが削減されます。

ブロック再帰により、長いシーケンスをより効率的に処理できます。

このようにして、RetNet は「不可能三角形」を可能にします。以下は、RetNet と他のインフラストラクチャの比較です。

言語モデリングタスクに関する実験結果は、RetNet の有効性をさらに実証しています。

結果は、RetNet が Transformer と同様のパープレキシティ(PPL、言語モデルの品質を評価する指標、小さいほど良い)を達成できることを示しています。

同時に、モデルパラメータが70億、入力シーケンス長が8kの場合、RetNetの推論速度はTransformerの8.4倍に達し、メモリ使用量は70%削減されます

トレーニング中、RetNet はメモリ節約と加速の点でも標準の Transformer+FlashAttention よりも優れたパフォーマンスを発揮し、それぞれ25~50%7 倍に達しました。

RetNet の推論コストはシーケンスの長さに依存せず、推論レイテンシはバッチ サイズに影響されないため、高いスループットが可能になることは注目に値します。

写真

さらに、モデルパラメータのスケールが 20 億を超える場合、RetNet は Transformer よりも優れたパフォーマンスを発揮します。

研究チーム

RetNet 研究チームは、Microsoft Research Asia と清華大学から構成されています。

二人は孫宇涛と董麗です。

清華大学コンピューターサイエンス学部の学生である Sun Yutao さんは、現在 Microsoft Research Asia でインターンシップを行っています。

Dong Li は、Microsoft Research Asia の研究員です。彼はまた、大きな注目を集めた論文「10億個のトークンを記憶できるトランスフォーマー」の著者の一人でもあります。

RetNet 論文の責任著者は Wei Furu です。彼は Microsoft Research Asia のグローバル リサーチ パートナーであり、10 億トークンの Transformer も彼の研究チームから生まれました。

論文アドレス: https://arxiv.org/abs/2307.08621

<<:  FlashAttention v2 は標準の Attention より 5 ~ 9 倍高速です。大規模なモデルで使用されます。

>>:  スタンフォード大学の博士が独力で注意力を​​9倍に加速! FlashAttention はビデオメモリを消費し、Transformer のコンテキストの長さが劇的に増加します

ブログ    
ブログ    

推薦する

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...

2020 年に役に立つ機械学習ツール

TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...

金融保険業界における人工知能の3つの重要なトレンド

[51CTO.com クイック翻訳] 変化は常に起こっており、将来の変化は予測可能です。保険市場は大...

顔認識防止技術の登場により、顔をスキャンするのはまだ安全でしょうか?

現在、より成熟し、広く使用されているインテリジェント テクノロジーにはどのようなものがありますか? ...

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

ゲスト | ウェン・メンフェイインタビュー&執筆 | Yun Zhao潮が満ちると、何千もの船が動き...

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...

化粧品は顔認識技術を騙せるのか?

[[424943]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

独学で機械学習エンジニアを目指す人のための 10 の戒律

コードを書くのは少し憂鬱になるので、色に囲まれる必要があります自己規律や自己学習という言葉を軽く受け...

人工知能が私たちの日常生活を変える5つの方法

人工知能はもはや未来的な概念ではなく、私たちの日常生活に欠かせないものとなっています。私たちが目覚め...

...

崑崙万為が「天宮」13Bシリーズ大型モデルをオープンソース化、商用利用のハードルはゼロ

10月30日、崑崙万為は、数百億語の容量を持つ大規模言語モデル「天工」Skywork-13Bシリーズ...

NLP入門シリーズ:自然言語処理

[[400034]]この記事はAI Publishingが執筆したWeChatパブリックアカウント「...

...

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...

フランスのヒューマノイド ロボット Reachy は、オープン ソース + モジュール式で、最も複雑な Raspberry Pi ロボットの 1 つです。

Raspberry Pi は、小さなおもちゃの車から産業用ロボットアームに至るまで、あらゆるものに...