この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近、NLP のスター企業であるHugging Faceが Infinity という製品をリリースしました。これは、 1 ミリ秒の遅延で Transformer 推論を完了できる非常に高いパフォーマンスを備えています。 しかし、その素晴らしいパフォーマンスにもかかわらず、少なくとも年間数十万元(20,000米ドル)と、まだ少し高価です。 それで、何か別の方法はあるのでしょうか? いくつかの!これはオープンソースであり、Infinity のいくつかの公開ベンチマークを「努力なしで」達成できます。 そして今、この方法にちょっとしたトリックを適用することで、Transformer 推論を4.5 倍高速化することができます。 △ この投稿は1日も経たないうちに250回以上のアクセスがありました。 では、なぜ「代用品」が「支払い」の効果を達成できるのでしょうか? Transformerの推論を4.5倍高速化するトリックまず、このメソッドTransformer-deployについて知っておきましょう。 1 行のコマンドで Hugging Face 上の Transformer モデルを最適化してデプロイでき、Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert など、ほとんどの Transformer エンコーダー ベースのモデルをサポートします。 Transformer デプロイ推論サーバーは Nvidia Triton を使用します。 推論エンジンは、Microsoft ONNX Runtime (CPU および GPU 推論用) と Nvidia TensorRT (GPU のみ) です。 GPU で最高のパフォーマンスを得たい場合、Nvidia Triton + Nvidia TensorRT のような組み合わせが間違いなく最良の選択です。 TensorRT は少し使いにくいですが、実際には Pytorch を使用するよりも 5 ~ 10 倍高速になります。 実際のパフォーマンステストでは、バッチサイズが 1、トークンが 16 および 128 の入力シーケンスでの Transformer-deploy の推論速度は、有料の Hugging Face Infinity よりも高速です。 Transformer-deploy は、トークンが 16 の場合は1.52 ミリ秒、Infinity の場合は 1.7 ミリ秒かかります。トークンが 128 の場合は1.99 ミリ秒、Infinity の場合は 2.5 ミリ秒かかります。 では、Transformer の推論パフォーマンスをさらに向上させることができる、前述のトリックとは何でしょうか? GPU 量子化。 著者は次のように述べています。
ただし、GPU 量子化を実行するには、モデルのソース コードを変更する (行列乗算などのコストのかかる操作に QDQ と呼ばれる特定のノードを追加する) 必要があり、これはエラーが発生しやすく退屈な作業であり、変更したコードを自分で保守する必要もあります。 そのため、著者は複数の Transformer ベースのモデルに対してこれを手動で実行しました。 その後、モデル モジュールの抽象構文木(AST) にパッチを当てるだけで、これを自動的に実行できるようであることがわかりました。 ユーザー側では、モデルの基本的な量子化は次のように GPU 上で実行されます。 最終的に、この方法は、Roberta ベース モデルと MNLI データセット (分類タスク) で4.53 倍の推論速度を達成しました。 もちろん、これによって精度も 0.4 ポイント犠牲になりますが、犠牲にならなければ速度は約 3.2 倍に加速できます。 著者は、これは加速コストに 1 ポイント以上の精度が必要だった Transformer-deploy のオリジナル バージョンに比べて大きな改善であると述べています。 最後に、彼らは Albert、Bert (miniLM を含む)、Distilbert、Roberta (Camembert、XLM-R、DistilRoberta などを含む)、および Electra でこのトリックをテストしました。 その結果、ONNX 形式にエクスポートできるあらゆる Transformer モデルに「すぐに」使用できるようになります。 |
<<: フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案
>>: 120キロの夜間走行中、車内には誰もいなかった!ツーソンは、世界中の公道でテストされる最初の完全無人大型トラックです。
10年以上が経過し、ディープラーニングは人工知能の発展の機会を提供してきました。並列コンピューティン...
[51CTO.comよりオリジナル記事] 静かな2019年を経て、自動運転業界は新年を迎え、徐々に活...
人工知能 (AI) は、マーケティングと広告のダイナミックな環境において変革をもたらす力として登場し...
テンセントは3月2日、自社で完全に開発したソフトウェアとハードウェアを搭載した初のマルチモーダル...
ChatGPT などの AIGC アプリケーションが大規模なモデルの波を引き起こすにつれて、インフラ...
電子コンピューティングと比較すると、光コンピューティングは高速、高帯域幅、低消費電力という利点があり...
元 Google CEO のエリック・シュミット氏は、AI を活用して科学研究の課題に取り組むことを...
人工知能は、特にセキュリティ分野において業界に大きな影響を与え始めています。成熟したセキュリティ サ...
機械学習と人工知能 (AI) は、一部の脅威検出および対応ツールの中核技術になりつつあります。サイバ...
顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...
コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えら...
著名なAI研究者のジェフリー・ヒントン氏は、Googleを退職後、人工知能関連産業の研究に専念してい...
ディープラーニングの分野で最も有名な学者の一人であるヤン・ルカン氏が本日、自身のFacebookに投...
昨日の午後、百度は新製品発表会で「小度」スマートスピーカーを発表しました。このスマートスピーカーは百...