最近人気の AI スタートアップ企業 Groq は、現在一般的な GPU 推論システムよりも 4 倍高速で、70% 安価な大規模モデル推論ソリューションを発表しました。 Mistral Mixtral 8x7b を実行するために提供された API デモでは、「ソフトで優しい」LLM に慣れていたほとんどのユーザーが、まさに魔法だと感嘆しました。 Groq は、単一のデータシーケンスの処理において驚くべきパフォーマンス上の利点を実証しており、これにより「思考チェーン」などの手法が現実世界でより実用的になる可能性があります。 Groq には多くの利点がありますが、ハードウェアが本当に革新的であるかどうかを評価する中心的な基準は、パフォーマンスと総コストの比率です。 この目的のために、SemiAnalysis の主任アナリスト Dylan Patel 氏とアナリスト Daniel Nishball 氏は、Groq の詳細な分析を行った 10,000 語の記事を執筆しました。 「記録破りの推論速度、しかしその代償は?」 AI 時代が到来したことに疑問を抱く人はいませんが、AI 駆動型ソフトウェアのコスト構造は従来のソフトウェアとは大きく異なることを認識することが重要です。 チップのマイクロアーキテクチャとシステムアーキテクチャは、AI ソフトウェアの開発と拡張において重要な役割を果たします。 AI ソフトウェアが実行されるハードウェア インフラストラクチャ (Infra) は、以前のソフトウェア世代よりも、設備投資 (Capex) と運用支出 (Opex)、ひいては粗利益に大きな影響を与えます。 そのため、AI インフラストラクチャを最適化し、AI ソフトウェアの大規模導入コストを合理的な範囲に抑えることが特に重要です。 インフラストラクチャに優位性を持つ企業は、AI アプリケーションの導入と拡張においても大きな優位性を持つことになります。 Google がインフラストラクチャでリードしているため、Gemini 1.5 は OpenAI GPT-4-Turbo よりも Google にとって提供コストが安く、多くのタスク、特に長いシーケンス コードの生成で優れたパフォーマンスを発揮します。 Google は単一の推論タスクにより多くのチップを使用しますが、総コストに対するパフォーマンスの比率は向上します。 したがって、このコンテキストでは、パフォーマンスは、レイテンシの最適化など、単一のユーザーによって生のトークンが生成される速度を示す単一の指標ではありません。 総コストを評価する際には、ハードウェアが同時にサービスを提供するユーザーの数を考慮する必要があります。 これが、大規模言語モデルの推論のためのエッジ ハードウェアのパフォーマンスを向上させることがそれほど魅力的ではない主な理由です。 ほとんどのエッジ システムでは、多数のユーザー間で増加したハードウェア コストを償却できないため、大規模な言語モデルを実行するために必要なハードウェア コストの増加を補うことができません。 多数のユーザーに同時に、非常に大きなバッチ サイズでサービスを提供する場合、つまりスループットとコストを最適化する場合は、GPU が推奨される選択肢です。 実際、多くの企業が Mistral API 推論サービスで損失を出しています。 一部の企業では、財務上の損失を減らすために、非常に低いレート制限を設定しています。 ただし、量子化されていないモデル (FP16) が提供されている限り、収益を上げるには少なくとも 64 以上のバッチ サイズが必要です。 したがって、ミストラル、トゥゲザー、ファイアワークスは、基本的に、ミストラルのサービスを提供する際に、損益分岐点からわずかな利益を上げるという重要なポイントにあります。 しかし、Mixtral API を提供する他の企業ではそうではありません。 彼らは、モデルの簡素化 (量子化) に関する説明が明確でないか、顧客基盤を引き付けるために VC の資金を浪費しているかのどちらかです。 つまり、大規模なモデルサービスを提供する企業にとって、コストは基本的に深刻な問題なのです。 Groq は大胆な戦略を採用し、100 万トークンの価格をわずか 0.27 米ドルに設定して、直接価格戦争を開始しました。 低価格は、Together や Fireworks の場合と同様に、パフォーマンス/総所有コスト (TCO) を考慮して決められているのでしょうか? それとも、補助金を通じて市場の熱意を刺激する戦略なのでしょうか? Groq の最新の資金調達は 2021 年であり、昨年は 5,000 万ドルのセキュア転換社債 (SAFE) 資金調達も完了していることは注目に値します。同社は現在、新たな資金調達活動を行っています。 それでは、Groq のチップ、システム、コスト分析を詳しく見て、大規模モデルの推論コストがどのように削減されるかを見てみましょう。 Groq アーキテクチャの解読Groq のチップは、バッファなしの完全決定論的超長命令語 (VLIW) アーキテクチャを採用しており、チップ面積は約 725 平方ミリメートルで、Global Foundries の 14 ナノメートル プロセス技術を使用して製造されています。 このチップは外部メモリに依存せず、重み、キー値キャッシュ (KVCache)、アクティベーション関数、その他のデータはすべて処理中にチップ内に保存されます。 各チップには 230 MB の静的ランダム アクセス メモリ (SRAM) しかないため、単一のチップ上で複雑なモデルを実行することはできません。 したがって、モデル全体に対応するには、複数のチップを使用して相互接続する必要があります。 Mixtral モデルの場合、Groq は 8 つのラックで構成され、各ラックには 9 台のサーバーが装備され、各サーバーには 8 個のチップが装備された、576 個のチップを含む大規模なサーバー クラスターを使用して操作をサポートする必要があります。 Nvidia H100とのコスト比較NVIDIA は、処理する必要があるデータの量に応じて、同じモデルを簡単に適応させるために、1 つまたは 2 つの H100 チップを使用するだけで済みます。 Groq がチップを製造するために必要なウエハーコストは比較的低く、おそらくウエハー 1 枚あたり 6,000 ドル以下です。 比較すると、Nvidia の H100 チップは TSMC のカスタム 5nm プロセスを使用して製造され、ウェハー 1 枚あたりのコストは約 16,000 ドルです。 しかし、Nvidia はほとんどの H100 チップの部品の約 15% を無効にすることで歩留まりを向上させているが、このアプローチは Groq にはうまく機能しない。 Nvidia はまた、SK Hynix から 80GB の高帯域幅メモリ (HBM) を購入するために H100 チップ 1 個あたり約 1,150 ドルを支払う必要があり、TSMC のチップ パッケージング技術 (CoWoS) に関連するコストと歩留まり損失の可能性も負担する必要がある。 対照的に、Groq のチップは外部メモリを必要としないため、原材料コストは大幅に低くなります。 スタートアップ企業である Groq は、カスタム ASIC サービスに対して Marvell に支払う高額な料金を含め、チップの製造において比較的高い固定費に直面しています。 以下の表には、3 つの異なるデプロイメントが示されています。1 つは、バッチ サイズ 3 のパイプライン並列処理で来週から実稼働する予定の Groq 用、もう 2 つは、それぞれ Nvidia の H100 チップ用のデプロイメントで、レイテンシが最適化されたデプロイメントとスループットが最適化されたデプロイメントに投機的デコード手法を使用する構成を示しています。 上記の分析により、コスト計算が大幅に簡素化されます (後で詳しく説明するシステムレベルの大きなコストや、Nvidia の莫大な利益は考慮されていません)。 基本的な考え方は、Groq はチップ アーキテクチャのおかげで、レイテンシが最適化された Nvidia システムよりもトークン出力あたりのシリコン コストが経済的であるということです。 8 個の A100 チップは Mixtral モデルをサポートし、ユーザーあたり毎秒約 220 トークンの処理速度を実現できます。一方、8 個の H100 チップは、投機的デコードを使用せずに、ユーザーあたり毎秒約 280 トークンの処理速度を実現できます。 投機的デコードを使用することで、8 個の H100 チップで構成される推論ユニットは、ユーザーあたり毎秒約 420 トークンの処理速度を実現できます。 理論的にはスループットは高くなる可能性がありますが、MoE モデルに投機的デコードを適用するには課題があります。 現時点では、コスト効率が非常に悪いため、レイテンシに最適化された API サービスはありません。 API プロバイダーは現在、レイテンシを短縮するために最大 10 倍の料金を請求する市場の需要がないと考えています。 プロキシや、極めて低いレイテンシを必要とするその他のタスクが普及するにつれて、GPU ベースの API ベンダーは、既存のスループット最適化 API を補完するために、レイテンシ最適化 API を導入する可能性があります。 投機的デコードを使用しても、レイテンシが最適化された Nvidia システムは、スループットとコストの両方でバッチ実装の Groq システムよりはるかに遅れをとっています。 さらに、Groq は古い 14nm プロセス技術を使用しており、チップに対して Marvell に多額の利益率を支払っています。 Groq がさらなる資金を獲得し、2025 年後半までに次世代 4nm チップの生産を増強できれば、経済状況は大きく変化する可能性があります。 Nvidiaのバックアップ計画注目すべきは、Nvidia が対応戦略を持っていないわけではなく、1 か月以内に次世代の B100 チップを発表する予定であることです。 スループットが最適化されたシステムでは、経済性が劇的に変化します。 Nvidia システムは、ユーザーあたりの処理速度は低いものの、コスト効率が桁違いに優れています。スループットが最適化されたシナリオでは、Groq はアーキテクチャ的に競合できません。 ただし、上記の簡略化された分析は、システムコスト、利益、エネルギー消費などの多くの重要な要素を無視しているため、システムを購入して導入するユーザーには適していません。 したがって、パフォーマンス/総所有コストに基づく分析が提案されます。 これらの要素を考慮すると、各トークンの計算コストは完全に異なります。 NVIDIA 側では、以下に示す GPU クラウド コストを使用して分析が行われます。 Nvidia GPU マザーボードは利益率が高いです。 さらに、このサーバーの価格は 35 万ドルで、大手クラウド サービス プロバイダーによる H100 サーバーの購入コストをはるかに上回っています。また、メモリ コストが高く、帯域幅の合計が 3.2Tbps の 8 枚の InfiniBand ネットワーク インターフェイス カード (この推論アプリケーションには実際には不要) が必要であり、Nvidia の利益に加えて OEM の利益も発生します。 Groq の場合、チップ、パッケージ、ネットワーク、CPU、メモリなどの詳細を考慮し、メーカー全体の利益が低いと仮定してシステム コストを見積もりました。 Groq がハードウェアを販売する際に得る利益は考慮されていないため、異なる基準のように見えるかもしれませんが、Groq と推論 API ベンダーは同じ製品/モデルを提供しているため、実際には公平な比較になります。 注目すべきは、8 つの Nvidia GPU には 2 つの CPU しか必要ないのに対し、Groq のシステムには 144 個の CPU と 144 TB の RAM が搭載されており、規模に大きな違いがあるということです。 これらのコンポーネントのコストを合計すると、8 つの Groq LPU と上記のすべてのハードウェアを含む、各 Groq LPU サーバーのコストは 35,000 ドルになります。 Mixtral Groq 推論の展開では、ラック 8 台 (各ラックに 9 台のサーバー) が使用され、総コストは 252 万ドルです。展開全体では、合計 576 個の LPU チップが使用されています。 比較すると、標準的な H100 HGX システムの初期投資コストは 350,000 ドルで、8 つの H100 チップが含まれます。ほとんどの H100 ベースの Mixtral 推論インスタンスでは、H100 チップが 2 つだけ必要です。 資本利益率を 18%、推定耐用年数を 5 年と想定すると、H100 システムの平均コストは月額 8,888 ドル、これにホスティング料金 2,586 ドルが加算され、総所有コストは 11,474 ドルになります。 比較すると、より大規模な Groq システムの総所有コストは月額 122,400 ドルになります。 レイテンシに最適化された構成では、8 台の H100 サーバーの導入コストは 100 万トークンあたり 5.2 ドルですが、スループットに最適化された 2 台の H100 サーバーの導入コストは 0.57 ドルのみです。 対照的に、Groq のソリューションは 100 万トークンあたり 1.94 ドルのコストで、8 台の H100 の構成よりも経済的で効率的です。 推論サービスを提供する多くの企業と同様に、Groq の現在の運営モデルはまだ収益性が高くありません。 損益分岐点に達するには、Groq は処理速度を 7 倍以上に上げなければなりません。 この目標は、8 台の H100 サーバーに基づくレイテンシ最適化構成よりもはるかに簡単に達成できます。同じ価格で損益分岐点に達するには、効率を 20 倍近く高める必要があります。 Groq のビジネス モデルには、推論 API サービスの提供だけでなく、ハードウェア システムの直接販売も含まれます。 Groq がサードパーティのオペレーターに 60% の利益率で販売する場合、総コストは Nvidia の H100 HGX と同等になり、販売価格は約 635 万ドルになると予想されます。 Groq は自社のシステムがエネルギー消費の面で優位性があると主張していますが、既存のデータからはまだそれが明らかではありません。 H100 サーバーの場合、極端な仮定の下でも、CPU と 8 つの NIC すべてをフルスピードで実行するために必要な電力はわずか 10 キロワットです。これは、Groq の 576 チップ サーバーに必要な 230 キロワット (8 チップ サーバーあたり約 3.2 キロワット) よりもはるかに効率的です。 Groq はワットあたりのパフォーマンスで優位性があると主張していますが、入手可能な情報に基づいてこれを検証するのは困難です。 Groq は現在 API ビジネスで赤字を計上しており、損益分岐点に達するには 7.2 倍以上のパフォーマンス向上が必要ですが、今後数四半期でこの目標を達成するためにいくつかの改善が計画されていることに留意することが重要です。 これらの改善は主に次の 3 つの方向で行われます。 - データ処理速度を向上させるためにコンパイラを最適化し続けます。 - 使用するCPUの数やメモリの量を減らすなど、チップ以外のコストを大幅に削減する新しいサーバー設計を導入する。 - 処理パイプラインの数を増やすことで、より大規模なシステムを導入し、より高いデータ バッチ処理機能を実現します。これにより、パフォーマンスが向上するだけでなく、より大規模な AI モデルもサポートされます。 それぞれの改善はそれ自体は妥当に思えますが、7 倍のパフォーマンス改善を達成するのは間違いなく大きな課題です。 チャレンジ現在、最大のモデルには 1 兆から 2 兆のパラメータがあります。しかし、Google と OpenAI は 10 兆を超えるパラメータを持つモデルを立ち上げる可能性が高い。一方、Llama 3 とより大きな Mistral モデルも近日中に登場予定です。 これには、数百の GPU と数十 TB のメモリを搭載した強力な推論システムが必要になります。 現在、Groq は 1,000 億以下のパラメータを持つモデルの処理に適したシステムを構築する能力を実証しており、2 年以内に 100 万個のチップを導入する予定です。 課題1: 非常に長いコンテキスト情報の処理Google の Gemini 1.5 Pro は、最大 1,000 万トークンのコンテキストを処理できます。これは、10 時間のビデオ、110 時間のオーディオ、30 万行のコード、または 700 万語のコンテンツを処理することに相当します。 アナリストは、多くの企業やサービス プロバイダーが、大規模なコード ベースやドキュメント リポジトリをより適切に管理および適用するために、近いうちに長いコンテキストのサポートを開始し、実際のアプリケーションでパフォーマンスが低い RAG モデルをさらに置き換えると予想しています。 Google の処理方法は従来のアテンション メカニズムではありませんが、後者の処理複雑度は O(n^2) であり、Gemini 1.5 Pro ではキー値キャッシュ (KVCache) を保存するために数百 GB、場合によっては TB のメモリが必要です。 対照的に、Groq は、長いコンテキストの要件に直面した場合、Google、Nvidia、AMD などが使用する数十または数百のチップではなく、数万のチップで構成されるシステムを構築する必要があります。 4年後も、GPUは優れた柔軟性で新しいモデルを処理できると予測されます。しかし、ダイナミック ランダム アクセス メモリ (DRAM) を備えていない Groq の場合、モデル サイズが拡大し続けるとシステムの減価償却期間が短くなり、コストが大幅に増加する可能性があります。 課題2: 投機的復号化などの技術の急速な発展ツリー/ブランチ投機方式により、投機的デコードの速度が約 3 倍向上しました。 さらに実稼働レベルのシステムに効率的に導入すると、8 個の H100 の処理速度は 1 秒あたり 600 トークンに達し、Groq の速度の優位性は直接排除されます。 通常、投機的デコードでは、バッチ サイズが大きくなるため、浮動小数点演算パフォーマンス (FLOPS) と帯域幅効率をトレードする必要があります。この時点で、Groq は SRAM 帯域幅ではなく、主に FLOPS とネットワークによって制限されます。 課題3: Nvidiaのより強力なGPUが出荷される予定同時に、Nvidia がただ黙って打撃を受けるつもりはないことはもちろんです。 来月には、H100 の 2 倍以上のパフォーマンス/総所有コスト (TCO) を持つと噂されている B100 が発表され、今年後半に出荷が開始される予定です。同時に、NVIDIA は B200 と X/R100 の開発を急速に進めています。 それでも、Groq を数千個のチップを搭載したシステムに効果的に拡張できれば、パイプラインの数を大幅に増やすことができ、各パイプライン ステージの追加の静的ランダム アクセス メモリ (SRAM) によって、より多くのキー値キャッシュ用のスペースも確保できるため、10 を超える大規模なバッチ サイズが可能になり、コストを大幅に削減できる可能性があります。 アナリストたちは、これは確かに有望な方向性だが、実現の可能性は低いと考えている。 最後に、さらに重要な質問があります。柔軟な GPU を放棄して代わりに特殊なインフラストラクチャを構築する価値があるほど、高速応答の小型モデル推論の市場はどれくらい大きいのでしょうか。 |
<<: AIとRPA:両者の連携方法と、ビジネスに両方が必要な理由
>>: 「人と車のインタラクション」に新たなブレークスルー!パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム
機械学習とは何ですか?一般的なシナリオから始めましょう:ある日、マンゴーを買いに行ったところ、店員が...
12月1日、GoogleのDeepMindは最近、Nature誌で自社のAIツールGNoMEを披露し...
私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「...
10月10日、海外メディアの報道によると、Google Cloudは最近、医療従事者がさまざまな種類...
著名な情報機関IHS Markitは最近、Appleの自動車プロジェクトに関する簡潔かつ説得力のある...
最近、工業情報化省は2020年の我が国のロボット産業の運営状況を発表しました。データによると、202...
この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...
中国サイバースペース管理局と他の7つの部門が共同で発行した「生成人工知能サービスの管理に関する暫定措...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。し...
BI中国語ウェブサイトが6月28日に報じた。グーグルの主任人工知能(AI)科学者、フェイフェイ・リー...