GPT-4より18倍高速、世界最速の大型モデルGroqが登場！毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

気がつくと、1 秒あたり 500 トークンを出力できる Groq モデルがインターネット上に広まっていました。

まさに「世界最速のLLM」と言えるでしょう！

比較すると、ChatGPT-3.5 は 1 秒あたり 40 トークンしか生成しません。

一部のネットユーザーは、単純なコードデバッグ問題を完了するのにどれくらいの時間がかかるかを調べるために、GPT-4 や Gemini と比較しました。

予想外にも、Groq は出力速度が Gemini の 10 倍、GPT-4 の 18 倍と、両者を完全に圧倒しました。（しかし、回答の質という点では、Gemini の方が優れています。）

誰でも無料で使えるのが一番の魅力です！

Groq のホームページにアクセスすると、現在、Mixtral8x7B-32k、Llama 270B-4k の 2 つのモデルから選択できます。

アドレス: https://groq.com/

同時に、Groq API も開発者に提供されており、OpenAI API と完全に互換性があります。

Mixtral 8x7B SMoEは480トークン/Sに達することができ、100万トークンの価格は0.27ドルです。極端な場合、Llama2 7B は 750 トークン/S を達成することもできます。

現在、100万トークンの無料トライアルも提供しています。

Groq の突然の人気の最大の要因は GPU ではなく、自社開発の LPU (言語処理ユニット) です。

1 枚のカードには 230 MB のメモリしかなく、価格は 20,000 ドルです。 LLM タスクでは、LPU は NVIDIA の GPU よりも 10 倍高速です。

最近のベンチマークテストでは、Groq LPU 推論エンジンで実行される Llama 2 70B がリストのトップに直接ランクされ、その LLM 推論パフォーマンスはトップクラウドプロバイダーの 18 倍高速でした。

ネットユーザーによるデモ

Groq のロケットのような生成速度は多くの人々に衝撃を与えました。

ネットユーザーたちは独自のデモを公開した。

1 秒以内に、引用付きの数百語の事実に基づいた回答を生成します。

実際、コンテンツ生成ではなく、検索が処理時間の 4 分の 3 以上を占めています。

「簡単なフィットネスプランを作成」という同じプロンプトに対して、Groq と ChatGPT は異なる速度で並んで応答しました。

300 語を超える「巨大な」プロンプトに直面した Groq は、1 秒もかからずにジャーナル記事の予備的なアウトラインと執筆計画を作成しました。

Groq はリモートおよびリアルタイムの AI 会話を完全に実現します。 GroqInc ハードウェア上で Llama 70B を実行し、ほぼ遅延なしで Whisper に送信します。

GPUはもう存在しないのですか?

Groq モデルが非常に迅速に応答できる理由は、その背後にある会社である Groq (同名) が LPU と呼ばれる独自のハードウェアを開発したためです。

そうではありません。従来の GPU です。

つまり、Groq は Tensor Streaming Processor (TSP) と呼ばれる新しい処理ユニットを開発し、それを「言語処理ユニット」、つまり LPU として定義しました。

これは、グラフィックレンダリング専用に設計された並列プロセッサであり、数百個のコアを備えており、AI コンピューティングに安定したパフォーマンスを提供できます。

論文アドレス: https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

具体的には、LPU の動作原理は GPU の動作原理とはまったく異なります。

これは Temporal Instruction Set Computer アーキテクチャを使用しているため、高帯域幅メモリ (HBM) を使用する GPU ほど頻繁にメモリからデータをロードする必要がありません。

この機能は、HBM 不足の問題を回避するだけでなく、コストを効果的に削減するのにも役立ちます。

この設計により、すべてのクロックサイクルを効果的に活用できるため、安定したレイテンシとスループットが保証されます。

エネルギー効率の面でも、LPU は利点を発揮します。マルチスレッド管理のオーバーヘッドを削減し、コアリソースの未使用を回避することで、LPU はワットあたりの計算パフォーマンスを向上させることができます。

現在、Groq は、PyTorch、TensorFlow、ONNX など、モデル推論用のさまざまな機械学習開発フレームワークをサポートしています。ただし、LPU 推論エンジンを使用した ML トレーニングはサポートされていません。

一部のネットユーザーは、「Groq の LPU は、リクエストと応答の処理において Nvidia の GPU よりも高速である」とさえ言っています。

高速データ転送に依存する Nvidia GPU とは異なり、Groq の LPU はシステム内で高帯域幅メモリ (HBM) を使用しません。

これは、GPU で使用されるメモリよりも約 20 倍高速な SRAM を使用します。

AI 推論計算にはモデルトレーニングよりもはるかに少ないデータが必要であることを考えると、Groq の LPU はよりエネルギー効率に優れています。

推論タスクを実行する際、外部メモリから読み取るデータが少なくなり、Nvidia の GPU よりも消費電力が少なくなります。

LPU では、GPU のようにストレージ速度に対する要件はそれほど高くありません。

Groq の LPU を AI 処理シナリオで使用する場合、Nvidia GPU 用に特別なストレージソリューションを構成する必要はない可能性があります。

Groq の革新的なチップ設計により、複数の TSP をシームレスに接続できるようになり、GPU クラスターでよくあるボトルネックの問題を回避し、スケーラビリティを大幅に向上させます。

つまり、LPU を追加するとパフォーマンスが直線的に拡張され、大規模 AI モデルのハードウェア要件が簡素化され、開発者はシステムをリファクタリングすることなくアプリケーションをより簡単に拡張できるようになります。

Groq は、強力なチップとソフトウェアを通じて、同社の技術が推論タスクにおける GPU の役割を置き換えることができると主張しています。

ネットユーザーによる具体的なスペックの比較表。

これらは一体何を意味するのでしょうか?

開発者にとって、これはパフォーマンスを正確に予測して最適化できることを意味し、リアルタイム AI アプリケーションにとって非常に重要です。

将来の AI アプリケーションサービスでは、LPU は GPU に比べて大幅なパフォーマンスの向上をもたらす可能性があります。

A100 と H100 が非常に不足していることを考えると、このような高性能な代替ハードウェアを保有することは、間違いなくスタートアップにとって大きな利点となります。

現在、OpenAIは、自社製品の拡張時に計算能力が不足するという問題に対処するため、独自のチップを開発するために世界中の政府や投資家から7兆ドルの資金を調達しようとしている。

スループットは2倍、応答速度はわずか0.8秒

少し前に、ArtifialAnalysis.ai の LLM ベンチマークテストで、Groq のソリューションが 8 つの主要パフォーマンス指標を上回りました。

これらには、レイテンシとスループットの違い、時間の経過に伴うスループット、合計応答時間、スループットなどが含まれます。

右下隅の緑の象限では、Groq が最高の結果を達成しました。

出典: ArtificialAnalysis.ai

Llama 2 70B は Groq LPU 推論エンジンで最高のパフォーマンスを発揮し、1 秒あたり 241 トークンのスループットを達成します。これは他の主要メーカーの 2 倍以上です。

総応答時間

Groq は応答時間も最も短く、100 個のトークンを受信してからの出力時間はわずか 0.8 秒です。

さらに、Groq は複数の内部ベンチマークを実行し、1 秒あたり 300 トークンに到達でき、再び新しい速度基準を設定しました。

GroqのCEO、ジョナサン・ロス氏はかつてこう語った。「Groqは『持つ者と持たざる者』の区別をなくし、AIコミュニティの全員の発展を支援するために存在します。開発者のアイデアをビジネスソリューションや人生を変えるようなアプリに変えるにはスピードが鍵となるため、推論はこの目標を達成するための鍵となります。」

カードの価格は 20,000 ドルで、メモリ容量は 230 MB です。

すでにお気づきかもしれませんが、LPU カードには 230 MB のメモリしかありません。

しかも価格は2万ドル以上。

The Next Platform によると、上記のテストでは、Groq は実際に 576 個の GroqChip を使用して Llama 2 70B での推論を実現しました。

一般的に、GroqRack には 9 つのノードが装備されており、そのうち 8 つがコンピューティングタスクを担当し、残りの 1 つのノードはバックアップとして使用されます。しかし今回は、9 つのノードすべてが計算作業に使用されました。

これに対してネットユーザーは、Groq LPUが直面している主な問題は、高帯域幅メモリ（HBM）をまったく搭載しておらず、HBM3よりも20倍高速な超高速スタティックランダムアクセスメモリ（SRAM）の小さなブロック（230MiB）のみを搭載していることだと述べた。

つまり、単一の AI モデルの実行をサポートするには、フル装備のサーバーラック 4 つに相当する約 256 個の LPU を構成する必要があります。各ラックには 8 つの LPU ユニットを収容でき、各ユニットには 8 つの LPU が含まれます。

対照的に、これらのモデルをかなり効率的に実行するには、H200 が 1 台 (サーバーラックの密度の 1/4 に相当) だけが必要です。

この構成は、1 つのモデルのみを実行する必要があり、多数のユーザーがいる場合に適しています。ただし、複数のモデルを同時に実行する必要がある場合、特にモデルの微調整を大量に実行したり、高レベルの LoRA 操作を使用する必要がある場合は、この構成は適していません。

さらに、ローカル展開が必要な状況では、Groq LPU の構成上の利点は明らかではありません。主な利点は、複数のユーザーが同じモデルを使用するように集中できることです。

別のネットユーザーは、「Groq LPU には HBM がないようです。各チップには基本的に少量の SRAM が搭載されています。つまり、Llama 70B を実行するには約 256 個のチップが必要なのでしょうか?」とコメントしています。

予想外に、私は公式の返答を受け取りました。「はい、私たちの LLM は数百個のチップで動作します。」

LPU カードの価格に対して、「これでは製品が H100 よりも途方もなく高価になるのでは?」と異議を唱える人もいます。

ムスク・グロク、同音異義語だが文字が違う

少し前に、Groq はベンチマークテストの結果を公表して大きな注目を集めました。

今回、最新の AI モデルである Groq が、その高速な応答性と GPU に代わる可能性のある新技術により、再びソーシャルメディアで旋風を巻き起こしました。

しかし、Groq の背後にある会社は、ビッグモデル以降の新興企業ではありません。

2016年に設立され、Groqという名前を直接登録しました。

CEO 兼共同創設者の Jonathan Ross 氏は、Groq を設立する前は Google の従業員でした。

20% プロジェクトでは、後に Google の Tensor Processing Unit (TPU) となる第 1 世代 TPU チップのコア要素を設計および実装しました。

その後、ロス氏は Google X (有名な「ムーンファクトリー」プロジェクトの初期段階) の迅速評価チームに参加し、Google の親会社である Alphabet の新しい Bets (ユニット) の設計と育成に取り組みました。

おそらくほとんどの人は、マスク氏の Grok および Groq モデルの名前に混乱しているだろう。

実際、マスク氏にこの名前の使用を思いとどまらせようとした際にちょっとしたエピソードがあった。

昨年11月、マスク氏の名を冠したAIモデル「Grok」（綴りは様々）が注目を集め始めたとき、Groqの背後にあるチームはブログ記事を公開し、マスク氏に別の名前を選ぶようユーモラスに求めた。

私たちの名前が気に入ってくださる理由がわかります。あなたは高速なもの（ロケット、ハイパーループ、1 文字の会社名など）が大好きです。当社の Groq LPU 推論エンジンは、LLM やその他の生成 AI アプリケーションを実行するための最速の方法です。しかし、名前をすぐに変更していただくようお願いしなければなりません。

しかし、マスク氏は2つのモデルの名前の類似性についてはコメントしなかった。

<<: ジェミニはソラの動画がAI生成だと一目でわかるのか？数百万のトークンのコンテキスト機能がGPT-4を圧倒

>>: