大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

速すぎる、速すぎる。

一晩で遅延なく大規模なモデルが生成されます...このスピードをぜひ体験してください。

、再生時間 00:06

目が回りそうですよね？生成速度は1秒あたり500トークン近くあります。

また、より直感的なリスト比較機能も備わっており、従来のクラウドプラットフォームベンダーよりも最大 18 倍高速化できます。

（ここにはおなじみの人物、レプトンも登場します）

ネットユーザーたちはこう言った。「このスピードは、飛行機を飛ばすのと歩くのとでまったく同じだ。」

これは大企業の進歩ではないことは言うまでもない——

もともと Google の TPU チームの一員だったスタートアップ企業 Groq は、独自のチップをベースにした推論加速ソリューションを立ち上げました。（これはマスク氏のGrokではないことに注意）

同社によれば、推論速度はNVIDIA GPUの10倍だが、コストは10分の1に削減されるという。

つまり、あらゆる大規模モデルを展開して実装できるということです。

現在、Mixtral 8x7B SMoE、Llama 2の7Bおよび70Bモデルをサポートしており、デモを直接体験できます。

彼らは公式サイトでもウルトラマンに呼びかけている。

君たちは物事を始めるのが本当に遅いね...

1秒あたり約500トークン

それなら、「史上最速の推論」として知られるGroqを体験してみましょう。

まず最初に、生成された品質は比較されないことを述べておきたいと思います。

自ら述べているように、コンテンツについては責任を負いません。

現在、デモインターフェイスでは 2 つのモデルから選択できます。

Mixtral 8x7B-32k と GPT-4 を比較してみましょう。

プロンプト: あなたは小学生で、冬休みの宿題をまだ終えていません。「インターステラー」についての500語のレビューを書いてください。

その結果、1 秒あたり 478 トークンの速度で、長い一連の読み取りメモがわずか 1.76 秒で生成されました。

ただし、内容は英語であり、読書ノートは360語強しかありません。しかし、私はすぐに、小学生がそんなにたくさん書けるはずがないと考えたからだと説明しました...

GPT-4 のパフォーマンスに関しては、当然ながらコンテンツの品質が向上し、思考プロセス全体も反映されます。しかし、完全に生成するまでに 30 秒以上かかりました。読書レビューのコンテンツを作成するだけで約 20 秒かかります。

デモに加えて、Groq は API アクセスをサポートし、完全な互換性を備えているため、OpenAI の API から直接簡単に切り替えることができます。

10日間無料でお試しいただけます。その期間中、100万トークンを無料で入手できます。

現在、Llama 2-70B と 7B がサポートされており、Groq は 4096 のコンテキスト長を実現でき、Mixtral 8x7B モデルもあります。もちろん、これらのモデルに限定されるわけではありません。Groq は特定のニーズに応じたカスタマイズをサポートします。

価格に関しては、市場の同価格よりも低くなることを保証します。

しかし、1 秒あたり 500 トークンは究極の速度ではないようです。達成可能な最速は 1 秒あたり 750 トークンです。

Google TPU チーム起業家プロジェクト

Groq は、ソフトウェアとハードウェアのサービスを統合した大規模モデル推論アクセラレーションソリューションです。2016 年に設立され、創設チームのメンバーの多くは Google TPU のオリジナルメンバーです。

同社の経営陣10人のうち5人はGoogleで勤務し、3人はIntelで勤務した経験がある。

創設者兼 CEO の Jonathan Ross 氏は、第 1 世代 TPU チップのコアコンポーネントを設計および実装し、TPU の研究開発作業の 20% を完了しました。

Groq は GPU ルートを採用せず、代わりに世界初の L (言語) PU ソリューションを作成しました。

LPU の核となる秘密は、コンピューティング密度とメモリ帯域幅という 2 つの LLM ボトルネックを克服することです。最終的な LLM 推論パフォーマンスは、他のクラウドプラットフォームベンダーの 18 倍高速です。

以前の紹介によると、Nvidia GPU は応答でトークンを生成するために約 10 ジュールから 30 ジュールを必要としますが、Groq 設定ではトークンごとに約 1 ジュールから 3 ジュールが必要です。

そのため、推論速度は10倍に向上し、コストは10分の1に削減され、コストパフォーマンスは100倍向上しました。

レイテンシに関しては、70B モデルを実行する場合、最初のトークンを出力する際の遅延はわずか 0.22 秒です。

Groq のパフォーマンスレベルに適応するために、第三者評価機関 Artificial Analysis はチャートの座標軸を特別に調整しました。

Groqのチップは14nmプロセスを採用し、メモリ帯域幅を確保するために230MBの大容量SRAMを搭載していると報じられている。オンチップメモリ帯域幅は80TB/sに達する。

計算能力の面では、Gorq チップは整数 (8 ビット) 計算速度が 750TOP、浮動小数点 (16 ビット) 計算速度が 188TFLOP です。

Groq は主に同社が独自に開発した TSP アーキテクチャに基づいており、そのメモリユニットはベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされており、機械学習ワークロードの固有の並列性を活用して推論を高速化します。

各TSPは計算処理を実行すると同時に、ネットワーク交換機能も備えており、外部のネットワーク機器に頼ることなく、ネットワークを介して他のTSPと直接情報を交換できます。この設計により、システムの並列処理能力と効率が向上します。

新しく設計された Dragonfly ネットワークトポロジと組み合わせることで、ホップ数が削減され、通信遅延が低減され、伝送効率がさらに向上します。同時に、ソフトウェアスケジューリングネットワークにより、正確なフロー制御とパスプランニングが可能になり、システム全体のパフォーマンスが向上します。

Groq は、PyTorch や TensorFlow などの標準的な機械学習フレームワークによる推論をサポートしていますが、現在のところモデルのトレーニングはサポートしていません。

さらに、Groq はコンパイルプラットフォームとローカライズされたハードウェアソリューションも提供していますが、詳細は紹介されていません。詳細を知りたい場合は、チームに連絡する必要があります。

サードパーティのウェブサイトでは、Groqチップを搭載したアクセラレータカードの価格は2万ドル以上、つまり約15万人民元です。

有名な電子部品メーカーであるMolexの子会社であるBittWare社が製造しています。この工場ではIntelやAMDのアクセラレータカードも製造しています。

現在、Groqの公式サイトでは募集中です。

技術職の年間給与は10万ドルから50万ドル、非技術職の年間給与は9万ドルから47万ドルです。

「目標は3年以内にNvidiaを追い抜くことだ」

さらに、この会社では、あらゆる大物たちに挑戦し、呼びかけるという活動も日々行われています。

GPT ストアがオープンしたとき、グロクはウルトラマンに向かって「GPT を使うのは夜遅くに戦争と平和を読むのと同じくらい遅い」と叫びました... 彼はとても皮肉でした〜

マスク氏はまた、自身の名前を「盗用した」として同社から批判された。

最近の話し合いでは、新たな動きがあったようだ。

Groq のスタッフを名乗るユーザーは、ネットユーザーとのやり取りの中で、Groq の目標は最速の大規模モデルハードウェアを作成することだと述べ、次のように宣言しました。

3年以内にNvidiaを追い抜く。

今、黄院士の核兵器には新たな標的がある。

参考リンク:
[1] https://wow.groq.com/
[2] https://news.ycombinator.com/item?id=39428880

<<: 10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

>>: 10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

Microsoft PowerPoint は 11 月に Copilot を統合します: 数秒でプレゼンテーションを生成

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

1秒あたり約500トークン

Google TPU チーム起業家プロジェクト

「目標は3年以内にNvidiaを追い抜くことだ」

Microsoft PowerPoint は 11 月に Copilot を統合します: 数秒でプレゼンテーションを生成

ジェネレーティブAIの力を最大限に引き出す方法

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

「ブラック」AI | 新たなAIサイバー攻撃のトップ10をチェック

機械は倫理的な判断を下せるのか？

推薦する

ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

初の科学ニュース執筆ロボット「小科」が発売

生成 AI は SOC アナリストにどのような力を与えるのでしょうか?

AIとブロックチェーンが壊れたサプライチェーンを修復する方法

世界経済フォーラムの報告: 5年以内に8,500万の仕事が機械に置き換えられる可能性がある

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイムレンダリングフレームワーク

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

機械学習を学ぶ必要がない5つの理由

IBMは5億行のコードデータセットをオープンソース化したが、最も人気のあるプログラミング言語はPythonではない

優れたオープンソース音声認識エンジン13選