大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

速すぎる、速すぎる。

一晩で遅延なく大規模なモデルが生成されます...このスピードをぜひ体験してください。

、再生時間 00:06

目が回りそうですよね?生成速度は1秒あたり500トークン近くあります。

また、より直感的なリスト比較機能も備わっており、従来のクラウド プラットフォーム ベンダーよりも最大 18 倍高速化できます。


(ここにはおなじみの人物、レプトンも登場します)

ネットユーザーたちはこう言った。「このスピードは、飛行機を飛ばすのと歩くのとでまったく同じだ。」

これは大企業の進歩ではないことは言うまでもない——

もともと Google の TPU チームの一員だったスタートアップ企業 Groq は、独自のチップをベースにした推論加速ソリューションを立ち上げました。 (これはマスク氏のGrokではないことに注意)

同社によれば、推論速度はNVIDIA GPUの10倍だが、コストは10分の1に削減されるという。

つまり、あらゆる大規模モデルを展開して実装できるということです。

現在、Mixtral 8x7B SMoE、Llama 2の7Bおよび70Bモデルをサポートしており、デモを直接体験できます。

彼らは公式サイトでもウルトラマンに呼びかけている。

君たちは物事を始めるのが本当に遅いね...

1秒あたり約500トークン

それなら、「史上最速の推論」として知られるGroqを体験してみましょう。

まず最初に、生成された品質は比較されないことを述べておきたいと思います。

自ら述べているように、コンテンツについては責任を負いません。

現在、デモ インターフェイスでは 2 つのモデルから選択できます。

Mixtral 8x7B-32k と GPT-4 を比較してみましょう。

プロンプト: あなたは小学生で、冬休みの宿題をまだ終えていません。 「インターステラー」についての500語のレビューを書いてください。

その結果、1 秒あたり 478 トークンの速度で、長い一連の読み取りメモがわずか 1.76 秒で生成されました。

ただし、内容は英語であり、読書ノートは360語強しかありません。しかし、私はすぐに、小学生がそんなにたくさん書けるはずがないと考えたからだと説明しました...

GPT-4 のパフォーマンスに関しては、当然ながらコンテンツの品質が向上し、思考プロセス全体も反映されます。しかし、完全に生成するまでに 30 秒以上かかりました。読書レビューのコンテンツを作成するだけで約 20 秒かかります。

デモに加えて、Groq は API アクセスをサポートし、完全な互換性を備えているため、OpenAI の API から直接簡単に切り替えることができます。

10日間無料でお試しいただけます。その期間中、100万トークンを無料で入手できます。

現在、Llama 2-70B と 7B がサポートされており、Groq は 4096 のコンテキスト長を実現でき、Mixtral 8x7B モデルもあります。もちろん、これらのモデルに限定されるわけではありません。Groq は特定のニーズに応じたカスタマイズをサポートします。

価格に関しては、市場の同価格よりも低くなることを保証します。

しかし、1 秒あたり 500 トークンは究極の速度ではないようです。達成可能な最速は 1 秒あたり 750 トークンです。

Google TPU チーム起業家プロジェクト

Groq は、ソフトウェアとハ​​ードウェアのサービスを統合した大規模モデル推論アクセラレーション ソリューションです。2016 年に設立され、創設チームのメンバーの多くは Google TPU のオリジナル メンバーです。

同社の経営陣10人のうち5人はGoogleで勤務し、3人はIntelで勤務した経験がある。

創設者兼 CEO の Jonathan Ross 氏は、第 1 世代 TPU チップのコア コンポーネントを設計および実装し、TPU の研究開発作業の 20% を完了しました。

Groq は GPU ルートを採用せず、代わりに世界初の L (言語) PU ソリューションを作成しました。

LPU の核となる秘密は、コンピューティング密度とメモリ帯域幅という 2 つの LLM ボトルネックを克服することです。最終的な LLM 推論パフォーマンスは、他のクラウド プラットフォーム ベンダーの 18 倍高速です。

以前の紹介によると、Nvidia GPU は応答でトークンを生成するために約 10 ジュールから 30 ジュールを必要としますが、Groq 設定ではトークンごとに約 1 ジュールから 3 ジュールが必要です。

そのため、推論速度は10倍に向上し、コストは10分の1に削減され、コストパフォーマンスは100倍向上しました。

レイテンシに関しては、70B モデルを実行する場合、最初のトークンを出力する際の遅延はわずか 0.22 秒です。

Groq のパフォーマンス レベルに適応するために、第三者評価機関 Artificial Analysis はチャートの座標軸を特別に調整しました。

Groqのチップは14nmプロセスを採用し、メモリ帯域幅を確保するために230MBの大容量SRAMを搭載していると報じられている。オンチップメモリ​​帯域幅は80TB/sに達する。

計算能力の面では、Gorq チップは整数 (8 ビット) 計算速度が 750TOP、浮動小数点 (16 ビット) 計算速度が 188TFLOP です。

Groq は主に同社が独自に開発した TSP アーキテクチャに基づいており、そのメモリ ユニットはベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされてお​​り、機械学習ワークロードの固有の並列性を活用して推論を高速化します。

各TSPは計算処理を実行すると同時に、ネットワーク交換機能も備えており、外部のネットワーク機器に頼ることなく、ネットワークを介して他のTSPと直接情報を交換できます。この設計により、システムの並列処理能力と効率が向上します。

新しく設計された Dragonfly ネットワーク トポロジと組み合わせることで、ホップ数が削減され、通信遅延が低減され、伝送効率がさらに向上します。同時に、ソフトウェア スケジューリング ネットワークにより、正確なフロー制御とパス プランニングが可能になり、システム全体のパフォーマンスが向上します。

Groq は、PyTorch や TensorFlow などの標準的な機械学習フレームワークによる推論をサポートしていますが、現在のところモデルのトレーニングはサポートしていません。

さらに、Groq はコンパイル プラットフォームとローカライズされたハードウェア ソリューションも提供していますが、詳細は紹介されていません。詳細を知りたい場合は、チームに連絡する必要があります。

サードパーティのウェブサイトでは、Groqチップを搭載したアクセラレータカードの価格は2万ドル以上、つまり約15万人民元です。

有名な電子部品メーカーであるMolexの子会社であるBittWare社が製造しています。この工場ではIntelやAMDのアクセラレータカードも製造しています。

現在、Groqの公式サイトでは募集中です。

技術職の年間給与は10万ドルから50万ドル、非技術職の年間給与は9万ドルから47万ドルです。

「目標は3年以内にNvidiaを追い抜くことだ」

さらに、この会社では、あらゆる大物たちに挑戦し、呼びかけるという活動も日々行われています。

GPT ストアがオープンしたとき、グロクはウルトラマンに向かって「GPT を使うのは夜遅くに戦争と平和を読むのと同じくらい遅い」と叫びました... 彼はとても皮肉でした〜

マスク氏はまた、自身の名前を「盗用した」として同社から批判された。

最近の話し合いでは、新たな動きがあったようだ。

Groq のスタッフを名乗るユーザーは、ネットユーザーとのやり取りの中で、Groq の目標は最速の大規模モデル ハードウェアを作成することだと述べ、次のように宣言しました。

3年以内にNvidiaを追い抜く。

今、黄院士の核兵器には新たな標的がある。

参考リンク:
[1] https://wow.groq.com/
[2] https://news.ycombinator.com/item?id=39428880

<<:  10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

>>:  10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

ブログ    

推薦する

Transformer ではまだ注意が必要ですか?

ここ数週間、AI コミュニティでは、注意を必要としないアーキテクチャを使用して言語モデルを実装すると...

人工知能がビジネスを徐々に変えていく

確かに、人工知能(AI)主導のテクノロジーが人間を不要にするか否かをめぐる議論は、少なくともこの聴衆...

メタバースにおける責任ある AI: なぜ優先されるべきなのか?

AI研究者は人類と未来を守るために、仮想世界で責任あるAIを開発しなければなりません。人工知能のア...

顔を変える技術の悪用に対抗するため、Googleはディープフェイクと戦うための大規模なデータセットを公開

ディープフェイクの出現以来、多くの論争を引き起こし、多くの倫理的、社会的問題を引き起こしてきました。...

テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

機械学習分野のオープンデータセットにはどのようなものがあるでしょうか。Gengo は最近、高品質の無...

清華大学がJittorをオープンソース化:国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

Theano、Caffeに続き、大学主導のディープラーニングフレームワークがオープンソース化され、国...

...

...

...

WEF: 2023 年のトップ 10 新興テクノロジー

世界経済フォーラム(WEF)は毎年、世界経済と社会に大きな影響を与える可能性のあるトップイノベーショ...

...

2024年に注目すべき5つの持続可能な技術

今年が進むにつれて、持続可能な開発をめぐる話題はますます高まるばかりであり、気候変動が近づいていると...

...