大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

速すぎる、速すぎる。

一晩で遅延なく大規模なモデルが生成されます...このスピードをぜひ体験してください。

、再生時間 00:06

目が回りそうですよね?生成速度は1秒あたり500トークン近くあります。

また、より直感的なリスト比較機能も備わっており、従来のクラウド プラットフォーム ベンダーよりも最大 18 倍高速化できます。


(ここにはおなじみの人物、レプトンも登場します)

ネットユーザーたちはこう言った。「このスピードは、飛行機を飛ばすのと歩くのとでまったく同じだ。」

これは大企業の進歩ではないことは言うまでもない——

もともと Google の TPU チームの一員だったスタートアップ企業 Groq は、独自のチップをベースにした推論加速ソリューションを立ち上げました。 (これはマスク氏のGrokではないことに注意)

同社によれば、推論速度はNVIDIA GPUの10倍だが、コストは10分の1に削減されるという。

つまり、あらゆる大規模モデルを展開して実装できるということです。

現在、Mixtral 8x7B SMoE、Llama 2の7Bおよび70Bモデルをサポートしており、デモを直接体験できます。

彼らは公式サイトでもウルトラマンに呼びかけている。

君たちは物事を始めるのが本当に遅いね...

1秒あたり約500トークン

それなら、「史上最速の推論」として知られるGroqを体験してみましょう。

まず最初に、生成された品質は比較されないことを述べておきたいと思います。

自ら述べているように、コンテンツについては責任を負いません。

現在、デモ インターフェイスでは 2 つのモデルから選択できます。

Mixtral 8x7B-32k と GPT-4 を比較してみましょう。

プロンプト: あなたは小学生で、冬休みの宿題をまだ終えていません。 「インターステラー」についての500語のレビューを書いてください。

その結果、1 秒あたり 478 トークンの速度で、長い一連の読み取りメモがわずか 1.76 秒で生成されました。

ただし、内容は英語であり、読書ノートは360語強しかありません。しかし、私はすぐに、小学生がそんなにたくさん書けるはずがないと考えたからだと説明しました...

GPT-4 のパフォーマンスに関しては、当然ながらコンテンツの品質が向上し、思考プロセス全体も反映されます。しかし、完全に生成するまでに 30 秒以上かかりました。読書レビューのコンテンツを作成するだけで約 20 秒かかります。

デモに加えて、Groq は API アクセスをサポートし、完全な互換性を備えているため、OpenAI の API から直接簡単に切り替えることができます。

10日間無料でお試しいただけます。その期間中、100万トークンを無料で入手できます。

現在、Llama 2-70B と 7B がサポートされており、Groq は 4096 のコンテキスト長を実現でき、Mixtral 8x7B モデルもあります。もちろん、これらのモデルに限定されるわけではありません。Groq は特定のニーズに応じたカスタマイズをサポートします。

価格に関しては、市場の同価格よりも低くなることを保証します。

しかし、1 秒あたり 500 トークンは究極の速度ではないようです。達成可能な最速は 1 秒あたり 750 トークンです。

Google TPU チーム起業家プロジェクト

Groq は、ソフトウェアとハ​​ードウェアのサービスを統合した大規模モデル推論アクセラレーション ソリューションです。2016 年に設立され、創設チームのメンバーの多くは Google TPU のオリジナル メンバーです。

同社の経営陣10人のうち5人はGoogleで勤務し、3人はIntelで勤務した経験がある。

創設者兼 CEO の Jonathan Ross 氏は、第 1 世代 TPU チップのコア コンポーネントを設計および実装し、TPU の研究開発作業の 20% を完了しました。

Groq は GPU ルートを採用せず、代わりに世界初の L (言語) PU ソリューションを作成しました。

LPU の核となる秘密は、コンピューティング密度とメモリ帯域幅という 2 つの LLM ボトルネックを克服することです。最終的な LLM 推論パフォーマンスは、他のクラウド プラットフォーム ベンダーの 18 倍高速です。

以前の紹介によると、Nvidia GPU は応答でトークンを生成するために約 10 ジュールから 30 ジュールを必要としますが、Groq 設定ではトークンごとに約 1 ジュールから 3 ジュールが必要です。

そのため、推論速度は10倍に向上し、コストは10分の1に削減され、コストパフォーマンスは100倍向上しました。

レイテンシに関しては、70B モデルを実行する場合、最初のトークンを出力する際の遅延はわずか 0.22 秒です。

Groq のパフォーマンス レベルに適応するために、第三者評価機関 Artificial Analysis はチャートの座標軸を特別に調整しました。

Groqのチップは14nmプロセスを採用し、メモリ帯域幅を確保するために230MBの大容量SRAMを搭載していると報じられている。オンチップメモリ​​帯域幅は80TB/sに達する。

計算能力の面では、Gorq チップは整数 (8 ビット) 計算速度が 750TOP、浮動小数点 (16 ビット) 計算速度が 188TFLOP です。

Groq は主に同社が独自に開発した TSP アーキテクチャに基づいており、そのメモリ ユニットはベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされてお​​り、機械学習ワークロードの固有の並列性を活用して推論を高速化します。

各TSPは計算処理を実行すると同時に、ネットワーク交換機能も備えており、外部のネットワーク機器に頼ることなく、ネットワークを介して他のTSPと直接情報を交換できます。この設計により、システムの並列処理能力と効率が向上します。

新しく設計された Dragonfly ネットワーク トポロジと組み合わせることで、ホップ数が削減され、通信遅延が低減され、伝送効率がさらに向上します。同時に、ソフトウェア スケジューリング ネットワークにより、正確なフロー制御とパス プランニングが可能になり、システム全体のパフォーマンスが向上します。

Groq は、PyTorch や TensorFlow などの標準的な機械学習フレームワークによる推論をサポートしていますが、現在のところモデルのトレーニングはサポートしていません。

さらに、Groq はコンパイル プラットフォームとローカライズされたハードウェア ソリューションも提供していますが、詳細は紹介されていません。詳細を知りたい場合は、チームに連絡する必要があります。

サードパーティのウェブサイトでは、Groqチップを搭載したアクセラレータカードの価格は2万ドル以上、つまり約15万人民元です。

有名な電子部品メーカーであるMolexの子会社であるBittWare社が製造しています。この工場ではIntelやAMDのアクセラレータカードも製造しています。

現在、Groqの公式サイトでは募集中です。

技術職の年間給与は10万ドルから50万ドル、非技術職の年間給与は9万ドルから47万ドルです。

「目標は3年以内にNvidiaを追い抜くことだ」

さらに、この会社では、あらゆる大物たちに挑戦し、呼びかけるという活動も日々行われています。

GPT ストアがオープンしたとき、グロクはウルトラマンに向かって「GPT を使うのは夜遅くに戦争と平和を読むのと同じくらい遅い」と叫びました... 彼はとても皮肉でした〜

マスク氏はまた、自身の名前を「盗用した」として同社から批判された。

最近の話し合いでは、新たな動きがあったようだ。

Groq のスタッフを名乗るユーザーは、ネットユーザーとのやり取りの中で、Groq の目標は最速の大規模モデル ハードウェアを作成することだと述べ、次のように宣言しました。

3年以内にNvidiaを追い抜く。

今、黄院士の核兵器には新たな標的がある。

参考リンク:
[1] https://wow.groq.com/
[2] https://news.ycombinator.com/item?id=39428880

<<:  10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

>>:  10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

ブログ    

推薦する

ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

01 データサイエンスとは何ですか? データサイエンスは何をするのですか?まずはデータサイエンスの分...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

初の科学ニュース執筆ロボット「小科」が発売

[[272541]] 8月1日、初の科学ニュース執筆ロボット「小科」が正式に就任し、その最初の一連の...

...

生成 AI は SOC アナリストにどのような力を与えるのでしょうか?

今日のサイバーセキュリティの脅威がますます深刻化する中、セキュリティ オペレーション センター (S...

AIとブロックチェーンが壊れたサプライチェーンを修復する方法

2020年にコロナウイルス危機が発生した際、医療上の緊急事態に伴って、特に一部の医療機器に関して深刻...

世界経済フォーラムの報告: 5年以内に8,500万の仕事が機械に置き換えられる可能性がある

世界経済フォーラム(WEF)のウェブサイトが21日に報じたところによると、同組織はこのほど「仕事の未...

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング論文ダウンロ...

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

Deep Instinct の CIO である Carl Froggett 氏は、2024 年に予算...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

機械学習を学ぶ必要がない5つの理由

機械学習を学び始めるべきだと言うインフルエンサーが増えています。彼らの言うことを聞くべきでしょうか?...

...

...

IBMは5億行のコードデータセットをオープンソース化したが、最も人気のあるプログラミング言語はPythonではない

Google サービスには 20 億行のコードが含まれており、自動車システムには 1 億行のコードが...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...