大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

速すぎる、速すぎる。

一晩で遅延なく大規模なモデルが生成されます...このスピードをぜひ体験してください。

、再生時間 00:06

目が回りそうですよね?生成速度は1秒あたり500トークン近くあります。

また、より直感的なリスト比較機能も備わっており、従来のクラウド プラットフォーム ベンダーよりも最大 18 倍高速化できます。


(ここにはおなじみの人物、レプトンも登場します)

ネットユーザーたちはこう言った。「このスピードは、飛行機を飛ばすのと歩くのとでまったく同じだ。」

これは大企業の進歩ではないことは言うまでもない——

もともと Google の TPU チームの一員だったスタートアップ企業 Groq は、独自のチップをベースにした推論加速ソリューションを立ち上げました。 (これはマスク氏のGrokではないことに注意)

同社によれば、推論速度はNVIDIA GPUの10倍だが、コストは10分の1に削減されるという。

つまり、あらゆる大規模モデルを展開して実装できるということです。

現在、Mixtral 8x7B SMoE、Llama 2の7Bおよび70Bモデルをサポートしており、デモを直接体験できます。

彼らは公式サイトでもウルトラマンに呼びかけている。

君たちは物事を始めるのが本当に遅いね...

1秒あたり約500トークン

それなら、「史上最速の推論」として知られるGroqを体験してみましょう。

まず最初に、生成された品質は比較されないことを述べておきたいと思います。

自ら述べているように、コンテンツについては責任を負いません。

現在、デモ インターフェイスでは 2 つのモデルから選択できます。

Mixtral 8x7B-32k と GPT-4 を比較してみましょう。

プロンプト: あなたは小学生で、冬休みの宿題をまだ終えていません。 「インターステラー」についての500語のレビューを書いてください。

その結果、1 秒あたり 478 トークンの速度で、長い一連の読み取りメモがわずか 1.76 秒で生成されました。

ただし、内容は英語であり、読書ノートは360語強しかありません。しかし、私はすぐに、小学生がそんなにたくさん書けるはずがないと考えたからだと説明しました...

GPT-4 のパフォーマンスに関しては、当然ながらコンテンツの品質が向上し、思考プロセス全体も反映されます。しかし、完全に生成するまでに 30 秒以上かかりました。読書レビューのコンテンツを作成するだけで約 20 秒かかります。

デモに加えて、Groq は API アクセスをサポートし、完全な互換性を備えているため、OpenAI の API から直接簡単に切り替えることができます。

10日間無料でお試しいただけます。その期間中、100万トークンを無料で入手できます。

現在、Llama 2-70B と 7B がサポートされており、Groq は 4096 のコンテキスト長を実現でき、Mixtral 8x7B モデルもあります。もちろん、これらのモデルに限定されるわけではありません。Groq は特定のニーズに応じたカスタマイズをサポートします。

価格に関しては、市場の同価格よりも低くなることを保証します。

しかし、1 秒あたり 500 トークンは究極の速度ではないようです。達成可能な最速は 1 秒あたり 750 トークンです。

Google TPU チーム起業家プロジェクト

Groq は、ソフトウェアとハ​​ードウェアのサービスを統合した大規模モデル推論アクセラレーション ソリューションです。2016 年に設立され、創設チームのメンバーの多くは Google TPU のオリジナル メンバーです。

同社の経営陣10人のうち5人はGoogleで勤務し、3人はIntelで勤務した経験がある。

創設者兼 CEO の Jonathan Ross 氏は、第 1 世代 TPU チップのコア コンポーネントを設計および実装し、TPU の研究開発作業の 20% を完了しました。

Groq は GPU ルートを採用せず、代わりに世界初の L (言語) PU ソリューションを作成しました。

LPU の核となる秘密は、コンピューティング密度とメモリ帯域幅という 2 つの LLM ボトルネックを克服することです。最終的な LLM 推論パフォーマンスは、他のクラウド プラットフォーム ベンダーの 18 倍高速です。

以前の紹介によると、Nvidia GPU は応答でトークンを生成するために約 10 ジュールから 30 ジュールを必要としますが、Groq 設定ではトークンごとに約 1 ジュールから 3 ジュールが必要です。

そのため、推論速度は10倍に向上し、コストは10分の1に削減され、コストパフォーマンスは100倍向上しました。

レイテンシに関しては、70B モデルを実行する場合、最初のトークンを出力する際の遅延はわずか 0.22 秒です。

Groq のパフォーマンス レベルに適応するために、第三者評価機関 Artificial Analysis はチャートの座標軸を特別に調整しました。

Groqのチップは14nmプロセスを採用し、メモリ帯域幅を確保するために230MBの大容量SRAMを搭載していると報じられている。オンチップメモリ​​帯域幅は80TB/sに達する。

計算能力の面では、Gorq チップは整数 (8 ビット) 計算速度が 750TOP、浮動小数点 (16 ビット) 計算速度が 188TFLOP です。

Groq は主に同社が独自に開発した TSP アーキテクチャに基づいており、そのメモリ ユニットはベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされてお​​り、機械学習ワークロードの固有の並列性を活用して推論を高速化します。

各TSPは計算処理を実行すると同時に、ネットワーク交換機能も備えており、外部のネットワーク機器に頼ることなく、ネットワークを介して他のTSPと直接情報を交換できます。この設計により、システムの並列処理能力と効率が向上します。

新しく設計された Dragonfly ネットワーク トポロジと組み合わせることで、ホップ数が削減され、通信遅延が低減され、伝送効率がさらに向上します。同時に、ソフトウェア スケジューリング ネットワークにより、正確なフロー制御とパス プランニングが可能になり、システム全体のパフォーマンスが向上します。

Groq は、PyTorch や TensorFlow などの標準的な機械学習フレームワークによる推論をサポートしていますが、現在のところモデルのトレーニングはサポートしていません。

さらに、Groq はコンパイル プラットフォームとローカライズされたハードウェア ソリューションも提供していますが、詳細は紹介されていません。詳細を知りたい場合は、チームに連絡する必要があります。

サードパーティのウェブサイトでは、Groqチップを搭載したアクセラレータカードの価格は2万ドル以上、つまり約15万人民元です。

有名な電子部品メーカーであるMolexの子会社であるBittWare社が製造しています。この工場ではIntelやAMDのアクセラレータカードも製造しています。

現在、Groqの公式サイトでは募集中です。

技術職の年間給与は10万ドルから50万ドル、非技術職の年間給与は9万ドルから47万ドルです。

「目標は3年以内にNvidiaを追い抜くことだ」

さらに、この会社では、あらゆる大物たちに挑戦し、呼びかけるという活動も日々行われています。

GPT ストアがオープンしたとき、グロクはウルトラマンに向かって「GPT を使うのは夜遅くに戦争と平和を読むのと同じくらい遅い」と叫びました... 彼はとても皮肉でした〜

マスク氏はまた、自身の名前を「盗用した」として同社から批判された。

最近の話し合いでは、新たな動きがあったようだ。

Groq のスタッフを名乗るユーザーは、ネットユーザーとのやり取りの中で、Groq の目標は最速の大規模モデル ハードウェアを作成することだと述べ、次のように宣言しました。

3年以内にNvidiaを追い抜く。

今、黄院士の核兵器には新たな標的がある。

参考リンク:
[1] https://wow.groq.com/
[2] https://news.ycombinator.com/item?id=39428880

<<:  10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。

>>:  10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

ブログ    
ブログ    

推薦する

...

Python はとても使いやすいです! AI初心者でもすぐに顔検出を体験

[[423040]] Pythonを使用してAI認識テストを実行します。具体的な方法は、リアルタイム...

グラフィカル分散コンセンサスアルゴリズム

本日の記事では、グラフを使用して分散一貫性の実装原則を深く研究し、理解します。まず、自己を見つめ直す...

...

最も人気のある 5 つの AI プログラミング言語

はじめに: AI 開発についてさらに詳しく知りたいですか? この記事では、AIプログラムを作成する際...

...

AIが物流とサプライチェーン管理をどう変えるか

今日の急速に変化し、ますますグローバル化が進む世界では、物流およびサプライ チェーン業界は、世界中で...

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

AIがソフトウェアエンジニアリングをどのように強化できるかについて知っておくべきことすべて

翻訳者 |李睿レビュー | Chonglou AI 拡張ソフトウェア エンジニアリングは、人工知能と...

アンドリュー・ン:ディープラーニングの知識を完全に説明する 22 枚の写真

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

自動運転技術は、人工知能、ビジュアルコンピューティング、レーダー、監視デバイス、全地球測位システムを...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

...

サイバーセキュリティの専門家は、悪意のあるAIが広がり始めると述べている

調査レポートによると、26%の人が、既知のサイバーセキュリティ対策のほとんどを回避できる悪意のあるA...

ACM 発表: 2017 年チューリング賞はチップ業界の巨匠 2 名に授与される

米国計算機協会(ACM)は、2017年のチューリング賞を、チップ業界の巨匠2名、スタンフォード大学元...