10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

モデルが GPT-3.5 のように数千億の規模に達すると、トレーニングと推論のための計算能力は一般的なスタートアップ企業には手が届かず、人々はそれを利用するのが非常に遅くなることが分かっています。

しかし、今週の時点で、その考えは過去のものとなった。

Groqというスタートアップ企業は、大規模な言語モデルタスクでGPUを上回るという機械学習プロセッサを開発した。NvidiaのGPUより10倍高速で、コストは10%、消費電力はわずか10分の1だ。

Groq 上で実行されている Llama 2 の速度は次のとおりです。

出典: https://twitter.com/emollick/status/1759633391098732967

Groq (Llama 2) と ChatGPT が同じプロンプトに直面したときの動作は次のとおりです。

画像ソース: https://x.com/JayScambler/status/1759372542530261154?s=20

信じられないかもしれませんが、これは事実です。興味のある方はぜひ試してみてください。

現在、Groq の公式 Web サイトでは、以下のモデルの試用版を提供しています。

公式サイトアドレス：https://groq.com/

Groq のプロセッサは LPU (Language Processing Unit) と呼ばれ、シーケンシャルコンポーネント (LLM など) を備えた計算集約型アプリケーションに極めて高速な推論速度を提供できる、新しいタイプのエンドツーエンドの処理ユニットシステムです。

駆動する大規模モデルの速度は、前例のない 500 トークン/秒に達し、極めて低いレイテンシを実現します。

ハードウェアを使用してソフトウェアを高速化すると、常に大きなパワーと空飛ぶレンガのような感覚が人々に与えられます。 Groq は、最先端のオープンソースモデル Mixtral も LPU 上で実行しており、数百語を含む事実に基づいた参照付きの回答を 1 秒未満で返します (時間の 4 分の 3 は検索に費やされています)。

Groq が公開したデモビデオで、誰かが次のようにコメントしました。「これは速すぎます。こんなに速いはずはありません。」

そのため、一部のネットユーザーは、大きなモデルはコンテンツを生成する速度が速すぎるため、ユーザーエクスペリエンスの観点から、人間の目が追いつけないため、ページを自動的にめくるのはやめるべきだ、という提案をした。

おそらく、LPU のサポートにより、生成 AI は 2 年以内に検索エンジンに大きな脅威を与えることになるでしょう。これは Gartner が最近予測したとおりです。よく考えてみると、それは確かに合理的です。結局のところ、ニューラルネットワークは GPU の計算能力の発達によって注目されるようになったのです。

なぜそんなに速いのでしょうか?

GPU は数百のコアによる並列処理用に設計されており、主にグラフィックレンダリングに使用されますが、LPU のアーキテクチャは AI コンピューティングに確定的なパフォーマンスを提供するように設計されていると分析する人もいます。

LPU のアーキテクチャは、GPU で使用される SIMD (単一命令、複数データ) モデルとは異なり、複雑なスケジューリングハードウェアを必要としない、より合理化されたアプローチを採用しています。この設計により、すべてのクロックサイクルを効率的に利用でき、一貫したレイテンシとスループットが保証されます。

エネルギー効率は、GPU に対する LPU のもう一つの注目すべき利点です。複数のスレッドの管理に関連するオーバーヘッドを削減し、コアの未使用を回避することで、LPU はワットあたりの計算能力を高め、より環境に優しい代替手段として位置付けられます。

Groq のチップ設計により、GPU クラスターに見られる従来のボトルネックなしに複数の TSP を接続できるため、非常にスケーラブルになります。これにより、LPU が追加されるにつれてパフォーマンスが線形に拡張され、大規模 AI モデルのハードウェア要件が簡素化され、開発者はシステムの再設計を行わずにアプリケーションを簡単に拡張できるようになります。

A100 や H100 が比較的不足している時代に、LPU は大規模モデルの開発者にとって新たな選択肢となるかもしれません。

Groqは2016年に設立されました。同社の創設チームはGoogle出身で、かつてはGoogleが自社開発したAIチップのテンソルプロセッシングユニットTPUシリーズを設計していました。公式サイトによると、Groq の創設者兼 CEO である Jonathan Ross 氏は、かつて TPU の作業の 20% を担当していたそうです。

ジョナサン・ロス。

昨年の高性能コンピューティングカンファレンス SC23 で、Groq は LPU 上で LLM を実行することで世界最高の低レイテンシパフォーマンスを実証しました。当時、Groq は 1 秒あたり 280 トークンを超える速度で応答を生成することができ、Llama-2 70B 推論のパフォーマンス記録を更新しました。

Groq は今年 1 月に初めて公開ベンチマークに参加し、Anyscale の LLMPerf リーダーボードで他のクラウドベースの推論プロバイダーをはるかに上回る優れた結果を達成しました。

画像ソース: https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file

人工知能はテクノロジーの世界に旋風を巻き起こしました。 2023 年は世界が AI が現実のものとなることを認識する年になるかもしれません。そして 2024 年は AI が単なる仮説ではなく現実のものとなる年になるでしょう。これはジョナサン・ロスがかつて指摘した点です。

100 万トークンのコンテキストを備えた Gemini Pro 1.5、1 秒あたり 500 トークンの推論速度を備えた Groq、さらに優れた推論機能を備えた GPT-5 があるのに、夢はまだ遠いのでしょうか?

<<: 大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

>>: さらに混沌です！ソラになりすました実在の人物の動画がすでに存在し、ウィル・スミスがパスタを食べながらミームを演じる

ブログ

10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

私たちが作ったAIは私たちを裏切るでしょうか？

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

ロボットインテリジェント把持システム：いくつかの主流ソリューション

2021年のスマートシティの変革と再構築のトレンド

傲慢か偏見か？AIはあなたの美的観念に影響を与えていますか？

人工知能の新たな潮流をどう捉えるべきか？

超人工知能を制御できるアルゴリズムはあるのでしょうか？

推薦する

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

ディープラーニングがインターネットにパーソナライゼーションをもたらす仕組み

openKylinオペレーティングシステムが正式に発表され、ビッグモデルに接続し、音声アシスタントとデスクトッププラグインを提供します

人工知能（AI）時代に誰もが身につけるべき9つのソフトスキル

プラグアンドプレイ、完璧な互換性：SDコミュニティのビデオプラグインI2Vアダプタが登場

uSens 馬源宇: 人工知能と仮想現実が出会うとき

ボストンスポットのミニバージョンを実現するための 3000 行のコード: 殺せないゴキブリになりたい!

2021 年のテクノロジートレンドはどこに向かうのでしょうか? IEEEが答えを教えます

AIは病気の予防に役立つ

Google AI機能のアップグレードにより、ユーザーはテキストプロンプトに基づいて直接画像を作成できるようになります。

香港科技大学のタン・ピン氏のチームが3D生成における重要な問題を突破し、多頭モンスターの出現を防止

アクセラレーションクラウドが新製品を発売、異種コンピューティングアクセラレーションプラットフォームがAIと高性能コンピューティングのビジネスニーズに効果的に対応