今日の人工知能分野では、「GPUがあれば十分」というのが徐々にコンセンサスになってきています。十分な GPU がなければ、OpenAI であっても ChatGPT を簡単にアップグレードすることはできません。 しかし、最近では、GPU の地位にも挑戦が迫っています。Groq というスタートアップ企業が、推論速度が NVIDIA GPU の 10 倍高速でありながら、コストが 10 分の 1 に削減された新しい AI プロセッサ LPU (Language Processing Unit) を開発しました。 あるデモンストレーションでは、LPU は 700 億のパラメータを持つオープンソースの大規模言語モデル Llama-2 を、1 秒あたり 100 フレーズを超える驚異的な速度で実行しました。次の図はその速度を示しています。人間の目の読み取り速度は、LPU 上のモデルの生成速度に追いつけないことがわかります。 さらに、Mixtral ではユーザーあたり 1 秒あたり約 500 トークンを達成し、その実力を発揮しました。 この画期的な進歩は、コンピューティングパラダイムの潜在的な変化を浮き彫りにしており、言語ベースのタスクを処理する際に、LPU が従来主流であった GPU に代わる、より効率的な特殊な選択肢を提供できる可能性があります。 しかし、アリババの元技術担当副社長でレプトンAIの創設者である賈陽青氏は、Groqの実際の導入コストは予想よりもはるかに高くなる可能性があるという分析を書いた。 Groq のメモリ容量は小さいため、同じモデル (LLaMA 70B) を実行するには少なくとも 305 枚の Groq カード (実際には 572 枚のカード) が必要ですが、Nvidia の H100 を使用する場合は 8 枚のカードしか必要ありません。現在の価格から判断すると、Groq のハードウェア コストは H100 の 40 倍、エネルギー消費コストは 10 倍です。 3年間運営した場合、Groqのハードウェア購入コストは1,144万ドル、運用コストは76万2,000ドル以上となる。 8 枚の H100 カードのハードウェア取得コストは 300,000 ドル、運用コストは 72,000 ドルまたはそれ以下です。したがって、Groq のパフォーマンスは優れていますが、コストとエネルギー消費にはまだ改善の余地があります。 さらに、Groq の LPU は汎用性が十分でなく、これも大きな弱点であり、短期的には Nvidia GPU の地位を揺るがすことは困難です。 以下では、LPU に関する一連の知識を紹介します。 LPUとは何ですか?LPU とは何でしょうか?どのように機能しますか? Groqの背景は何ですか? Groq の公式 Web サイトによると、LPU は「language processing unit」の略語です。これは、「AI 言語アプリケーションなどのシーケンシャル コンポーネントを備えた計算集約型アプリケーションに最速の推論を提供する、処理ユニットの新しいエンドツーエンド システム」です。 2016年にAlphaGoが世界チャンピオンのイ・セドルを破った歴史的な囲碁対局を覚えていますか?興味深いことに、この対決の1か月前に、AlphaGoは練習試合で負けていました。その後、DeepMind チームは AlphaGo を TPU に移行し、パフォーマンスが大幅に向上して大差で勝利しました。 この瞬間は、複雑なコンピューティングの可能性を最大限に引き出す上で処理能力が果たす重要な役割を示しています。これがきっかけとなり、もともと Google で TPU プロジェクトを率いていた Jonathan Ross 氏は 2016 年に Groq を設立し、LPU の開発につながりました。 LPU は、言語ベースの操作を迅速に処理するように独自に設計されています。複数のタスクを同時に処理する(並列処理)従来のチップとは異なり、LPU はタスクを順番に処理する(順次処理)ため、言語の理解と生成に非常に効果的です。 例え話で言えば、リレー競技では、各参加者 (チップ) がバトン (データ) を次の人に渡すことで、プロセスが大幅にスピードアップします。 LPU の具体的な目標は、計算密度とメモリ帯域幅の観点から大規模言語モデル (LLM) の 2 つの課題に対処することです。 Groq は当初からイノベーション戦略を採用しており、ハードウェア開発よりもソフトウェアとコンパイラのイノベーションを優先しています。このアプローチにより、プログラミングによってチップ間の通信をガイドできるようになり、生産ライン上のよく整備された機械のように、チップが協調して効率的に動作できるようになります。 その結果、LPU は言語タスクを迅速かつ効率的に管理することに優れており、テキストの解釈や生成を必要とするアプリケーションに最適です。この画期的な技術により、システムは従来の構成よりも高速になるだけでなく、コスト効率も向上し、エネルギー消費も削減されます。このような進歩は、高速かつ正確なデータ処理が重要な金融、政府、テクノロジーなどの業界にとって重要な意味を持ちます。 LPUの起源LPU アーキテクチャについて詳しく知りたい場合は、Groq が公開した 2 つの論文をお読みください。 最初のものは、2020 年の「Think Fast: ディープラーニング ワークロードを高速化する Tensor Streaming Processor (TSP)」です。この論文では、Groq は TSP と呼ばれるアーキテクチャを紹介しています。これは機能的にスライスされたマイクロアーキテクチャで、メモリ ユニットがベクトルおよびマトリックスのディープラーニング機能ユニットとインターリーブされ、ディープラーニング操作のデータ フローの局所性を活用します。 論文リンク: https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf 2つ目は、2022年の「大規模機械学習向けソフトウェア定義テンソルストリーミングマルチプロセッサ」です。この論文では、Groq が TSP 要素の大規模な相互接続ネットワーク向けの新しい商用ソフトウェア定義アプローチを紹介します。システム アーキテクチャには、TSP 相互接続ネットワークのパケット化、ルーティング、フロー制御が含まれます。 論文リンク: https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf 「LPU」は Groq の語彙の中では新しい用語のようで、どちらの論文にも登場しません。 しかし、今は GPU を放棄する時期ではありません。 LPU は推論タスクに優れており、トレーニング済みのモデルを新しいデータに簡単に適用できますが、モデルのトレーニング段階では依然として GPU が主流です。 LPU と GPU の相乗効果により、AI ハードウェア分野で強力なパートナーシップが生まれ、両者がそれぞれの分野で専門知識とリーダーシップを発揮します。 LPU 対 GPULPU と GPU を比較して、それぞれの長所と限界をより明確に理解してみましょう。 汎用性に優れたGPU グラフィックス プロセッシング ユニット (GPU) は、ビデオ ゲームのグラフィックスをレンダリングするという本来の目的を超えて進化し、人工知能や機械学習の取り組みにおける重要な要素となっています。そのアーキテクチャは並列処理能力の指標であり、数千のタスクを同時に実行します。 この機能は、並列化を必要とするアルゴリズムに特に有益であり、複雑なシミュレーションからディープラーニング モデルのトレーニングに至るまで、さまざまなタスクを効果的に加速できます。 GPU の汎用性も称賛に値する機能の 1 つです。AI だけでなく、ゲームやビデオ レンダリングなど、幅広いタスクを処理できます。並列処理機能により、ML モデルのトレーニングと推論フェーズが大幅に加速され、速度面で大きな利点が得られます。 ただし、GPU には制限がないわけではありません。高性能には大量のエネルギー消費が伴い、エネルギー効率に課題が生じます。さらに、GPU の一般的な設計は柔軟性があるものの、特定の AI タスクに対して常に最高の効率を提供するとは限らず、特殊なアプリケーションでは非効率になる可能性があることを示唆しています。 LPUは言語処理に優れている 言語処理ユニット (LPU) は AI プロセッサ技術の最先端を代表しており、その設計コンセプトは自然言語処理 (NLP) タスクに深く根ざしています。 GPU とは異なり、LPU は人間の言語を正確に理解して生成するために必要なシーケンス処理に最適化されています。この特殊化により、LPU は NLP アプリケーションで優れたパフォーマンスを発揮し、翻訳やコンテンツ生成などのタスクで汎用プロセッサを上回るパフォーマンスを発揮できるようになります。 LPU は言語モデルの処理に非常に効率的であり、NLP タスクの時間とエネルギー消費を削減する可能性があります。 しかし、LPU の専門化は諸刃の剣です。言語処理に優れているものの、応用範囲は狭い。これにより、より広範囲の AI タスクにわたる一般性が制限されます。さらに、LPU は新興技術であるため、コミュニティから広範なサポートをまだ受けておらず、可用性の面で課題に直面しています。しかし、時間が経ち、技術が徐々に導入されれば、将来的にはこれらのギャップは埋まるかもしれません。 Groq LPU は AI 推論の未来を変えるでしょうか?LPU と GPU をめぐる議論が高まっています。 Groqは昨年末、広報チームが同社を人工知能開発の主要プレーヤーと称して注目を集めた。 今年、同社が AI の誇大宣伝サイクルにおけるもう一つの一時的な瞬間を象徴しているかどうかについて、新たな関心が集まっています。誇大宣伝によって認知度が高まったように見えますが、同社の LPU は本当に AI 推論の革命的な前進を示すものなのでしょうか?特にハイテクハードウェア分野で大きな評価を得た後、同社の比較的小規模なチームの経験についても疑問が投げかけられている。 転換点となったのは、ソーシャルメディアへの投稿によって同社への関心が劇的に高まり、わずか1日で数千人が同社の技術の使い方を尋ねた時だった。同社の創設者らはビデオ通話でこれらの詳細を共有し、熱狂的な反応と、課金システムがないためこの技術を無料で提供するという現在の慣行を強調した。 同社の創設者たちは、シリコンバレーのスタートアップ・エコシステムでは馴染み深い人物だ。彼は2016年の創業以来、同社の技術の可能性を主張してきました。彼は以前、別の大手テクノロジー企業で重要なコンピューティング技術の開発に携わり、それが彼の新しいベンチャーの基盤を築きました。この経験は、当初からユーザー エクスペリエンスを重視し、チップの物理設計に移る前にソフトウェア ツールの開発に重点を置いた、同社のハードウェア開発に対する独自のアプローチを形成する上で非常に重要でした。 業界がこのようなイノベーションの影響を評価し続ける中、AI アプリケーションにおける計算手法を再定義する LPU の可能性は、AI テクノロジーの変革的な未来を告げる、説得力のある議論のポイントであり続けています。 |
海はなぜ青いのでしょうか?この古くて神秘的な疑問は常に人々の興味をそそってきました。論文「水関連の視...
長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...
AIの力は、医療紛争、化学合成、犯罪者識別、自動運転などの応用分野で拡大しています。 AI は現在何...
人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...
導入ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増...
[[335033]]決定木からニューラルネットワークへTL;DR: エントロピーはシステム内の混沌の...
破壊的技術により、CIO はこれまで以上に重要な役割を果たすようになっています。 CIO の役割は長...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[401604]]新型コロナウイルスによる混乱に対応するため、組織が急いでビジネスプロセスを適応...
人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...