推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?

ハーバード大学を中退した2人の若者が、大規模言語モデルの高速化に特化したAIアクセラレータチップを開発したいと考えている。H100の10倍の推論性能を備え、2024年第3四半期に納品される予定。

今年6月、ギャビン・ウベルティ氏とクリス・チュー氏はEtched.aiを設立し、元eBay CEOのデビン・ウェニグ氏を含む複数のベンチャーキャピタル企業から536万ドルのシードラウンド投資を受けた。

同社の評価額は3,400万ドルにも上ります。

同社の公式サイトで公開されたデータによると、このチップはハードウェアレベルでTransformerアーキテクチャを統合し、NVIDIA H100と比較して推論速度を8〜10倍向上させるとのこと。

彼らは最初の LLM アクセラレーションチップを「Sohu」と名付け、数千語を数ミリ秒で処理できると主張しました。

このチップは、ツリー検索によるより優れたエンコードもサポートしており、数百の応答を並行して比較することができます。

また、リアルタイムで新しいコンテンツを生成できるマルチキャスト投機的デコードもサポートしています。

公式の詳細によると、このチップにはコアが 1 つしかありませんが、144GB の HBM3e ビデオメモリが搭載されています。

- 完全にオープンソースのソフトウェアスタック、100Tパラメータモデルまで拡張可能

- ビームサーチとMCTSデコードをサポート

- MoEとTransformerのさまざまなバリエーションをサポート

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

2人は当初、ハーバード大学を1年間休学し、Apache TVMオープンソースコンパイラとマイクロカーネルを担当するチップ会社に就職する予定だった。

しかし、実際に仕事してみると、Arm の命令セットの一部の非効率的な設計によって作業効率が非常に悪くなることがわかりました。

この問題を体系的に解決する方法を考えたとき、彼らはこのアイデアを利用して、現在人気の AI 用の AI アクセラレーションチップを設計できることを発見しました。

創設者の一人である Uberti 氏の見解では、汎用設計では、同社が開発している独自のアクセラレーションチップがもたらすようなパフォーマンスの向上は達成できないとのことです。

「チップが AI タスクを処理できるようにするには、単一のアーキテクチャに多大な労力を費やす必要があります。目標が大きすぎます。より具体的なタスク向けにチップを設計する必要があります... Nvidia は最終的にこれを実行すると考えています。」

彼らの見解では、この市場機会は見逃せないほど大きい。

「4年前のGPT-2をMetaの最近のLlamaモデルと比較すると、違いはサイズと活性化関数の2つだけです。トレーニング方法に違いはありますが、それは推論にとって重要ではありません。」

Transformer の基本的なコンポーネントは固定されており、若干の違いはあるものの、短期的には Transformer に代わる新しいアーキテクチャが登場することを心配していないとのことです。

そこで彼らは、将来的に大規模モデル推論市場で NVIDIA などの一連のチップ大手と競争するために、Transformer アーキテクチャに基づく特定用途向け集積回路 (ASIC) を作ることを決定しました。

Etched.ai が発売する最初のチップは、H100 と比較して、単価あたりのスループット性能が 140 倍になると考えています。

まだ大学を卒業していない二人の学生が、チップ業界で最もホットな分野に挑戦できるのは、どのような背景があったからでしょうか。

創業者兼CEOのギャビン・ウベルティ氏は、2020年にハーバード大学に入学して以来、ハーバード大学以外でパートタイムで働いており、2022年末にEtched.aiを設立した。

大学入学前に、米国で最も有名な青少年科学技術イノベーションコンテストである FIRST Tech Challenge に参加し、彼のチームはトップ 10 賞を受賞しました。同チームが開発した自動運転ソフトウェアは、参加した600チームの中で第2位となった。

もう一人の創設者であるクリス・チュー氏もハーバード大学以外で多くのインターンシップを経験し、ハーバード大学を卒業する前には非常勤講師も務めていました。

AMD MI300X 対 NVIDIA H100

NvidiaとAMDに関しては、最近争いがさらに激しくなっており、公式関係者もブログを書いてこの問題について議論している。

少し前に、AMD は最も強力な AI チップ MI300X を発売しました。

PPT では、8 台の MI300X で構成されたサーバーは、同じサイズの H100 よりも大規模モデル推論で最大 1.6 倍高速に実行できることが示されています。

AMD の場合、このような直接的な比較はまれです。

これに対してNvidiaはすぐにブログ記事を公開し、AMDの評価は偏っていると反論した。

Nvidia は、H100 GPU を最適化されたソフトウェアで適切にベンチマークすると、MI300X を大幅に上回るパフォーマンスを発揮すると述べています。

これに応えて、Nvidia は TensorRT-LLM 最適化設定を使用して Llama 2 70B 上の 2 つの GPU の比較を示しました。

記事アドレス: https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

バッチサイズを1に設定すると、H100のパフォーマンスはMI300Xの2倍になることがわかります。

AMDと同じ2.5秒の遅延を使用した場合でも、H100のパフォーマンスはMI300Xの14倍にもなります。

Nvidiaは、AMDが使用する代替ソフトウェアはHopperのTransformer Engineをサポートしておらず、TensorRT-LLMの主要な最適化機能を無視していると述べた。これらはすべて GitHub で無料で入手できます。

AMDは弱点を見せていない

これを見て、AMDも「最適化が使われるのだから、みんな使うべきだ」という声明を出しました。

この場合でも、MI300X のパフォーマンスは H100 よりも 30% 優れています。

記事アドレス: https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具体的には：

1. 同じ vLLM FP16 設定を使用した場合、記者会見で示された 1.4 倍のパフォーマンスと比較して、AMD の最新の最適化により、この利点は 2.1 倍に拡大されました。

2. vLLM を使用する MI300X は、TensorRT-LLM で最適化された H100 と比較して、1.3 倍のレイテンシ改善を実現します。

3. 低精度 FP8 と TensorRT-LLM を使用する H100 と比較すると、vLLM と高精度 FP16 を使用する MI300X は絶対レイテンシの点でパフォーマンスが優れています。

AMDは、NvidiaがH100のベンチマークを行う際に、より広く使用されているvLLMではなく、独自の技術であるTensorRT-LLMを使用したと指摘した。

さらに、レイテンシに関して言えば、NVIDIA はスループットパフォーマンスのみに焦点を当てており、実際の作業におけるレイテンシの問題は無視しています。

最後に、AMD は、FP16 が非常に人気があり、vLLM が現在 FP8 をサポートしていないため、FP16 を使用することを選択したと述べました。

GPU戦争が激化

AI アクセラレータの分野では、いくつかの企業が特定のワークロード向けの特化したアーキテクチャを持っています。

データセンターの専用アーキテクチャは主に DLRM (ディープラーニング推奨モデル) に重点を置いています。これは、GPU でこのようなタスクを高速化することが難しいためです。

Meta は最近、独自の DLRM 推論チップを開発し、それが広く導入されたことを発表しました。

Transformer アーキテクチャの高速化に関しては、NVIDIA は H100 GPU に Transformer Engine のソフトウェア機能を展開することでこれを実現します。

Transformer Engine は、さらなる量子化なしで LLM 推論を可能にし、GPU 推論 LLM の効果を大幅に加速します。

Etched.ai が行う必要があるのは、さらに一歩進んでこの設計をハードウェアレベルで完成させ、LLM の推論速度とエネルギー効率を向上させることです。

投資家が2人の学部中退者にこれほど多額の資金を投資する理由は、さらに重要なことに、これまでのところ、法学修士課程の費用が高すぎるため、革新の余地があるはずだと誰もが考えているからです。

このようなスタースタートアップ企業に加えて、伝統的な大手企業も大規模モデル推論市場に大きな期待を寄せています。

蘇馬氏は、将来的には大規模モデル推論市場の規模がモデルトレーニング市場よりもはるかに大きくなるだろうと、さまざまな機会に繰り返し述べています。そのため、AMD は自社製品がこの市場に完全に対応していることを強調してきました。

NvidiaとAMDが初めて自社製品の性能比較を公開したことからも判断すると、GPU分野での競争が激化していることは明らかだ。

現在、Nvidia は AMD からの挑戦に直面することに加えて、Intel と Cerebras の急速な進歩も考慮する必要があります。

12月14日には、CEOのパット・ゲルシンガー氏が、5nmプロセスを採用し、パフォーマンスが1.5倍向上したインテルの最新AIチップ、Gaudi 3を披露した。

前世代のGaudi 2と比較して、Gaudi 3のBFloat16パフォーマンスは4倍向上し、コンピューティングパワーは2倍に増加し、ビデオメモリ容量は50％増加して144GBになり、HBM3またはHBM3eを使用します。

同様に、Nvidia も来年初めに GH200 スーパーチップを発売する予定です。

競争の激しさを考えると、AMD は、同社の技術をデータセンターに統合する計画を発表している Microsoft、Meta、Oracle などの企業にとって代替候補となる可能性がある。

ゲルシンガー氏は、2027 年までに GPU 市場規模が驚異の 4,000 億ドルに達すると予測しており、これは間違いなく激しい競争の舞台となるでしょう。

セレブラス・システムズのCEO、アンドリュー・フェルドマン氏は、自身の野望を隠さず語った。「我々はNvidiaを追い抜くために懸命に取り組んでいます。来年までに、AIの計算能力を36エクサフロップスまで高めるつもりです。」

<<: AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

>>: デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ハーバード大学中退者2人が半導体業界トップ企業に挑戦

AMD MI300X 対 NVIDIA H100

AMDは弱点を見せていない

GPU戦争が激化

LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより

Google Project Ellman が Gemini AI モデルのシナリオを公開

Adobe、Adobe Experience Platform モバイルパッケージをリリース

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

顔認識アプリケーションの境界はどこにあるのでしょうか?

2024 年のデータテクノロジーのトレンド: 基礎モデルと機密コンピューティング

人工知能が医療をどのように改善できるか

インスパー・シャオ・シュエ：人工知能はモノのインターネットを「スマート」にする

米国の刑務所、受刑者の通話を分析するために人工知能を導入する計画

推薦する

2024年のテクノロジートレンド: AIは金融サービス企業のデジタル変革の実現に役立つ

人工知能には自由意志があるのでしょうか?

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

太陽光発電や風力発電に AI はメリットをもたらすのでしょうか?

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

浅いモデルから深いモデルへ: 機械学習最適化アルゴリズムの概要

劉強東：AIは今後20年間ですべての産業を変革する中核的な力となる

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

新しいニューラルネットワークモデルが登場：生成的敵対ネットワークよりも優れている

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

人工知能が世界を席巻し、人類はサイボーグへと向かう必要がある

ナノロボットは将来さまざまな場面で使用される可能性がある