ピカのような神レベルの起業家物語が再び起こるでしょうか? ハーバード大学を中退した2人の若者が、大規模言語モデルの高速化に特化したAIアクセラレータチップを開発したいと考えている。H100の10倍の推論性能を備え、2024年第3四半期に納品される予定。 今年6月、ギャビン・ウベルティ氏とクリス・チュー氏はEtched.aiを設立し、元eBay CEOのデビン・ウェニグ氏を含む複数のベンチャーキャピタル企業から536万ドルのシードラウンド投資を受けた。 同社の評価額は3,400万ドルにも上ります。 同社の公式サイトで公開されたデータによると、このチップはハードウェアレベルでTransformerアーキテクチャを統合し、NVIDIA H100と比較して推論速度を8〜10倍向上させるとのこと。 彼らは最初の LLM アクセラレーション チップを「Sohu」と名付け、数千語を数ミリ秒で処理できると主張しました。 このチップは、ツリー検索によるより優れたエンコードもサポートしており、数百の応答を並行して比較することができます。 また、リアルタイムで新しいコンテンツを生成できるマルチキャスト投機的デコードもサポートしています。 公式の詳細によると、このチップにはコアが 1 つしかありませんが、144GB の HBM3e ビデオ メモリが搭載されています。 - 完全にオープンソースのソフトウェアスタック、100Tパラメータモデルまで拡張可能 - ビームサーチとMCTSデコードをサポート - MoEとTransformerのさまざまなバリエーションをサポート ハーバード大学中退者2人が半導体業界トップ企業に挑戦2人は当初、ハーバード大学を1年間休学し、Apache TVMオープンソースコンパイラとマイクロカーネルを担当するチップ会社に就職する予定だった。 しかし、実際に仕事してみると、Arm の命令セットの一部の非効率的な設計によって作業効率が非常に悪くなることがわかりました。 この問題を体系的に解決する方法を考えたとき、彼らはこのアイデアを利用して、現在人気の AI 用の AI アクセラレーション チップを設計できることを発見しました。 創設者の一人である Uberti 氏の見解では、汎用設計では、同社が開発している独自のアクセラレーション チップがもたらすようなパフォーマンスの向上は達成できないとのことです。 「チップが AI タスクを処理できるようにするには、単一のアーキテクチャに多大な労力を費やす必要があります。目標が大きすぎます。より具体的なタスク向けにチップを設計する必要があります... Nvidia は最終的にこれを実行すると考えています。」 彼らの見解では、この市場機会は見逃せないほど大きい。 「4年前のGPT-2をMetaの最近のLlamaモデルと比較すると、違いはサイズと活性化関数の2つだけです。トレーニング方法に違いはありますが、それは推論にとって重要ではありません。」 Transformer の基本的なコンポーネントは固定されており、若干の違いはあるものの、短期的には Transformer に代わる新しいアーキテクチャが登場することを心配していないとのことです。 そこで彼らは、将来的に大規模モデル推論市場で NVIDIA などの一連のチップ大手と競争するために、Transformer アーキテクチャに基づく特定用途向け集積回路 (ASIC) を作ることを決定しました。 Etched.ai が発売する最初のチップは、H100 と比較して、単価あたりのスループット性能が 140 倍になると考えています。 まだ大学を卒業していない二人の学生が、チップ業界で最もホットな分野に挑戦できるのは、どのような背景があったからでしょうか。 創業者兼CEOのギャビン・ウベルティ氏は、2020年にハーバード大学に入学して以来、ハーバード大学以外でパートタイムで働いており、2022年末にEtched.aiを設立した。 大学入学前に、米国で最も有名な青少年科学技術イノベーションコンテストである FIRST Tech Challenge に参加し、彼のチームはトップ 10 賞を受賞しました。同チームが開発した自動運転ソフトウェアは、参加した600チームの中で第2位となった。 もう一人の創設者であるクリス・チュー氏もハーバード大学以外で多くのインターンシップを経験し、ハーバード大学を卒業する前には非常勤講師も務めていました。 AMD MI300X 対 NVIDIA H100NvidiaとAMDに関しては、最近争いがさらに激しくなっており、公式関係者もブログを書いてこの問題について議論している。 少し前に、AMD は最も強力な AI チップ MI300X を発売しました。 PPT では、8 台の MI300X で構成されたサーバーは、同じサイズの H100 よりも大規模モデル推論で最大 1.6 倍高速に実行できることが示されています。 AMD の場合、このような直接的な比較はまれです。 これに対してNvidiaはすぐにブログ記事を公開し、AMDの評価は偏っていると反論した。 Nvidia は、H100 GPU を最適化されたソフトウェアで適切にベンチマークすると、MI300X を大幅に上回るパフォーマンスを発揮すると述べています。 これに応えて、Nvidia は TensorRT-LLM 最適化設定を使用して Llama 2 70B 上の 2 つの GPU の比較を示しました。 記事アドレス: https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/ バッチサイズを1に設定すると、H100のパフォーマンスはMI300Xの2倍になることがわかります。 AMDと同じ2.5秒の遅延を使用した場合でも、H100のパフォーマンスはMI300Xの14倍にもなります。 Nvidiaは、AMDが使用する代替ソフトウェアはHopperのTransformer Engineをサポートしておらず、TensorRT-LLMの主要な最適化機能を無視していると述べた。これらはすべて GitHub で無料で入手できます。 AMDは弱点を見せていないこれを見て、AMDも「最適化が使われるのだから、みんな使うべきだ」という声明を出しました。 この場合でも、MI300X のパフォーマンスは H100 よりも 30% 優れています。 記事アドレス: https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304 具体的には: 1. 同じ vLLM FP16 設定を使用した場合、記者会見で示された 1.4 倍のパフォーマンスと比較して、AMD の最新の最適化により、この利点は 2.1 倍に拡大されました。 2. vLLM を使用する MI300X は、TensorRT-LLM で最適化された H100 と比較して、1.3 倍のレイテンシ改善を実現します。 3. 低精度 FP8 と TensorRT-LLM を使用する H100 と比較すると、vLLM と高精度 FP16 を使用する MI300X は絶対レイテンシの点でパフォーマンスが優れています。 AMDは、NvidiaがH100のベンチマークを行う際に、より広く使用されているvLLMではなく、独自の技術であるTensorRT-LLMを使用したと指摘した。 さらに、レイテンシに関して言えば、NVIDIA はスループット パフォーマンスのみに焦点を当てており、実際の作業におけるレイテンシの問題は無視しています。 最後に、AMD は、FP16 が非常に人気があり、vLLM が現在 FP8 をサポートしていないため、FP16 を使用することを選択したと述べました。 GPU戦争が激化AI アクセラレータの分野では、いくつかの企業が特定のワークロード向けの特化したアーキテクチャを持っています。 データセンターの専用アーキテクチャは主に DLRM (ディープラーニング推奨モデル) に重点を置いています。これは、GPU でこのようなタスクを高速化することが難しいためです。 Meta は最近、独自の DLRM 推論チップを開発し、それが広く導入されたことを発表しました。 Transformer アーキテクチャの高速化に関しては、NVIDIA は H100 GPU に Transformer Engine のソフトウェア機能を展開することでこれを実現します。 Transformer Engine は、さらなる量子化なしで LLM 推論を可能にし、GPU 推論 LLM の効果を大幅に加速します。 Etched.ai が行う必要があるのは、さらに一歩進んでこの設計をハードウェア レベルで完成させ、LLM の推論速度とエネルギー効率を向上させることです。 投資家が2人の学部中退者にこれほど多額の資金を投資する理由は、さらに重要なことに、これまでのところ、法学修士課程の費用が高すぎるため、革新の余地があるはずだと誰もが考えているからです。 このようなスタースタートアップ企業に加えて、伝統的な大手企業も大規模モデル推論市場に大きな期待を寄せています。 蘇馬氏は、将来的には大規模モデル推論市場の規模がモデルトレーニング市場よりもはるかに大きくなるだろうと、さまざまな機会に繰り返し述べています。そのため、AMD は自社製品がこの市場に完全に対応していることを強調してきました。 NvidiaとAMDが初めて自社製品の性能比較を公開したことからも判断すると、GPU分野での競争が激化していることは明らかだ。 現在、Nvidia は AMD からの挑戦に直面することに加えて、Intel と Cerebras の急速な進歩も考慮する必要があります。 12月14日には、CEOのパット・ゲルシンガー氏が、5nmプロセスを採用し、パフォーマンスが1.5倍向上したインテルの最新AIチップ、Gaudi 3を披露した。 前世代のGaudi 2と比較して、Gaudi 3のBFloat16パフォーマンスは4倍向上し、コンピューティングパワーは2倍に増加し、ビデオメモリ容量は50%増加して144GBになり、HBM3またはHBM3eを使用します。 同様に、Nvidia も来年初めに GH200 スーパーチップを発売する予定です。 競争の激しさを考えると、AMD は、同社の技術をデータセンターに統合する計画を発表している Microsoft、Meta、Oracle などの企業にとって代替候補となる可能性がある。 ゲルシンガー氏は、2027 年までに GPU 市場規模が驚異の 4,000 億ドルに達すると予測しており、これは間違いなく激しい競争の舞台となるでしょう。 セレブラス・システムズのCEO、アンドリュー・フェルドマン氏は、自身の野望を隠さず語った。「我々はNvidiaを追い抜くために懸命に取り組んでいます。来年までに、AIの計算能力を36エクサフロップスまで高めるつもりです。」 |
<<: AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド
>>: デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念
人工知能は、あらゆる種類の企業のバックオフィスに大きく浸透しつつあります。バックオフィスは、ビジネス...
モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...
大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...
機械学習は人工知能 (AI) の分野であり、データサイエンスはデータのクリーニング、準備、分析の分野...
[[186484]]昨年から半年以上機械学習を勉強してきましたが、そろそろ総括したいと思います。これ...
編集者注: 「水は船を運ぶこともできるが、転覆させることもできる。」この古いことわざは、誰もが知って...
人々は「ソフトウェア 2.0」の時代に入りつつあります。人工知能、ディープラーニング、機械学習、高度...
人工知能は、現在最もホットな産業であると言っても過言ではありません。最先端のテクノロジー企業から革新...
最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...
アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...
12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...
今日の社会では貧困がまだ存在しています。 [[275832]]国連開発計画(UNDP)のデータによる...