MLPerfの結果が発表され、中国のAIチップ企業が再び世界第1位に！大規模モデル推論の3つのカテゴリーで優勝し、H100を超えるパフォーマンスを達成

ChatGPT などの AIGC アプリケーションが大規模なモデルの波を引き起こすにつれて、インフラストラクチャとしてのコンピューティングパワーレイヤーが最初に恩恵を受ける業界になりました。

しかし、高い計算能力要件や高コストなどの問題は、企業が大規模モデルを実装する際の共通の悩みとなり、AIの発展を制限する可能性が高まっています。大規模モデルのパラメータが増加する一方で、計算能力供給のボトルネックが差し迫っており、大きな矛盾が生じています。

大規模モデル向けのより優れたコンピューティングソリューションをどのように探求するかは、業界の共通の焦点です。

最近、世界的に権威のある評価機関MLPerfが最新の推論評価結果を発表しました。MLPerfがGPT大規模モデル推論テストを導入するのは今回が初めてです。参加熱は新記録を樹立し、NVIDIA、Intel、Google、Qualcommなどの企業から13,500件を超えるパフォーマンス結果が提出されました。

MLPerf Inference 3.1 では、Moffet AI S30 コンピューティングカードが、大規模モデル GPT-J (60 億パラメータ) の単一カード、4 枚カード、8 枚カードのコンピューティング能力で 1 位にランクされました。

MoXin が MLPerf でタイトルを防衛するのは今回で 3 回目です。

MoXin はこれまで、MLPerf Inference 2.0 および 2.1 で 2 年連続 1 位を獲得しています。

Moxin S30 コンピュートカード

MoXin の成果は、大規模モデルコンピューティングソリューションに実現可能な革新的な方向性をもたらしました。

AI モデルとコンピューティングプラットフォームを組み合わせたソフトウェアとハードウェアの共同イノベーションにより、より大きなコンピューティング能力の可能性を引き出せることが事実によって証明されています。これは、スパースコンピューティングに代表される革新的な技術が、大規模モデルの時代におけるコンピューティングパワーの発展の鍵となることを改めて裏付けています。

MoXin は MLPerf オープンパーティションに参加しました。主催者の MLCommons によると、このパーティションはイノベーションを促進することを目的としています。したがって、参加者はソフトウェアとハードウェアの連携を通じてコンピューティング能力を向上させる方法を模索できます。

MLPerfのGPT-J大規模モデルでは、4nm H100純粋なハードウェアアクセラレーションソリューションと比較して、12nm Moxin S30コンピューティングカードは、「独自のデュアルスパースアルゴリズム+ハードウェアコラボレーション」アプローチを通じて最大1.8倍の利点を達成しました。

このテストで評価された GPT-J モデルは、生成 AI モデルです。MoXin S30 コンピューティングカードの 8 カード、4 カード、シングルカードモードのパフォーマンスはそれぞれ 170.59、91.57、23.28 (サンプル/秒) で、NVIDIA H100 のパフォーマンスの 1.6 倍、1.8 倍、1.8 倍であり、MoXin 製品の AIGC タスクにおける能力を実証しています。

3度目の優勝を果たし、大型コンピューティングパワーで初めて「論文を提出」し、ソフトウェアとハードウェアの連携で革新を続けています。MoXinの製品力はMLPerfによって何度も厳しくテストされており、大型コンピューティングパワーの開発の新たな道も模索しています。

スパースコンピューティング: 大規模モデルの「潜在的在庫」が市場で認知される

MoXin の継続的な優れた成果は、主にスパースアルゴリズムに基づくソフトウェアとハードウェアの共同設計によるものです。

大規模モデルの時代において、スパースコンピューティングの重要性は自明です。AI モデルのサイズは、そのスパース化の可能性に比例します。

つまり、モデルが大きくなるほど、アルゴリズムのスパース性が高まる可能性が高くなり、スパースコンピューティングの高速化の度合いが高くなります。一般的な大規模言語モデルの場合、スパースコンピューティングによって数十倍の高速化が実現できます。

MoXin 独自のデュアルスパースアルゴリズムとソフトウェアとハードウェアの共同設計を組み合わせることで、MoXin の Antoum® チップは最大 32 倍のスパース性をサポートする世界初の高スパース AI チップとなり、これがこの MLPerf における MoXin の記録破りのパフォーマンスの鍵でもあります。

モデルが大きくなるほど、スパースコンピューティングの利点は明らかになります。特に、GPT などの大規模モデルのパラメーターが数百億、数千億に簡単に達する現在の状況では、MoXin の堀はより強固になります。

MoXin の製品の強みとスパースコンピューティングの一般的な傾向も業界で認められており、 MoXin の商用化プロセスは重要なブレークスルーを次々と実現し、企業の AI アプリケーションの加速に貢献しています。

つい最近、MoXin は正式に Byte MLPerf をサポートするサプライヤーの 1 つになりました。

出典: Byte MLPerf ウェブサイト

プロジェクトアドレス: https://github.com/bytedance/ByteMLPerf/blob/main/README.md

現在、MoXin AI コンピューティングプラットフォームは、BLOOM、OPT、GPT-J、LLaMA、StableDiffusion など、さまざまなパラメーターレベルの大規模モデルをサポートできます。

同時に、高スループット、低レイテンシ、低消費電力という特性を備えており、コンピューティングパワーの難しさが軽減され、企業に真に「使いやすく」「手頃な価格」な大規模コンピューティングパワーソリューションをもたらします。

スパースコンピューティングはコンピューティング能力に根本的な変化をもたらし、大規模モデルの開発に役立ちます。

MoXin のスパースコンピューティングソリューションは、現在のコンピューティング能力の問題を軽減するだけでなく、AI の継続的な開発のための新たな空間を切り開きます。

スパースコンピューティングは、AIモデルに必要な計算量を削減します。つまり、大規模なモデルでは、過度な計算量を発生させることなく、パラメータの数を数桁増やすことができます。大規模なモデルパラメータの増加と計算能力のボトルネックの矛盾が根本的に解決されると期待されます。

同時に、計算能力の削減により、高い計算能力要件、高い電力消費、高コストなどの大規模モデルの問題点も解決され、「win-win」効果が得られます。

Moxin Antoumチップ：最大32倍のスパースをサポートする世界初の高スパースAIチップ

3回連続のMLPerfsの優れた結果は、MoXin製品の強さを証明するだけでなく、業界に新たなインスピレーションをもたらします。スパースコンピューティングなどのテクノロジーの助けを借りて、大規模モデルの開発と応用により、より広い表示スペースがもたらされ、AIGCやその他のアプリケーションのあらゆる分野への応用が加速されると期待されています。

MLPerfについて

MLPerf は、チューリング賞受賞者の David Patterson 氏と、Google、スタンフォード大学、ハーバード大学などのトップクラスの学術機関によって開始されました。急速に拡大する AI コンピューティングのニーズとパフォーマンスをタイムリーに追跡および評価する、最も権威があり影響力のある国際的な AI パフォーマンスベンチマークです。

<<:

>>: ミュンヘンモーターショーからのシグナル：自動車メーカーがOS開発に躍起になり、中国の力が増す