Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

昨日、Lao Huangが再び「勝利」しました!

なぜ?最新の MLPerf ベンチマークでは、NVIDIA の H100 GPU チップセットが以下の 8 つのベンチマークすべてで新記録を樹立し、すべてのテストを完了した唯一のハードウェア プラットフォームとなったことが判明しました。

最新の MLPerf Training v3.0 には、生成 AI 機能に重点を置いた GPT-3 175B に基づく大規模言語モデル (LLM) テストが含まれていると報告されています。

画像ソース: MLPerf ベンチマーク。

LLM トレーニング テストでは、GPU アクセラレーションを専門とするクラウド コンピューティング サービス プロバイダーである CoreWeave が提供する NVIDIA HGX H100 インフラストラクチャも使用し、複数のスケールで LLM ワークロードを共同で送信しました。

結果は素晴らしいものでした。896個の Intel Xeon Platinum 8462Y と 3584 個の NVIDIA H100 チップの連携により、GPT-3 ベースの LLM トレーニング タスクがわずか 11 分で完了しました。

写真

突然、AIコミュニティは黄氏の勝利を喜ぶ声で満たされた。

しかし、これが本当に結果なのでしょうか?今日、誰かがこの件について疑問を呈しました。

まず、PyTorchの創設者であるSoumith Chintala氏は、GPT-3は11分ではトレーニングできないと考えていました。 GPT-3 アーキテクチャは、3584 個の H100 GPU を使用して、C4 データセットを 11 分でトレーニングし、対数確率は 2.69 でした。

ここでは「11 分」だけに注目しないでください。これは「ResNet-50 が 5 秒で MNIST (実際には CIFAR100 を意味していました) で 80% の精度にトレーニングされた」と言っているようなものです。

写真

Twitterユーザーの@abhi_venigallaさんも、生成AIスタートアップMosaicMLで働くSoumithさんの意見に賛同した。彼は、MLPerf ベンチマークで GPT-3 をトレーニングするのにかかる時間は 2 日になる可能性が高いと考えています。

彼の見解では、ベンチマークは完全な GPT-3 ではない。 MLPerf の LLM ベンチマークは開始チェックポイントのみを提供し、その後は目標損失に到達する必要があります。

したがって、GPT-3 を 11 分で実行するベンチマークは、3000 億トークン全体ではなく、12 億トークンのみをカバーします。また、540 TFLOPs/H100 に近いようで、構成からは FP8、約 27% MFU のようです。

しかし、H100 のソフトウェア ライフサイクルの初期段階であることを考えると、この規模でこのレベルのパフォーマンスを達成できたことは非常に驚くべきことだと彼は認めました。

写真

では、最新の MLPerf ベンチマークで GPT-3 が 11 分でトレーニングされたという主張は誤解なのでしょうか?コメント欄の友達も自分の意見を述べることができます。

<<:  LLaMA モデルは過去 3 か月間でどのように進化しましたか?指導の微調整の中心的な問題は何ですか?

>>:  1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

あなたの「顔」が格安で販売されています!顔認識に大きな抜け穴?

買い物のときに顔で支払いをしたり、顔で携帯電話のロックを解除したり、コミュニティに入るときにドアを開...

面接の質問に必ず読むべき一冊! Python のトップ 5 ソート アルゴリズムとその実装コード

ソートは、すべての IT エンジニアと開発者にとって不可欠な知識スキルです。コーディング面接に合格す...

...

...

過去20年間、Huilianは政府サービスにおけるグローバルインテリジェンスを実現してきました。

農業、工業、情報、知能、社会は常に進歩しています。長い発展の過程で、生産手段と生産ツールは常に変化し...

人工知能が不動産業界にもたらす変化

不動産業界は、住民、建築業者、住宅ローンブローカー、エージェント、請負業者を支援するために人工知能を...

中国のAI企業は世界の資金の70%を占めているが、その巨大なブームの裏には隠れた懸念がある

今年に入ってから、人工知能分野の発展は新たな盛り上がりを見せています。消費者レベルの人工知能アプリケ...

大きなモデルが必ずしも良いモデルとは限らない。小さな機械学習こそが未来だ

NASA の推進により、電子機器の小型化は消費者向け製品産業全体に広がりました。ベートーヴェンの全作...

すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

人工知能の「指紋採取」が検出困難な癌と闘う

検出が難しい膠芽腫などの癌の生存率は1桁ですが、早期治療には検出、治療、監視のための高度な技術が必要...

AI研究所が超大規模知能モデル「Wudao 1.0」をリリース

3月20日、北京人工知能研究院は超大規模知能モデル「五道1.0」を発表した。 「五道1.0」は中国初...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...

...

口の中に124個のセンサーを埋め込み、Google Glassの創設者の新プロジェクト:舌でメッセージを送信

不運なGoogle Glassはスマートデバイスの波の中で大きなインパクトを与えることはできなかった...