Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

昨日、Lao Huangが再び「勝利」しました!

なぜ?最新の MLPerf ベンチマークでは、NVIDIA の H100 GPU チップセットが以下の 8 つのベンチマークすべてで新記録を樹立し、すべてのテストを完了した唯一のハードウェア プラットフォームとなったことが判明しました。

最新の MLPerf Training v3.0 には、生成 AI 機能に重点を置いた GPT-3 175B に基づく大規模言語モデル (LLM) テストが含まれていると報告されています。

画像ソース: MLPerf ベンチマーク。

LLM トレーニング テストでは、GPU アクセラレーションを専門とするクラウド コンピューティング サービス プロバイダーである CoreWeave が提供する NVIDIA HGX H100 インフラストラクチャも使用し、複数のスケールで LLM ワークロードを共同で送信しました。

結果は素晴らしいものでした。896個の Intel Xeon Platinum 8462Y と 3584 個の NVIDIA H100 チップの連携により、GPT-3 ベースの LLM トレーニング タスクがわずか 11 分で完了しました。

写真

突然、AIコミュニティは黄氏の勝利を喜ぶ声で満たされた。

しかし、これが本当に結果なのでしょうか?今日、誰かがこの件について疑問を呈しました。

まず、PyTorchの創設者であるSoumith Chintala氏は、GPT-3は11分ではトレーニングできないと考えていました。 GPT-3 アーキテクチャは、3584 個の H100 GPU を使用して、C4 データセットを 11 分でトレーニングし、対数確率は 2.69 でした。

ここでは「11 分」だけに注目しないでください。これは「ResNet-50 が 5 秒で MNIST (実際には CIFAR100 を意味していました) で 80% の精度にトレーニングされた」と言っているようなものです。

写真

Twitterユーザーの@abhi_venigallaさんも、生成AIスタートアップMosaicMLで働くSoumithさんの意見に賛同した。彼は、MLPerf ベンチマークで GPT-3 をトレーニングするのにかかる時間は 2 日になる可能性が高いと考えています。

彼の見解では、ベンチマークは完全な GPT-3 ではない。 MLPerf の LLM ベンチマークは開始チェックポイントのみを提供し、その後は目標損失に到達する必要があります。

したがって、GPT-3 を 11 分で実行するベンチマークは、3000 億トークン全体ではなく、12 億トークンのみをカバーします。また、540 TFLOPs/H100 に近いようで、構成からは FP8、約 27% MFU のようです。

しかし、H100 のソフトウェア ライフサイクルの初期段階であることを考えると、この規模でこのレベルのパフォーマンスを達成できたことは非常に驚くべきことだと彼は認めました。

写真

では、最新の MLPerf ベンチマークで GPT-3 が 11 分でトレーニングされたという主張は誤解なのでしょうか?コメント欄の友達も自分の意見を述べることができます。

<<:  LLaMA モデルは過去 3 か月間でどのように進化しましたか?指導の微調整の中心的な問題は何ですか?

>>:  1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

推薦する

無人運転車の現状はどうなっているのでしょうか?

私たちはここ数年、自動運転車について話し合い、議論してきました。しかし、道路上では見かけません。これ...

...

保存しておくべき機械学習チートシート 27 選

機械学習にはさまざまな側面があり、調査を始めたときに、特定のトピックの要点を簡潔にリストしたさまざま...

人工知能は医療をよりスマートにできるでしょうか?

人工知能といえば、実は誰もが知っている存在です。もはやSF映画のワンシーンではなく、私たちの生活にど...

...

...

...

人工知能時代の到来により、代替が難しい仕事はどれでしょうか?

現在、人類社会は人工知能の時代に入り、人工知能技術は生活のあらゆる分野で実証され、人類社会の継続的な...

2021年、人工知能は知的ではない

ガートナー曲線について聞いたことがあるかもしれません。新しい技術が初めて導入されたとき、誰も興味を示...

ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

人工知能が進歩するにつれて、AI ツールに対する需要も高まっています。特に GPT のような高度なツ...

新しいAIシステムが地震を正確に予測できるようになりました

科学者たちは地震を正確に予測できる人工知能(AI)システムを開発した。これは自然災害に備え、人命を救...

「象の鼻」ロボットが登場!ボトルキャップを開けたり、家事も問題なく行えます。

ロボットに対する従来の印象は、四角くて冷たい機械、または人間に似た機械ですが、柔らかいロボット、特に...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

DAYU200は自閉症の早期スクリーニング音声特徴フィルタリングおよび認識システムを運用しています

オープンソースの詳細については、以下をご覧ください。 51CTO オープンソース基本ソフトウェアコミ...