マイクロソフト、Nvidia が 5300 億の NLP モデル「Megatron-Turing」をリリース、価格は A100 で 4480 台

マイクロソフト、Nvidia が 5300 億の NLP モデル「Megatron-Turing」をリリース、価格は A100 で 4480 台

[[428336]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

5300億のパラメータ!世界最大のNLPモデルが誕生しました。

これはMicrosoft と NVIDIAによって立ち上げられ、 Megatron Turing-NLG と呼ばれています

彼らによれば、この規模は世界最大であるだけでなく、最も強力な NLP モデルにもなります。

トレーニング プロセスでは合計4,480 個の NVIDIA A100 GPU が使用され、最終的に、テキスト予測、読解、常識的推論、自然言語推論、語義の曖昧さ解消など、さまざまな自然言語タスクでモデルが前例のない精度を達成できるようになりました。

GPT-3の3倍の大きさ

このモデルは MT-NLG と呼ばれ、Microsoft Turing NLGと Nvidia Megatron-LMの「後継」となります。

Turing NLG は、2020 年 2 月に 170 億のパラメータで Microsoft によってリリースされました。Megatron-LM は NVIDIA によって提供され、2019 年 8 月に 83 億のパラメータでリリースされました。

これらは、当時、最初と 2 番目に大きい Transformer アーキテクチャ モデルでした。

パラメータ サイズが大きい言語モデルの方が効果的であることは誰もが知っていますが、次のような言語モデルのトレーニングも困難です。

  • 最大の GPU でもこのサイズのパラメータを保存することはできません。
  • アルゴリズム、ソフトウェア、ハードウェア スタックの最適化に細心の注意を払わないと、必要な計算操作の数が多くなり、トレーニング時間が非常に長くなる可能性があります。

では、MT-NLG のパラメータが GPT-3 の 3 倍である場合、MT-NLG はこの問題をどのように解決するのでしょうか?

その答えは、両社の強みを生かし、NVIDIA の最先端の GPU アクセラレーション トレーニング機器と Microsoft の最先端の分散学習システムを統合して、トレーニング速度を向上させることです。

また、数千億のトークンを含むコーパスを構築し、効率性と安定性を最適化するためのトレーニング方法を共同で開発しました。

具体的には、NVIDIA の Megatron-LM モデルの GPU 並列処理と Microsoft のオープンソース分散トレーニング フレームワーク DeepSpeed を活用して、3D 並列システムが作成されました。

この記事の 5,300 億パラメータ モデルの場合、各モデル レプリカは 280 個の NVIDIA A100 GPU にまたがり、ノード内では Megatron-LM の 8 方向テンソル スライスを使用し、ノード間では 35 方向パイプライン並列処理を使用します。

次に、DeepSpeed のデータ並列処理を使用して、さらに数千の GPU に拡張します。

最後に、NVIDIA DGX SuperPOD をベースにした Selene スーパーコンピューターで混合精度トレーニングが完了しました。

(このスーパーコンピューターは560 台の DGX A100サーバーで稼働しており、各サーバーには8 基のNVIDIA A100 80GB Tensor Core GPU が搭載され、NVLink と NVSwitch を介して完全に相互接続されています。)

このモデルは、105 層、20480 個の隠し次元、128 個のアテンション ヘッドを備えた Transformer デコーダー アーキテクチャを使用します。

トレーニングに使用されたデータセットには、約 20 万冊の書籍のプレーンテキストデータセット Books3、質疑応答 Web サイトの Stack Exchange、Wikipedia、学術リソース Web サイトの PubMed Abstracts、ArXiv、Wikipedia、GitHub などが含まれます。これらはすべて、以前に構築された Pile データ セットから選択された高品質のサブセットです。

最終的に合計2,700億トークンが引き出されました。

5つのタスクの精度テスト

開発者は、次の 5 つのタスクで MT-NLG の精度をテストしました。

  • テキスト予測タスク LAMBADA では、モデルは指定された段落の最後の単語を予測する必要があります。
  • 読解タスク RACE-h および BoolQ では、モデルは指定された段落に基づいて質問に対する回答を生成する必要があります。
  • 常識推論タスク PiQA、HellaSwag、Winogrande では、各タスクでモデルにある程度の常識理解が求められます。
  • 自然言語推論については、ANLI-R2 と HANS という 2 つのハード ベンチマークで、以前のモデルの典型的な失敗ケースをテストします。
  • 語義の曖昧さ解消タスク WiC では、モデルが文脈から多義語を理解することが求められます。

その結果、モデルは PiQA 開発セットと LAMBADA テスト セットのゼロ ショット、ワン ショット、および少数ショットの設定で最高の結果を達成しました。

他のタスクでも最高の結果を獲得しました。

ベンチマーク タスクの概要メトリックを報告することに加えて、モデル出力の定性分析も提供し、シンボルが高度に難読化されている場合でも、モデルがコンテキストから基本的な数学演算を推測できることを観察します。

もちろん、モデルはデータからステレオタイプや偏見も抽出します。マイクロソフトとNVIDIAもこの問題に取り組んでいると述べた。

さらに、生産シナリオでの MT-NLG の使用は、出力コンテンツの悪影響を軽減するために Microsoft の「責任ある AI 原則」に準拠する必要があると述べていますが、モデルはまだ公開されていません。

<<:  ディープラーニングは物理システムのシミュレーションを変え、速度を最大20億倍に高めている。

>>:  人工知能は商業用不動産にどのような影響を与えるでしょうか?

ブログ    
ブログ    

推薦する

予測分析アルゴリズムを効果的に使用するための 10 のステップ

予測分析プロジェクトを成功させるには、ソフトウェアを導入してそれを使用してデータを分析するだけではあ...

...

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

...

自動運転チップの秘密を解明

インテリジェントコネクテッドビークル時代の到来により、自動運転技術が業界の注目を集めるようになりまし...

未来の都市: スマートテクノロジーが持続可能な革命をリードする方法

最近の急速な技術発展により、真のスマートシティの時代が近づいてきました。人工知能、クラウドおよびエッ...

...

電子商取引検索アルゴリズム技術の進化

2018年9月28日、アリババの電子商取引検索部門は「未来を探して推奨する」をテーマにした技術サミッ...

...

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。...

BaiduのHou Zhenyu氏:ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

12月20日、2023年百度クラウドインテリジェンスカンファレンスおよびインテリジェントコンピューテ...

データサイエンスと機械学習の違いは何ですか?

機械学習は人工知能 (AI) の分野であり、データサイエンスはデータのクリーニング、準備、分析の分野...

女性は人工知能によって職を失う可能性が高いのでしょうか?人工知能は本当に失業の波を引き起こすのでしょうか?

[[274542]]近年、職場における女性はあ​​らゆる方面から注目されています。女性が職場で真に...

人工知能の導入は、より費用対効果の高い臨床試験の新しい時代を告げるだろう

臨床試験はここ数年で大きく変化しました。医薬品や医療機器、そしてそれらが影響を与える対象となる症状が...

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...