650 億パラメータの大規模モデルの事前トレーニング ソリューションは、リリース時にオープン ソースになります。 従来のソリューションと比較して、トレーニング速度が 38% 向上します。 これは、Colossal-AI がリリースした最新の LLaMA のような基本的な大規模モデル事前トレーニング ソリューションです。 ご存知のとおり、「百機種戦争」の文脈では、自社の大型機種を所有している企業が、コア競争力としてみなされることが多いのです。 現時点では、大規模なモデルをオープンソース化することに意欲的な企業はほとんどありません。 しかし、大規模なモデルをゼロからトレーニングするには、高度な技術と資金が必要です。 したがって、Colossal-AI の最新のオープンソースへの取り組みは、時代のニーズに応えたものと言えるでしょう。 また、商用利用に制限はなく、箱から出してすぐに使用するために必要な手順は 4 つだけです。 プロジェクトの具体的な内容は何ですか?一緒に見下ろしましょう〜 オープンソースアドレス: https://github.com/hpcaitech/ColossalAI 32枚のA100/A800写真が使用可能実際、Meta が LLaMA をオープンソース化して以来、Alpaca、Vicuna、ColossalChat など、その基盤の上に構築された一連の微調整プロジェクトの波が起こっています。 しかし、 LLaMA はモデルの重みをオープンソース化しているだけで、商用利用は制限されています。微調整によって改善および注入できる知識と機能も比較的限られています。 ビッグモデルの波に本当に参加したい企業にとって、自社の中核となるビッグモデルをトレーニングすることが非常に重要です。 オープンソース コミュニティも、次のような一連の作業に貢献しています。
しかし、これだけでは十分ではありません。最も主流の PyTorch + GPU エコシステムでは、効率的で信頼性が高く、使いやすい LLaMA のような基本的な大規模モデルの事前トレーニング ソリューションがまだ不足しているからです。 そこで Colossal-AI は最新のオープンソース ソリューションを提出しました。 650 億パラメータの LLaMA のようなモデルの事前トレーニングを完了するには、わずか 32 個の A100/A800 のみが必要で、トレーニング速度が 38% 向上します。 ただし、ネイティブ PyTorch、FSDP などは、ビデオ メモリのオーバーフローのためタスクを実行できません。 Hugging Face accelerate、DeepSpeed、Megatron-LM も LLaMA 事前トレーニングを公式にはサポートしていません。 すぐに使える、4つのステップで開始そして、このプロジェクトは実際に始めるのがとても簡単です。次の 4 つの手順があります。
具体的なコードは次のとおりです。 最初のステップは、Colossal-AI をインストールすることです。 ステップ 2: 他の依存関係をインストールします。 ステップ 3: データセット。 デフォルトのデータセット togethercomputer/RedPajama-Data-1T-Sample は、最初の実行時に自動的にダウンロードされます。 -dまたは--datasetを使用してカスタム データセットを指定することもできます。 ステップ 4: コマンドを実行します。 7B および 65B の速度テスト スクリプトが提供されています。実際のハードウェア環境に応じて、使用する複数のノードのホスト名を設定するだけで、パフォーマンス テストを実行できます。 実際の事前トレーニングタスクでは、速度テストと同じ方法を使用して、4 ノード * 8 カードを使用して 65B モデルをトレーニングするなど、対応するコマンドを開始します。 Colossal-AI gemini_auto 並列戦略を使用すると、マルチマシンおよびマルチグラフィックカードの並列トレーニングを簡単に実装でき、高速トレーニングを維持しながらビデオメモリの消費を削減できます。 ハードウェア環境や実際のニーズに応じて、パイプライン並列処理 + テンソル並列処理 + ZeRO1 などの複雑な並列戦略の組み合わせを選択することもできます。 その中で、Colossal-AI の Booster プラグインを使用すると、ユーザーは Low Level ZeRO、Gemini、DDP などの並列戦略を選択するなど、並列トレーニングを簡単にカスタマイズできます。 勾配チェックポイントは、バックプロパゲーション中にモデルのアクティベーションを再計算することでメモリ使用量を削減します。 計算を高速化し、ビデオ メモリを節約するために、Flash アテンション メカニズムが導入されました。ユーザーは、コマンド ライン パラメータを使用して数十の類似したカスタム パラメータを簡単に制御できるため、カスタム開発の柔軟性を維持しながら高いパフォーマンスを維持できます。 Colossal-AI の最新の ShardFormer は、LLM の多次元並列トレーニングの開始にかかるコストを大幅に削減します。 現在、LLaMA を含むさまざまな主流モデルをサポートし、Huggingface/transformers モデル ライブラリをネイティブにサポートしています。 モデルを変更することなく、多次元並列処理(パイプライン、テンソル、ZeRO、DDP など)のさまざまな構成の組み合わせをサポートし、さまざまなハードウェア構成で優れたパフォーマンスを実現できます。 Colossal-AI: 大規模モデルシステムのためのインフラストラクチャ上記の新しい取り組みをもたらした Colossal-AI は、現在、大規模モデルのトレンドの下でスター開発ツールおよびコミュニティとなっています。 前述の Colossal-AI ソリューションは、Fortune 500 企業で使用されています。このソリューションは、1,000 枚のカードのクラスターで優れたパフォーマンスを発揮し、数千億のパラメータを持つ大規模なプライベート モデルの事前トレーニングをわずか数週間で完了できます。 上海AIラボとSenseTimeが最近リリースしたInternLMも、Colossal-AIに基づいてQiankaで効率的な事前トレーニングを実現します。 Colossal-AIはオープンソースリリース以来、GitHubホットリストで何度も世界1位を獲得し、3万以上のGitHubスターを獲得し、SC、AAAI、PPoPP、CVPR、ISCなどトップクラスの国際AIおよびHPCカンファレンスの公式チュートリアルに選ばれました。何百もの企業がColossal-AIエコシステムの構築に参加しています。 これは、カリフォルニア大学バークレー校の著名な教授であるジェームズ・デメル氏と、シンガポール国立大学の大統領若手教授であるユー・ヤン氏によって開発されました。 Colossal-AI は PyTorch をベースにしています。効率的な多次元並列処理と異種メモリにより、大規模な AI モデルのトレーニング/微調整/推論の開発およびアプリケーション コストを削減し、GPU 要件を削減することに重点を置いています。 それを運営するLuchen Technology社は最近、シリーズAの資金調達で数億元を調達し、設立から18か月以内に3回の資金調達を連続して完了した。 オープンソース アドレス: https://github.com/hpcaitech/ColossalAI。 参考リンク: https://www.hpc-ai.tech/blog/large-model-pretraining. |
>>: 人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?
[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知...
人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...
[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[373618]] 5Gの商用利用、人工知能、スマートシティ、スマートホーム、自動運転車、無人スー...
翻訳者 | ブガッティレビュー | Chonglou AIチャットボットの人気が急上昇しています。チ...
[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...
「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはス...
米国現地時間の水曜日、人気の短編動画プラットフォーム「TikTok」(Douyinの海外版)のCEO...
最近、マッキンゼーは「人工知能:次のデジタルフロンティア?」と題した80ページのレポートを発表し、人...
物語の主人公は中国人のソフトウェアエンジニア、エリック・ユーです。 2016年、Google、Met...
今年 7 月、OpenAI は強力なプラグインである Code Interpreter をリリースし...
近年、「オープンソース」は開発者コミュニティにおける新たなトレンドとなっています。特にディープラーニ...
長い間、肉体的に過酷で危険な仕事が特徴とされてきた石油産業は、変革を遂げつつある。この変化は、通信技...