650 億のパラメータを持つ大規模モデルの事前トレーニング ソリューションは、オープン ソースであり、市販されています。スターオープンソースプロジェクトによる LLaMA トレーニング速度が 38% 向上

650 億のパラメータを持つ大規模モデルの事前トレーニング ソリューションは、オープン ソースであり、市販されています。スターオープンソースプロジェクトによる LLaMA トレーニング速度が 38% 向上

650 億パラメータの大規模モデルの事前トレーニング ソリューションは、リリース時にオープン ソースになります。

従来のソリューションと比較して、トレーニング速度が 38% 向上します。

これは、Colossal-AI がリリースした最新の LLaMA のような基本的な大規模モデル事前トレーニング ソリューションです。

ご存知のとおり、「百機種戦争」の文脈では、自社の大型機種を所有している企業が、コア競争力としてみなされることが多いのです。

現時点では、大規模なモデルをオープンソース化することに意欲的な企業はほとんどありません。

しかし、大規模なモデルをゼロからトレーニングするには、高度な技術と資金が必要です。

したがって、Colossal-AI の最新のオープンソースへの取り組みは、時代のニーズに応えたものと言えるでしょう。

また、商用利用に制限はなく、箱から出してすぐに使用するために必要な手順は 4 つだけです。

プロジェクトの具体的な内容は何ですか?一緒に見下ろしましょう〜

オープンソースアドレス: https://github.com/hpcaitech/ColossalAI

32枚のA100/A800写真が使用可能

実際、Meta が LLaMA をオープンソース化して以来、Alpaca、Vicuna、ColossalChat など、その基盤の上に構築された一連の微調整プロジェクトの波が起こっています。

しかし、 LLaMA はモデルの重みをオープンソース化しているだけで、商用利用は制限されています。微調整によって改善および注入できる知識と機能も比較的限られています。

ビッグモデルの波に本当に参加したい企業にとって、自社の中核となるビッグモデルをトレーニングすることが非常に重要です。

オープンソース コミュニティも、次のような一連の作業に貢献しています。

  • RedPajama: オープンソースの商用 LLaMA のようなデータセット(トレーニング コードとモデルなし)
  • OpenLLaMA: JAX と TPU に基づく EasyLM でトレーニングされた、オープンソースの商用 LLaMA のような 7B/13B モデル
  • Falcon: オープンソースの商用 LLaMA のような 7B/40B モデル(トレーニング コードなし)

しかし、これだけでは十分ではありません。最も主流の PyTorch + GPU エコシステムでは、効率的で信頼性が高く、使いやすい LLaMA のような基本的な大規模モデルの事前トレーニング ソリューションがまだ不足しているからです。

そこで Colossal-AI は最新のオープンソース ソリューションを提出しました。

650 億パラメータの LLaMA のようなモデルの事前トレーニングを完了するには、わずか 32 個の A100/A800 のみが必要で、トレーニング速度が 38% 向上します。

ただし、ネイティブ PyTorch、FSDP などは、ビデオ メモリのオーバーフローのためタスクを実行できません。

Hugging Face accelerate、DeepSpeed、Megatron-LM も LLaMA 事前トレーニングを公式にはサポートしていません。

すぐに使える、4つのステップで開始

そして、このプロジェクトは実際に始めるのがとても簡単です。次の 4 つの手順があります。

  • 1. Colossal-AIをインストールする
  • 2. その他の依存関係をインストールする
  • 3. データセット
  • 4. コマンドを実行する

具体的なコードは次のとおりです。

最初のステップは、Colossal-AI をインストールすることです。

 git clone -b example/llama https://github.com/hpcaitech/ColossalAI.git cd ColossalAI # install and enable CUDA kernel fusion CUDA_EXT=1 pip install .

ステップ 2: 他の依存関係をインストールします。

 cd examples/language/llama # install other dependencies pip install -r requirements.txt # use flash attention pip install xformers

ステップ 3: データセット。

デフォルトのデータセット togethercomputer/RedPajama-Data-1T-Sample は、最初の実行時に自動的にダウンロードされます。 -dまたは--datasetを使用してカスタム データセットを指定することもできます。

ステップ 4: コマンドを実行します。

7B および 65B の速度テスト スクリプトが提供されています。実際のハードウェア環境に応じて、使用する複数のノードのホスト名を設定するだけで、パフォーマンス テストを実行できます。

 cd benchmark_65B/gemini_auto bash batch12_seq2048_flash_attn.sh

実際の事前トレーニングタスクでは、速度テストと同じ方法を使用して、4 ノード * 8 カードを使用して 65B モデルをトレーニングするなど、対応するコマンドを開始します。

 colossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a

Colossal-AI gemini_auto 並列戦略を使用すると、マルチマシンおよびマルチグラフィックカードの並列トレーニングを簡単に実装でき、高速トレーニングを維持しながらビデオメモリの消費を削減できます

ハードウェア環境や実際のニーズに応じて、パイプライン並列処理 + テンソル並列処理 + ZeRO1 などの複雑な並列戦略の組み合わせを選択することもできます。

その中で、Colossal-AI の Booster プラグインを使用すると、ユーザーは Low Level ZeRO、Gemini、DDP などの並列戦略を選択するなど、並列トレーニングを簡単にカスタマイズできます。

勾配チェックポイントは、バックプロパゲーション中にモデルのアクティベーションを再計算することでメモリ使用量を削減します。

計算を高速化し、ビデオ メモリを節約するために、Flash アテンション メカニズムが導入されました。ユーザーは、コマンド ライン パラメータを使用して数十の類似したカスタム パラメータを簡単に制御できるため、カスタム開発の柔軟性を維持しながら高いパフォーマンスを維持できます。

Colossal-AI の最新の ShardFormer は、LLM の多次元並列トレーニングの開始にかかるコストを大幅に削減します。

現在、LLaMA を含むさまざまな主流モデルをサポートし、Huggingface/transformers モデル ライブラリをネイティブにサポートしています。

モデルを変更することなく、多次元並列処理(パイプライン、テンソル、ZeRO、DDP など)のさまざまな構成の組み合わせをサポートし、さまざまなハードウェア構成で優れたパフォーマンスを実現できます。

Colossal-AI: 大規模モデルシステムのためのインフラストラクチャ

上記の新しい取り組みをもたらした Colossal-AI は、現在、大規模モデルのトレンドの下でスター開発ツールおよびコミュニティとなっています。

前述の Colossal-AI ソリューションは、Fortune 500 企業で使用されています。このソリューションは、1,000 枚のカードのクラスターで優れたパフォーマンスを発揮し、数千億のパラメータを持つ大規模なプライベート モデルの事前トレーニングをわずか数週間で完了できます。

上海AIラボとSenseTimeが最近リリースしたInternLMも、Colossal-AIに基づいてQiankaで効率的な事前トレーニングを実現します。

Colossal-AIはオープンソースリリース以来、GitHubホットリストで何度も世界1位を獲得し、3万以上のGitHubスターを獲得し、SC、AAAI、PPoPP、CVPR、ISCなどトップクラスの国際AIおよびHPCカンファレンスの公式チュートリアルに選ばれました。何百もの企業がColossal-AIエコシステムの構築に参加しています。

これは、カリフォルニア大学バークレー校の著名な教授であるジェームズ・デメル氏と、シンガポール国立大学の大統領若手教授であるユー・ヤン氏によって開発されました。

Colossal-AI は PyTorch をベースにしています。効率的な多次元並列処理と異種メモリにより、大規模な AI モデルのトレーニング/微調整/推論の開発およびアプリケーション コストを削減し、GPU 要件を削減することに重点を置いています。

それを運営するLuchen Technology社は最近、シリーズAの資金調達で数億元を調達し、設立から18か月以内に3回の資金調達を連続して完了した。

オープンソース アドレス: https://github.com/hpcaitech/ColossalAI。

参考リンク: https://www.hpc-ai.tech/blog/large-model-pretraining.

<<:  ジェネレーションオートメーション:AI主導の労働力

>>:  人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AI時代の企業の変革とイノベーション

人工知能は、私たちの生活、仕事、学習に影響を与えるだけでなく、企業の運営、戦略、組織にも影響を与える...

DeepMindは、あらゆる武器を持つロボットを簡単に倒すことができる視覚ベースの強化学習モデルを提案している。

人間は模倣が得意です。私たちや他の動物は、行動を観察し、それが環境の状態に与える影響を理解し、同じよ...

機械学習を攻撃に利用する9つの方法

機械学習と人工知能 (AI) は、一部の脅威検出および対応ツールの中核技術になりつつあります。サイバ...

AWS が Amazon SageMaker の 9 つの新機能をリリース

12 月 9 日、Amazon Cloud Service (AWS) が開催する年次イベント AW...

プログラマーが使用する基本アルゴリズムトップ10

[[188736]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hal...

AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

まず、なぜこれを書くのかお話しします。プログラマーになるのは本当に大変です。長い年月を経ても、レンガ...

スマートヘルスケアの 6 つの主要な応用分野は何ですか?

スマートヘルスケアで使われる主なAI技術は画像とデータ分析機能ですが、その応用範囲は次の6つを含めて...

Appleのアプリランキングアルゴリズム調整の裏側:ランキング管理企業が一夜にして沈黙

4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...

[トイレに座ってアルゴリズムを読む] アルゴリズム 8: 賢い隣接リスト (配列の実装)

前回は、空間と時間の複雑さがともにN 2であるグラフの隣接行列保存方法を紹介しました。今回は、グラフ...

機械学習アルゴリズムに関する 16 のヒント

スイスアーミーナイフについて聞いたことがあるかもしれません。そうでない場合は、下の図をご覧ください。...

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

機械学習エンジニアチームの責任者であり、Looker の最高製品責任者でもある彼は、10 年を超える...

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻...