Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チューリング賞受賞者のヤン・ルカン氏も、次のように感想を述べています。「オープンソースの AI モデルは、独自のモデルを超えつつあります。」

独自モデルは、技術的なパフォーマンスとイノベーション能力の点で並外れた力を発揮してきましたが、そのクローズドソースの性質が LLM の開発の障害となっています。一部のオープンソース モデルは、実務家や研究者に多様な選択肢を提供していますが、そのほとんどは最終的なモデルの重みまたは推論コードのみを公開しており、その範囲をトップレベルの設計と表面統計に限定する技術レポートが増えています。このクローズドソース戦略は、オープンソースモデルの開発を制限するだけでなく、LLM 研究分野全体の進歩を大きく妨げます。

つまり、トレーニング データの詳細、アルゴリズムの詳細、実装の課題、パフォーマンス評価など、これらのモデルをより完全かつ詳細に共有する必要があるということです。

Cerebras、Petuum、MBZUAIなどの研究者が共同でLLM360を提案しました。これは、LLM を完全にオープンソース化する取り組みであり、トレーニング コードとデータ、モデル チェックポイント、中間結果など、LLM トレーニングに関連するすべてをコミュニティに提供することを提唱しています。 LLM360 の目標は、LLM トレーニング プロセスを誰にとっても透明かつ再現可能にし、オープンで協調的な AI 研究の発展を促進することです。


  • 論文アドレス: https://arxiv.org/pdf/2312.06550.pdf
  • プロジェクトウェブサイト: https://www.llm360.ai/
  • ブログ: https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

研究者たちは、LLM360 アーキテクチャを、その設計原理とそれを完全にオープンソースにする根拠に重点を置いて開発しました。これらは、データセット、コードと構成、モデルチェックポイント、メトリック、その他の具体的な詳細など、LLM360 フレームワークのコンポーネントを詳細に指定します。 LLM360 は、現在および将来のオープンソース モデルの透明性の例を示します。

研究者らは、LLM360 のオープンソース フレームワークの下でゼロから事前トレーニングされた 2 つの大規模言語モデル、AMBER と CRYSTALCODER をリリースしました。 AMBER は、1.3T トークンで事前トレーニングされた 70 億の英語言語モデルです。 CRYSTALCODER は、1.4T トークンで事前トレーニングされた 7B の英語およびコード言語モデルです。この論文では、研究者らは 2 つのモデルの開発の詳細、予備的な評価結果、観察結果、および得られた教訓をまとめています。リリース時点では、AMBER と CRYSTALCODER はトレーニング中にそれぞれ 360 個と 143 個のモデル チェックポイントを保存することは注目に値します。

次に、記事の具体的な内容を見ていきましょう。

LLM360 フレームワーク

LLM360 は、LLM 事前トレーニング プロセス中に収集する必要があるデータとコードの標準を提供し、既存の作業をコミュニティ内でより適切に循環および共有できるようにします。主に以下の部分が含まれます。

1. トレーニングデータセットとデータ処理コード

事前トレーニング データセットは、大規模言語モデルのパフォーマンスにとって非常に重要です。したがって、潜在的な行動上の問題やバイアスを評価するには、事前トレーニング データセットを理解することが重要です。さらに、公開されている事前トレーニング データセットは、その後の微調整やさまざまな分野への適応において LLM のスケーラビリティを向上させるのに役立ちます。最近の研究では、重複データでトレーニングすると、モデルの最終的なパフォーマンスが不釣り合いに低下する可能性があることが示されています。したがって、元の事前トレーニングデータを公開すると、下流を微調整したり、特定のドメインで事前トレーニングを継続したりするときに、重複したデータを使用することを回避できます。上記の理由から、LLM360 は大規模言語モデルのオリジナル データセットを公開することを提唱しています。適切な場合には、データのフィルタリング、処理、トレーニングシーケンスに関する詳細な情報も開示する必要があります。

2. トレーニングコード、ハイパーパラメータ、構成

トレーニング コード、ハイパーパラメータ、および構成は、LLM トレーニングのパフォーマンスと品質に大きな影響を与えますが、必ずしも公開されるわけではありません。 LLM360 では、研究者は事前トレーニング フレームワークのすべてのトレーニング コード、トレーニング パラメーター、システム構成をオープンソース化しています。

3. モデルチェックポイント

モデルのチェックポイントを定期的に実行することも役立ちます。これらは、トレーニング中の障害回復に不可欠であるだけでなく、トレーニング後の研究にも役立ちます。これらのチェックポイントにより、後続の研究者はトレーニングを最初から開始することなく、複数の開始点からモデルのトレーニングを継続できるため、再現と詳細な研究が容易になります。

4. パフォーマンス指標

LLM のトレーニングには数週間から数か月かかることが多く、トレーニング中の進化の傾向から貴重な情報を得ることができます。しかし、トレーニングの詳細なログや中間メトリクスは現在、それを経験した人しか利用できないため、LLMに関する包括的な研究を妨げています。これらの統計には、検出が難しい重要な洞察が含まれていることがよくあります。これらの指標に対して分散計算を実行するなどの単純な分析でも、重要な結果が明らかになることがあります。たとえば、GLM 研究チームは、勾配ノルムの動作を分析することで、損失スパイクと Na​​N 損失を効果的に処理する勾配縮小アルゴリズムを提案しました。

アンバー

AMBER は LLM360「ファミリー」の最初のメンバーであり、その微調整されたバージョンである AMBERCHAT と AMBERSAFE も同時にリリースされました。

データとモデルの詳細

表 2 には、1.26 T トークンを含む AMBER 事前トレーニング データセットの詳細 (データの前処理、形式、データ混合比、AMBER アーキテクチャの詳細、特定の事前トレーニング ハイパーパラメータなど) がリストされています。詳細については、プロジェクトホームページの LLM360 コード リポジトリを参照してください。

AMBER は LLaMA 7B4 と一致するモデル アーキテクチャを採用しています。表 3 は LLM の詳細なアーキテクチャ構成をまとめたものです。

事前トレーニングプロセスとハイパーパラメータに関しては、研究者は LLaMA の事前トレーニングハイパーパラメータに可能な限り従いました。 AMBER は、ハイパーパラメータ β₁ = 0.9、β₂ = 0.95 を持つ AdamW オプティマイザーを使用してトレーニングされます。同時に、研究者らは AMBER の微調整されたバージョンである AMBERCHAT と AMBERSAFE もいくつかリリースしました。 AMBERCHAT は、WizardLM の指示トレーニング データセットに基づいて微調整されています。パラメータの詳細については、原文をお読みください。

実験と結果

研究者らは、Open LLM リーダーボード上の 4 つのベンチマーク データセットを使用して AMBER のパフォーマンスを評価しました。図 4 に示すように、HellaSwag と ARC では、事前トレーニング中に AMBER のスコアは単調に増加しますが、トレーニングが進むにつれて TruthfulQA のスコアは減少します。 MMLU データセットでは、AMBER のスコアは事前トレーニングの初期段階で低下し、その後増加し始めます。

表 4 では、研究者らが AMBER モデルのパフォーマンスを、OpenLLaMA、RedPajama-INCITE、Falcon、MPT などの同様の期間にトレーニングされたモデルと比較しました。多くのモデルは LLaMA からインスピレーションを得ました。 AMBER は MMLU では良いスコアを獲得しますが、ARC ではわずかに悪いパフォーマンスを示すことがわかります。 AMBER は、他の同様のモデルと比較して、比較的優れたパフォーマンスを発揮します。

クリスタルコーダー

LLM360「ファミリー」の 2 番目のメンバーは CrystalCoder です。

CrystalCoder は、1.4 T トークンでトレーニングされた 7B 言語モデルであり、コーディングと言語機能のバランスを実現します。これまでのほとんどのコード LLM とは異なり、CrystalCoder は、テキストとコード データを慎重に組み合わせてトレーニングされ、両方のドメインでの有用性を最大限に高めます。 Code Llama 2 と比較すると、CrystalCoder のコード データは事前​​トレーニング プロセスの早い段階で導入されます。さらに、研究者らはプログラミングアシスタントとしての実用性を向上させるために、CrystalCoder を Python と Web プログラミング言語でトレーニングしました。

モデルアーキテクチャ

CrystalCoder は、最大更新パラメータ化 (muP) を追加した、LLaMA 7B と非常によく似たアーキテクチャを使用します。この特定のパラメータ化に加えて、研究者はいくつかの変更を加えました。さらに、CG-1 アーキテクチャは LayerNorm の効率的な計算をサポートしているため、研究者は RMSNorm の代わりに LayerNorm を使用しました。

実験と結果

図 6 に示すように、研究者は Open LLM リーダーボードの 4 つのベンチマーク データセットとエンコーディング ベンチマーク データセットでモデルをベンチマークしました。

表 5 からわかるように、CrystalCoder は言語タスクとコード タスクの間で適切なバランスを実現しています。

分析360

Pythia らによる以前の研究では、モデルの中間チェックポイントを分析することでさらなる調査を実行できることが示されました。研究者たちは、LLM360 がコミュニティにとって有用な参考資料や研究リソースも提供することを期待しています。この目的のために、彼らは、モデルの特性や下流の評価結果を含む、モデルの動作に関する多面的な分析をキュレートしたリポジトリである ANALYSIS360 プロジェクトの初期バージョンをリリースしました。

一連のモデルチェックポイントを分析する例として、研究者らは LLM におけるメモ化に関する予備調査を実施しました。最近の研究では、LLM はトレーニング データの大部分を記憶し、適切なプロンプトでそれを取得できることが示されています。このメモ化は、プライベートなトレーニング データが漏洩するという問題があるだけでなく、トレーニング データに繰り返しや特異性が含まれている場合に LLM のパフォーマンスを低下させます。研究者らは、トレーニング段階全体を通じてメモ化の包括的な分析を実行できるように、すべてのチェックポイントとデータを公開しました。

以下は、本論文で使用した記憶スコア法であり、長さ k のプロンプトに続く長さ l のトークンの正確さを表しています。具体的な暗記スコア設定については原文を参照してください。

図 7 は、選択された 10 個のチェックポイントのメモ化スコアの分布を示しています。

選択したチェックポイントに従ってデータ チャンクをグループ化し、各チェックポイントでの各データ チャンク グループのメモ化スコアを図 8 にプロットしました。 AMBER チェックポイントは、以前のデータよりも最新のデータを記憶することを発見しました。さらに、各データ ブロックでは、追加のトレーニング後にメモ化スコアがわずかに減少しますが、その後は増加し続けます。

図9は、記憶スコアと抽出可能なk値の観点から見たシーケンス間の相関を示しています。チェックポイント間には強い相関関係があることがわかります。

要約する

研究者らは、AMBER と CRYSTALCODER の観察結果といくつかの意味を要約しました。事前トレーニングは計算量の多い作業であり、多くの学術研究室や小規模な機関では実行できないと言われています。彼らは、LLM360 が包括的な知識を提供し、ユーザーが自分で実行しなくても LLM 事前トレーニング プロセス中に何が起こるかを理解できるようにしたいと考えています。

詳しくは原文をお読みください。

<<:  2.7B は Llama 2 70B に勝てる、Microsoft は「小さな言語モデル」を提供! 96台のA100が14日間でPhi-2を訓練し、Google Gemini nanoを圧倒

>>:  GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ジェネレーティブ AI によるヘルスケアの変革: 新たなユースケースと将来の可能性

ヘルスケアとウェルネスのダイナミックな分野では、ANI と生成 AI の組み合わせによる革命が進行し...

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同...

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

C# データ構造のソートアルゴリズム

C# データ構造ソート アルゴリズム (バブル ソートを含む) では、Lao Zhao の Code...

北京大学の王一州氏:信頼できるAI研究の名刺を磨くには、産業界、学界、研究機関の連携が必要

人工知能(AI)は1950年代に誕生し、3つの発展の波を経てきました。研究段階から大規模な産業化段階...

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

最近、Vincent Diffusion アーティファクトをオープンソース化した Stability...

データ センターをよりスマートに: 人工知能はどのように役立つのか?

[[382637]]データセンターが国の経済の原動力となるにつれ、人工知能を導入することでより高い...

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...

...

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

2023年ももうすぐ終わりです。過去1年間で、さまざまな大型モデルがリリースされました。 OpenA...

...

...

生死に関わる問題:病院のICU病棟で人工知能は何ができるのか?

病院の集中治療室 (ICU) では、重病の患者を一日中一連の機器に接続し、いつでもバイタルサインを監...

CES 2018: 見逃せない 4 つの主要なテクノロジー トレンド

[[214658]] 2週間後、2018 CESがラスベガスで開幕します。今年と同様に、CES 20...

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

AIの応用が広まるにつれ、ディープラーニングは現在のAI研究と応用の主流の方法となっています。膨大...