10万ドル+26日、低コスト1000億パラメータLLMが誕生

10万ドル+26日、低コスト1000億パラメータLLMが誕生

大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデルなど)、エンコーダーのみの構造 (BERT など)、エンコーダーとデコーダーの構造 (T5 など)、およびそのバリエーションが含まれており、驚異的な成功を収め、さまざまな言語処理やマルチモーダル タスクで広く使用されています。

この成功にもかかわらず、LLM のトレーニング費用は非常に高いため、それを負担できる企業はごくわずかです。さらに、現在の傾向では、将来的にはさらに大量のトレーニング データが使用されることが示されており、大規模モデルの開発コストはさらに増加することになります。たとえば、LLAMA-1 のトレーニングでは 1 ~ 1.4 TB のトークンが使用されましたが、Llama 2 では 2 TB に達しました。

LLM の開発におけるもう一つの重要な課題は評価です。主流の評価方法は、知識評価(MMLU および C-Eval)と NLP タスク評価の 2 つのカテゴリに分けられます。これらの評価方法では、データ漏洩の問題がある可能性があり、つまり、評価データセットの一部がモデルのトレーニング プロセス中に使用されている可能性があるため、モデルの機能が正確に反映されない可能性があります。さらに、知識指向の評価方法は、知能レベルの評価には適さない可能性があります。より公平で客観的な評価方法は、LLM の知能指数 (IQ)、つまりトレーニング データには見られない条件やコンテキストに LLM がどの程度一般化できるかを測定することです。

成長戦略。トレーニングコストの問題を解決するために、北京人工知能アカデミーや中国科学院コンピューティング技術研究所を含む多くの機関が最近、成長戦略を通じて初めて数千億のパラメータを持つLLMをトレーニングする試みを行っています。成長とは、トレーニング中にパラメータの数が固定されず、小さなモデルから大きなモデルへとスケールアップすることを意味します。

  • 論文: https://arxiv.org/pdf/2309.03852.pdf
  • モデル: https://huggingface.co/CofeAI/FLM-101B

図 1 は成長戦略の典型的な 3 つのシナリオを示しています。 LLM の FLOP はパラメータの数にほぼ比例するため、モデル パラメータの変化の曲線と X 軸の間の領域はトレーニングの計算コストを表すことができます。

図 1 (a) はモデル成長のない標準的なトレーニング戦略を示しています。1 (b) はコストを 50% 節約できる線形成長戦略です。1 (c) はコストを 50% 未満節約できる中程度の成長戦略です。1 (d) はコストを 50% 以上節約できる積極的な成長戦略です。この分析は、コンピューティング コストを可能な限り節約するために、積極的な成長戦略を採用する必要があることを示しています。

この新しい研究における成長演算子の設計は、論文「マスクされた構造的成長による言語モデルの事前トレーニングの 2 倍高速化」の MSG からヒントを得たもので、これは Transformer 構造の 4 つの成長次元すべてをカバーする完全な操作セットです。さらに重要なのは、MSG は機能性を厳密に維持しながら成長できることです。したがって、小さなモデルはより小さなパラメータ検索空間で素早く学習できますが、その知識は後続のより大きなモデルに継承されます。これにより、成長戦略では、同じかそれ以下の計算コストで、より優れたパフォーマンスを実現できるようになります。

オープンソースの FLM-101B モデル。人工知能アカデミーの研究者らは、漸進的成長を通じて1010億のパラメータを持つLLMモデルをトレーニングし、そのモデルをオープンソースとして公開するとも発表した。このモデルのアーキテクチャは FreeLM の進化形です。そのため、研究者たちはそれを FLM-101B と名付けました。F は Free (自由) の略です。

FreeLM フレームワークには、それぞれ言語信号と教師信号によってガイドされる 2 つの事前トレーニング目標があります。この新しい研究では、これら 2 つの目標が一般的な言語モデリング パラダイムに統合されています。

IQ評価ベンチマーク。低コストのトレーニングパラダイムに加えて、チームは、LLM 知能指数 (IQ) 評価の体系的なベンチマークを提案することで、もう 1 つの貢献を果たしました。

これまでの研究では、困惑度レベル (PPL) 指標は生成されたテキストの品質をある程度反映できるものの、信頼できるものではないことが示されています。一方、LLMトレーニングデータの規模は非常に大きいため、モデルが単に知識データを引用しているだけなのか、それとも本研究で定義されるIQの基礎となる人間のような推論、分析、一般化能力を本当に実現しているのかを見分けることは困難です。一般的に使用されている評価メトリック (英語の場合は MMLU、中国語の場合は C-Eval) は明らかに知識指向であり、モデルのインテリジェンス レベルを完全に反映することはできません。

チームは妥当性チェックとして、世界的に有名な大学のコンピューターサイエンス研究者 5 名に C-Eval の化学試験問題を使用して試験を受けてもらい、テストを実施しました。結果は、ボランティアのほとんどが学んだ化学の知識を忘れていたため、彼らの正確さはランダムな推測とほぼ同等であることを示しました。したがって、専門知識の程度を重視する評価ベンチマークは、モデルの IQ を測定するのに十分ではありません。

LLM の IQ を総合的に測定するために、チームは、IQ の 4 つの主要な側面 (シンボル マッピング、ルール理解、パターン マイニング、干渉許容度) を考慮した IQ 評価ベンチマークを開発しました。

  • 言語は本質的に象徴的なものです。 LLM の知能レベルを評価するために、カテゴリラベルの代わりにシンボルを使用する研究がいくつかあります。同様に、チームはシンボリック マッピング アプローチを使用して、LLM の未知のコンテキストへの一般化能力をテストしました。
  • 人間の知能の重要な能力は、与えられたルールを理解し、それに応じた行動を取ることです。このテスト方法は、さまざまなレベルのテストで広く使用されています。したがって、ルールの理解がここでの 2 番目のテストになります。
  • パターン マイニングには帰納法と演繹法が含まれており、これもインテリジェンスの重要な部分です。この方法は科学の発展の歴史において重要な役割を果たしてきました。さらに、さまざまなコンテストのテスト問題では、この回答能力が求められることがよくあります。これに触発されて、パターンマイニングが 3 番目の評価メトリックとして選択されました。
  • 最後に、非常に重要な指標は、干渉に抵抗する能力であり、これもまたインテリジェンスの中心的な能力の 1 つです。研究によれば、言語と画像はどちらもノイズによって簡単に妨害されるそうです。これを念頭に置いて、チームは最終的な評価基準として干渉耐性を使用しました。

もちろん、これら 4 つの指標は LLM IQ 評価の最終版ではありませんが、その後の研究と開発を促す出発点として機能し、最終的には包括的な LLM IQ 評価フレームワークにつながることが期待されます。

この研究の主な貢献は次のとおりです。

  • 研究者らによると、これは成長戦略を使用して LLM で 1000 億を超えるパラメータをゼロからトレーニングする初の試みだという。同時に、これは現在最も低コストの 1000 億パラメータ モデルであり、コストはわずか 10 万ドルです。
  • この研究では、FreeLM トレーニング目標の改善、有望なハイパーパラメータ検索方法、および特徴保存成長によって不安定性の問題に対処します。研究者たちは、この方法が科学研究コミュニティ全体にも役立つと信じている。
  • 研究者らはまた、知識指向のベンチマークと新たに提案された体系的なIQ評価ベンチマークの両方を使用して、新しいモデルを以前の強力なモデルと実験的に比較しました。実験結果は、FLM-101B が競争力があり堅牢なモデルであることを示しています。
  • チームは、数千億のパラメータを持つ中国語と英語のバイリンガル LLM の研究開発を進めるために、モデル チェックポイント、コード、および関連ツールをリリースします。

FLM-101B 設計概要

アーキテクチャの観点から見ると、FLM-101B は FreeLM をバックボーン ネットワークとして使用し、xPos を統合します。モデルのサイズに関しては、新しい成長戦略のおかげで、研究者は 1 回のトレーニングで 16B、51B、101B の 3 つのサイズのモデルを取得できます。

事前トレーニング設定に関しては、FLM-101B は FreeLM のトレーニング戦略を継承します。

成長戦略に関しては、異なるサイズのモデルを個別にトレーニングするという一般的な方法とは異なり、チームは 16B、51B、101B のパラメータを持つ 3 つのモデルを順番にトレーニングすることができ、各モデルは以前のより小さなモデルの知識を継承します。

トレーニングハードウェアとしては、24台のDGX-A800 GPU(8×80G)サーバーのクラスターが使用され、FLM-101Bのトレーニング時間は26日未満でした。その他の並列戦略とモデル構成については、以下の表1と表2を参照してください。

FLM-101Bトレーニング安定性

損失発散や勾配爆発などの不安定性の問題を解決するために、研究者らは有望な解決策を提案しました。これについて簡単に説明します。

損失予測。トレーニングの安定性を実現するために新たに提案された方法は次のとおりです。

まず、FLM-16B のトレーニングを開始する前に、データの分布が決定されます。

次に、学習率、初期化標準偏差、出力層のソフトマックス温度を含む 3 つのハイパーパラメータに対してグリッド検索が実行されます。このグリッド検索は、隠れ状態の次元 (つまり、モデル幅) が 256、ヘッドが 2 つ、パラメータが 4000 万のサロゲート モデルを実行することによって実行されました。このプロキシ モデルのその他の構造ハイパーパラメータとトレーニング データはすべて FLM-16B と同じです。 6 ノードでデータ並列処理を使用すると、グリッド検索を 1 回実行するのに 24.6 時間かかりました。これは、24 ノード構成を使用すると、1 回の実行に 6 時間かかることを意味します。

このグリッド検索を通じて、研究者は最適なハイパーパラメータを発見しました。学習率 = 4e-4、標準偏差 = 1.6e-2、ソフトマックス温度 = 2.0 です。

その後、これらのハイパーパラメータを µP を通じて移行し、不安定性の問題を回避したシームレスなトレーニング エクスペリエンスを実現しました。 MSG、LM-51B、FLM-101B の組み合わせでは、その後の成長分岐の問題は発生しませんでした。

図 2 は完全なトレーニング損失曲線を示しています。

混合精度は Bfloat16 によって実現されます。混合精度を使用する目的は、実行時にメモリと時間のコストを節約することです。ここでは Bfloat16 を選択します。

ベンチマーク評価

表 3 は、FLM-101B のパフォーマンスを他の強力なベースライン モデル (LLAMA シリーズ モデルおよび GLM-130B) と比較しています。

研究者らは、これらの結果はFLM-101Bが事実知識においては優位性がないということを示しており、より多くのトレーニングデータが使用された場合、そのパフォーマンスは向上し続けるだろうと述べた。

表4は、専門知識評価の観点から見たeFLM-16Bとベースラインモデルの結果を示しています。

専門知識を重視したデータセットのスコアは、特定のトレーニング データが圧倒的な貢献をしている可能性があるため、LLM の知能レベルを反映していないことが判明しました。

表5は各段階でのFLMモデルのパフォーマンスを示しています。

予想どおり、モデルのサイズが大きくなるにつれて、FLM のパフォーマンスが向上します。 FLM-101B は、ほぼすべてのミッションで最高のパフォーマンスを発揮します。つまり、モデルが成長するたびに、前の段階から知識を継承することになります。

IQ実験

実験では、LLM の IQ をより体系的に評価するために、ASC のチームは既存の IQ 関連データセットを使用し、必要な変更を加えました。また、新しい合成データも生成しました。

具体的には、彼らが提案した IQ 評価では、主に、シンボル マッピング、ルール理解、パターン マイニング、干渉防止の 4 つの側面を考慮します。これらのタスクには共通する重要な点が 1 つあります。それは、すべてが推論と新しいコンテキストへの一般化に依存していることです。

次の表は IQ 実験の結果を示しています。


これらの表から、これら 4 つの IQ 評価ベンチマークにおいて、FLM-101B は、はるかに低い計算コストで、GPT-3 に匹敵し、GLM-130B よりも優れた結果を達成していることがわかります。

研究者らは、トレーニングデータの影響に加えて、初期段階では小さなモデルが小さな検索空間を絞り込むため、この利点が生じる可能性があると推測しており、この利点は、モデルがさらに大きく広くなり、一般化能力が強化されたときにも引き続き役割を果たしている。

<<: 

>>:  大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

ブログ    

推薦する

...

Microsoft の 38 TB の内部データが漏洩!秘密鍵と3万件以上の仕事上の会話が漏洩、その背後にある理由は衝撃的

何か大きなことが起こりました!数か月前、マイクロソフトの AI 研究チームは、大量のオープンソースの...

...

Excelを使用してPIDアルゴリズムを学習する

1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...

Mathematica が Big Language Model を導入しました。ネットユーザー:買う、買う、買う

Mathematica Wolfram の最新バージョンでは、大規模言語モデル (LLM) が正式に...

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ニューラルネットワークの父ヒントン氏は、34年前の画期的な業績を再検証し、脳内のAI手法の「存在」を模索している。

これまで耳にした人工知能の進歩のほぼすべては、30 年前に発表された、多層ニューラル ネットワークを...

工業生産は変化している:機械は人間よりも製造に優れている

最近、ロボットが人気になってきました。家庭生活、ホテル経営、学校教育、医療などさまざまな場面でロボッ...

...

大規模言語モデルとベクトルデータベースに基づくニュース推奨システムの開発

翻訳者|朱 仙中レビュー | Chonglou近年、 ChatGPTやBardなどの生成AIツールの...

Googleトレンドから、主要なディープラーニングフレームワークの人気がわかる

ディープラーニングはコンピュータービジョンや自然言語処理などの分野でますます大きな成果を上げており、...

Python のデータ構造とアルゴリズム - 順序付きリストの維持と二分

[[402075]]序文Bisect は、リストをソートしたままリストに要素を挿入するアルゴリズムを...

もう読み間違えないでください!人工知能と人間の知能の違いを理解する

人工知能が賢くなるにつれて、人類を絶滅させるだろうという主張が次々と現れています。実際、多くの有力者...

...

EUが新たなAI規制を導入

欧州委員会は、ヨーロッパを信頼できる人工知能(AI)の世界的な中心にすることを目指して、2021年4...