Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする

この国では、ラマの時代は終わった。

9月6日、百川知能は7Bと13Bのベースとチャットバージョンを含む百川2シリーズの大型モデルの公式オープンソースを発表し、チャットバージョンの4ビット量子化を提供しました。これらはすべて商用利用が無料です。

ダウンロードリンク: https://github.com/baichuan-inc/Baichuan2

主流の中国語と英語の総合ランキングでは、Baichuan 2 はあらゆる面で Llama 2 を上回っており、Baichuan2-13B は同サイズのオープンソースモデルをすべて上回っています。 Baichuan2-13Bは現在、同サイズの中国オープンソースモデルの中で最高であると言っても過言ではありません。

過去1ヶ月間で、BaichuanシリーズはHugging Faceなどのオープンソースコミュニティで347万回以上ダウンロードされ、今月最もダウンロードされたオープンソースの大型モデルとなり、ダウンロード総数は500万回を超えました。

ラマ2、不要になりました

それに比べると、海外で一番人気の製品であるLlama 2は、私たちにとってはお別れとなるでしょう。

千機種戦争の後、ビッグモデルは「アンドロイドの時代」に突入しました。現時点では、ラマ2号に代わる最も有望な国産大型モデルは白川2号だと思われる。

その理由は実はとても簡単です。一方で、Baichuan 2シリーズの大型モデルは、Llama 2を性能面で絶対的にリードしているだけでなく、同じサイズの競合製品よりも大幅に優れています。

一方、Meta の商用契約では、Llama モデルを中国のコミュニティで商用利用することは実際には許可されていません。一方、Baichuan シリーズの大規模モデルは現在、商用利用のために完全にオープンソース化されています。

Llama 2 のビジネス契約では、英語以外の言語でのビジネスは許可されないことが明記されています。

中国のオープンソース第一号

中国初のオープンソースビッグモデルとして、Baichuan のビッグモデルは古典的な LLM 問題を処理する際のパフォーマンスも注目に値します。

深遠な中国語の意味を正確に理解する能力を備えた「百川2」は、中国語の微妙なニュアンスを十分に理解することができます。

中国語が苦手なラマ2 13Bは、無駄なことばかり言ってしまいました。

推論能力をテストするコード生成の点では、Baichuan 2 は十分に洗練されており、その可用性は業界をリードするレベルに達しています。

Llama 2 もこの質問を処理できますが、デフォルトでは英語でのみ応答します。

より困難な複数ラウンドの会話により、数え切れないほどの大規模モデルが失敗しました。

この点では、Baichuan モデルははるかに先を進んでおり、さまざまな複雑な指示を簡単に完了できると言えます。

GPT-4 が困惑した推論問題でさえ、Baichuan モデルでは問題になりませんでした。

モデル評価

これらの実際の評価に加えて、Baichuan 2 は、中国語、英語、および複数の言語での複数の権威ある一般および専門ベンチマークテストで同規模の最高の結果を達成しましたが、Llama 2 は全面的に敗北しました。

一般分野の場合、評価に使用されるベンチマークは、中国の基本モデル評価データセット C-Eval、主流の英語評価データセット MMLU、知識と推論能力を評価するための中国のベンチマーク CMMLU、言語と論理的推論能力を評価するためのデータセット Gaokao、認知や問題解決などの一般的な能力を評価するための AGIEval、および挑戦的なタスク Big-Bench のサブセットである BBH です。

法務分野では、中国国家司法試験に基づく JEC-QA データセットが使用されています。医療分野では、一般ドメインデータセット内の医療関連の質問に加えて、MedQA や MedMCQA もあります。

数学フィールドには GSM8K および MATH データセットが含まれ、コードフィールドには HumanEval および MBPP データセットが含まれます。

最後に、多言語機能に関しては、ニュース、旅行ガイド、書籍など、複数の異なる分野から集められた Flores-101 データセットが使用されています。これには英語を含む 101 の言語が含まれています。

まとめると、Baichuan 2 シリーズは、前世代の優れた生成および作成機能、スムーズなマルチラウンド対話機能、低い展開しきい値などの多くの機能を継承しているだけでなく、数学、コード、セキュリティ、論理的推論、意味理解などの機能も大幅に改善されています。

その中で、Baichuan2-13B-Baseは、前世代の13Bモデルと比較して、数学的能力が49％向上し、コーディング能力が46％向上し、セキュリティ能力が37％向上し、論理的推論能力が25％向上し、意味理解能力が15％向上しました。

データ

Baichuan 2 シリーズの大規模モデルがこのような印象的な結果を達成できる理由の 1 つは、トレーニングコーパスの規模が大きく、カバー範囲が包括的で、高品質であることです。

データ収集に関しては、Baichuan チームは主に、テクノロジー、ビジネス、エンターテイメントなどさまざまな分野をカバーする、Web ページ、書籍、研究論文、コードライブラリなどの豊富なデータソースから情報を収集します。

データセットの合計サイズは 2.6TB です。

同時に、データセットには中国語、英語、スペイン語、フランス語など数十の言語を含む多言語サポートも含まれています。

白川2トレーニングデータの異なるタイプの分布

では、優れたデータ品質を実現するにはどうすればよいでしょうか?

検索遺伝子を持つ企業として、Baichuan Intelligence は検索分野でのこれまでの経験を活かし、データの頻度と品質に重点を置いています。

一方、大規模な「データ重複排除・クラスタリングシステム」を構築することで、数千億ものデータを数時間で迅速にクリーンアップし、重複排除することが可能になります。

一方、データクリーニング時には、多粒度のコンテンツ品質スコアリングも使用されます。これは、章レベル、段落レベル、文レベルの評価だけでなく、検索におけるコンテンツ評価の選択も指します。

きめ細かなサンプリングにより、特に中国の分野でモデル生成の品質が大幅に向上します。

さまざまなデータ処理段階でのトレーニングデータのサイズ

電車

データの準備が完了したら、次のステップは、大規模モデルの最も重要な段階であるトレーニングに入ることです。

Baichuan チームは、AdamW オプティマイザーと BFloat16 混合精度を使用してモデルをトレーニングしました。

トレーニングプロセスを安定させ、モデルのパフォーマンスを向上させるために、この研究では NormHead を使用して出力埋め込みを正規化しました。

さらに、Baichuan チームはトレーニング中に LLM の対数値が非常に大きくなる可能性があることも発見したため、トレーニングを安定させ、モデルの推論をハイパーパラメータに対してより堅牢にするために Max-z 損失を導入しました。

下の図に示すように、Baichuan2-7B/13B の損失曲線は継続的に減少していることがわかります。

これまでの研究では、パラメータのスケールが増加するとモデルのパフォーマンスがある程度予測可能になることが示されており、これはスケーリング則と呼ばれることが多い。

数十億のパラメータを持つ大規模な言語モデルをトレーニングする前に、Baichuan Intelligence は、合計トークンサイズが 1 兆の 1,000 万から 300 億の範囲のパラメータを持つモデルを事前トレーニングしました。

与えられた数のトレーニング浮動小数点演算の損失にべき乗項を当てはめることにより、2.6兆トークンでのBaichuan2-7BとBaichuan2-13Bのトレーニングの損失曲線を予測できます。

下の図に示すように、30M、50M、100M などの異なるパラメータスケールのモデル曲線はすべて減少しており、最終的にはある値に線形回帰できます。

これにより、大規模なモデルのパフォーマンスを予測する際に、より正確な推定が可能になります。

これは、OpenAI が GPT-4 をリリースしたときと状況が似ていることに注目すべきです。GPT-4 では、後続のモデルのパフォーマンスを予測するために、トレーニングの 1 万分の 1 しか必要としませんでした。

フィッティングプロセス全体でモデルの損失をより正確に予測できることがわかります。

同時に、Baichuan Infrastructure チームはクラスターのパフォーマンスを最適化するために多くの作業を行ったため、現在の Qianka A800 クラスターは 180TFLOPS のトレーニング速度と 50% を超えるマシン使用率を達成し、業界をリードするレベルに達しています。

前述のように、トレーニングプロセス中に、Baichuan インテリジェントモデルは効率的で安定した予測可能な機能を発揮しました。

安全性

では、トレーニング後に得られたモデルが安全であることをどうやって確認するのでしょうか? Baichuan Intelligence はここでも多くのセキュリティ調整作業を行ってきました。

モデルトレーニングの前に、チームはデータセット全体を厳密にフィルタリングし、さまざまな肯定的なデータを含む中国語と英語のバイリンガルデータセットを計画しました。

一方、Baichuan Intelligenceはモデルの微調整と強化も行い、セキュリティ強化学習を実装し、6つの攻撃タイプを設定し、大量の赤青敵対的トレーニングを実施してモデルの堅牢性を向上させました。

強化学習の最適化段階では、DPO メソッドは少量のラベル付きデータを効果的に活用して、特定の脆弱性の問題に対するモデルのパフォーマンスを向上させることができます。

さらに、有益な目標と無害な目標を組み合わせた報酬モデルを使用して PPO セキュリティ強化トレーニングを実施し、モデルの有用性を低下させることなくシステムのセキュリティを大幅に強化しました。

Baichuan Intelligence は、事前トレーニングデータの強化、セキュリティの微調整、セキュリティ強化学習、赤青対決の導入など、モデルのセキュリティ調整にも多大な努力を払っていることがわかります。

Baichuan 2はオープンソースです。本当にオープンソースです

学術界にとって、大規模モデルのトレーニングに関する徹底的な研究を妨げているものは何でしょうか?

モデルを 0 から 1 まで完全にトレーニングするにはコストが非常に高く、各リンクには多くの人的資源と計算能力が必要です。

その中で、大規模モデルのトレーニングには、大量の高品質データの取得、大規模トレーニングクラスターの安定したトレーニング、モデルアルゴリズムのチューニングなどが含まれており、わずかなミスが大きなミスにつながります。

しかし、現在のオープンソースモデルのほとんどは、モデルの重みのみを公開しており、トレーニングの詳細についてはほとんど言及していません。さらに、これらのモデルは最終バージョンであり、学術コミュニティにとって使いにくいチャットも付属しています。

このため、企業や研究機関、開発者はモデルをもとに限定的な微調整しか行えず、深い研究を行うことは困難です。

これに対して、百川知能は百川2号の技術レポートを直接発表し、データ処理、モデル構造の最適化、スケーリング則、プロセス指標など、百川2号のトレーニングの全プロセスを詳細に紹介した。

さらに重要なのは、Baichuan Intelligence が 220B から 2640B までのモデルトレーニングの全プロセスをカバーする Check Ponit もオープンソース化したことです。

国内オープンソースエコシステムでは初です！

Check Ponit は、モデルのトレーニングプロセス、モデルの継続的トレーニング、およびモデル値の調整に関する研究に非常に役立ちます。

C-Eval、MMLU、CMMLUベンチマークにおけるBaichuan 2の11の中間チェックポイントの結果

この点について、復旦大学コンピュータ科学技術学院の張奇教授は次のように述べた。

Baichuan シリーズでリリースされたモデルシャーディングは、大規模なモデルの性質を研究するのに非常に役立ちます。毎回の反復プロセスを把握できるだけでなく、中間のシャードで多くのことを実行することもできます。

さらに、最終バージョンやチャットバージョンを直接オープンソース化するモデルと比較すると、Baichuan のオープンソースは非常にクリーンであり、基礎から非常にクリーンな言語モデルです。

また、評価の多くは単一点次元から行われており、一部のリストでも GPT-4 は 10 位にランクされていますが、これは実際には意味がありません。白川の評価結果は非常に良好です。

ビジネスの観点から見ると、Baichuan 2 モデルは企業にとっても非常に良い選択肢です。

これまで商用利用は無料だったLlama 2のリリース後、低コストでパーソナライズされたニーズを満たすことができるため、多くのスタートアップにとって打撃となるだろうと多くの人が考えていました。

しかし、よく考えてみると、Llama 2 が市場の状況を変えていないことは明らかです。

企業がモデルを使用する場合、たとえ微調整のみであっても、ある程度のコスト、労力、時間がかかります。

パフォーマンスの弱いモデル（特に英語コーパスを主としたモデル）を選択した場合、再トレーニングが難しくなり、コストは新しい大規模モデルを自分で作成するのとほぼ同じになります。

Llama 2は中国語が苦手であり、契約では英語以外のシナリオでの商用利用が禁止されているため、商用分野では、より強力な総合機能を備えたオープンソースモデルのBaichuan 2がほぼ唯一の選択肢であることは明らかです。

国内の研究者は、Baichuan 2シリーズの大型モデルをベースに二次開発を実施し、その技術を実際のシナリオに素早く統合することができます。

一言で言えば、白川2号は生きた水の絶え間ない供給源のようなもので、オープンソースを可能な限り包括的にすることで国内の大型モデルの科学研究の進歩を大きく促進するだけでなく、国内での商用展開の敷居を下げることでアプリケーションのイノベーションが継続的に生まれるようにもします。

<<: 放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

>>: オープンソース「AI史上最も重要な非公開会議」！マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする

ラマ2、不要になりました

中国のオープンソース第一号

モデル評価

データ

電車

安全性

Baichuan 2はオープンソースです。本当にオープンソースです

5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

2021 年に人工知能が最も大きく発展する分野はどれでしょうか?

自動運転で冬季オリンピックはよりスマートに

美団下華夏：「無人配達」は技術的に難しいことではない

世の中には、ほとんどコードを必要としない強力で古典的なアルゴリズムやプロジェクト事例にはどのようなものがありますか?

ネットワークの構築から面接の最後の質問まで、AI企業に応募するための包括的なガイドをご紹介します

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

AI著作権問題プラットフォームが有料化、Googleは将来的にGoogle Cloud向けに開始予定の「免責保護」サービスを紹介

RSAは暗号化アルゴリズムへのバックドアの追加を否定

推薦する

プレミアリーグファンに朗報：AIはチームの勝率とゴール時間を予測できるのか？

コンピュータービジョンを使用してフィッシング攻撃を検出するにはどうすればよいでしょうか?

ビジネスインテリジェンスを変革するAIの優れたユースケース

フロントエンドではアルゴリズムを理解する必要はないと思いますか?実際の例を見てみましょう。

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

人工知能は、いつになったら本当に考えることができるようになるのでしょうか?

ソフトウェア配信における機械学習の活用方法

【2021年開始】人工知能産業の発展は依然として多くの課題に直面している

製造業における人工知能の8つの応用シナリオ

市場を席巻するアメリカの5大テクノロジー企業はAI時代にさらに勢力を拡大するのでしょうか？

オープンソース！香港中文大学、MIT、復旦大学が初のRNA基礎モデルを提案