制作:51CTO テクノロジースタック(WeChat ID:blog) 「今年中にChatGPTのレベルに追いつくことは可能だと思うが、GPT-4やGPT-5の場合は3年くらいかかるかもしれないし、2年未満ではないはずだ」昨年4月、百川知能の創設者である王小川氏は、ビッグモデルトラックに参入してからの進歩を評価した。昨日、数千億のパラメータを持つBaichuanモデルがついにリリースされました! 1月29日、百川知能は1000億以上のパラメータを持つ大規模言語モデル「百川3」をリリースした。 CMMLU、GAOKAO、AGI-Eval などの複数の権威ある一般能力評価において、Baichuan 3 は特に中国語のタスクで GPT-4 を上回る優れた能力を発揮しました。また、MATH、HumanEval、MBPP などの数学およびコード固有の評価でも優れたパフォーマンスを発揮し、Baichuan 3 の自然言語処理とコード生成における優れた能力を実証しました。 それだけでなく、論理的推論能力と専門性に対する要求が非常に高いMCMLE、MedExam、CMExamなどの権威ある医療評価における中国語のパフォーマンスもGPT-4を上回っており、中国の医療タスクに最適な大規模モデルとなっています。 Baichuan 3は「反復強化学習」技術も突破し、意味理解と生成能力をさらに向上させ、詩作の形式、リズム、意味において他の大型モデルを上回り、優れたパフォーマンスを発揮します。 編集者は試してみたくてうずうずしていたので、すぐにテストしてみたところ、結果は驚くべきものでした。 写真 1. 基礎能力が総合的に向上し、複数の権威ある中国語タスクのスコアがGPT-4を上回るBaichuan 3 は複数の英語テストで優れた成績を収め、GPT-4 に近いレベルに達しています。 CMMLUやGAOKAOなどの複数の中国の評価リストではGPT-4を上回り、中国語のタスクにおける優位性が実証されました。 写真 写真 さらに、MT-BenchやIFEvalなどのアライメントリストの評価においても、Baichuan 3はGPT-3.5やClaudeなどの大規模モデルを上回り、業界トップレベルにあります。 写真 数百億または数千億のパラメータを持つモデルのトレーニングとは異なり、1,000 億を超えるパラメータを持つモデルのトレーニング要件は、高品質のデータ、トレーニングの安定性、トレーニングの効率の点で数桁高くなります。関連する問題をより適切に解決するために、Baicuan Intelligence はトレーニングプロセス中に「動的データ選択」、「重要度保持」、「非同期チェックポイントストレージ」などのさまざまな革新的な技術手段とソリューションを提案し、Baicuan 3 の機能を効果的に向上させました。 高品質なデータに関しては、従来のデータ スクリーニングは手動の定義に依存しており、重複フィルタリング、品質スコアリング、テキスト スクリーニングなどの方法を通じてデータをフィルタリングします。 Baichuan Intelligence は、データの最適化とサンプリングは動的なプロセスであり、データのサンプリングとスクリーニングに人工的な事前条件のみに依存するのではなく、モデル自体のトレーニング プロセスに合わせて最適化する必要があると考えています。データ品質を総合的に向上させるために、Baichuan Intelligence は因果サンプリングに基づく動的トレーニング データ選択ソリューションを設計しました。このソリューションは、モデル トレーニング中にトレーニング データを動的に選択できるため、データ品質が大幅に向上します。 トレーニングの安定性の点では、1000億を超えるパラメータを持つモデルでは、パラメータの数が膨大であるため、トレーニング中に勾配爆発、損失暴走、モデルの非収束などの問題が発生することがよくあります。これに対応して、Baichuan Intelligence は、モデルトレーニングの初期段階での安定性を確保するために、「Salience-Consistency」と呼ばれる段階的な初期化方法を提案しました。また、モデルトレーニングプロセスの監視スキームを最適化し、勾配や損失などの指標にパラメータ「有効ランク」方式を導入してトレーニングプロセスの問題を早期に検出し、トレーニングの問題の特定を大幅に加速し、最終モデルの収束を確実にしました。 さらに、数千のGPU上で1000億以上のパラメータを持つモデルの効率的で安定したトレーニングを保証するために、Baichuan Intelligenceはモデルのトレーニング安定性とトレーニングフレームワークを同時に最適化し、「非同期チェックポイントストレージ」メカニズムを採用して、パフォーマンスを低下させることなくストレージ頻度を高め、マシン障害がトレーニングタスクに与える影響を軽減し、Baichuan 3の安定したトレーニング時間を1か月以上、障害回復時間を10分以内に達成しました。 トレーニング効率の面では、Baichuan Intelligence は、高度に最適化された RoPE および SwiGLU コンピューティング演算子など、1,000 億を超えるパラメータを持つモデルの並列トレーニングに対して一連の最適化を実施しました。データ並列処理におけるパラメータ通信と計算のオーバーラップ、およびシーケンス並列処理におけるアクティベーション値の通信と計算のオーバーラップにより、通信時間の割合が効果的に削減されました。パイプライン並列処理でアクティベーション値を CPU にアンロードするテクノロジが導入され、パイプライン並列処理におけるビデオメモリの不均一な占有の問題が解決され、パイプライン並列処理のセグメント数が削減され、ボイド率が大幅に削減されました。これらの技術革新により、Baichuan 3 のトレーニング フレームワークは、業界の主流のフレームワークと比較してパフォーマンスが 30% 以上向上しました。 2. 医療データセットのトークン数は1000億を超え、医療機能はGPT-4に近いビッグモデル医療には、大きな社会的価値と産業的価値があります。病気の診断と治療から患者のケアと医薬品の開発まで、ビッグモデルは医師の診断と治療の効率と品質の向上、患者のより良いサービスと経験の実現に役立つだけでなく、社会の医療費とリスクの削減、医療資源の普遍的なアクセスと平等な権利の実現にも役立ちます。また、医療問題は専門性が高く、知識の更新が速く、正確性が求められ、個人差が大きいため、ビッグモデルの能力を十分に反映することができ、百川インテリジェンスでは「ビッグモデルの至宝」と呼ばれています。そのため、OpenAIやGoogleなどの大手モデル企業は、医療を自社モデルの重要なトレーニング方向と位置付け、パフォーマンス評価の重要なシステムとしています。 ChatGPTは2023年2月という早い時期に米国医師免許試験(USMLE)に合格し、医療分野における高い能力を実証しました。 Google は医療分野にさらに力を入れており、PaLM モデルをベースにした大規模な医療モデル Med-PaLM を開発しました。反復版 Med-PaLM 2 は医療テスト MedQA で 80 点以上を獲得し、エキスパート レベルに達しました。 医療分野では、大型モデルの汎用性が重要な役割を果たします。まず、マルチモーダル学習機能により、テキスト、画像、音声などのさまざまな種類の医療データを統合し、より包括的で正確な分析と診断を提供できます。第二に、大規模モデルの深い推論能力は、複雑な医療上の決定を下すのに役立ちます。さらに、安定したパフォーマンスと知識更新機能により、医療アドバイスの信頼性と適時性が保証されます。同時に、大規模モデルの言語理解および生成機能により、専門用語や複雑な文構造も処理できるようになります。最後に、大規模モデルにパターン認識と学習機能を適用することで、複雑な医療データから重要なパターンと特徴を学習して識別できるようになります。そのため、大規模なモデルが医療分野で優れた結果を達成するのは容易ではありません。豊富な医学知識と適切なプロンプトだけでなく、モデル自体に強力な論理的推論能力が求められます。 Baichuan3に豊富な医療知識を注入するために、Baichuan Intelligenceはモデルの事前トレーニング段階で、医療研究文献、実際の電子カルテ、医療分野の専門書や知識ベースリソース、医療問題に関する質疑応答資料など、1,000億トークン以上の価値がある医療データセットを構築しました。このデータセットは、理論から実際の操作、基礎理論から臨床応用まで、医療知識のあらゆる側面を網羅しており、医療分野におけるモデルの専門性と知識の深さを保証します。 医療知識刺激の問題に対応するため、Baichuan Intelligence は Prompt の推論段階で体系的な研究と調整を行いました。タスクを正確に記述し、適切なサンプルを選択することにより、モデル出力はより正確で論理的な推論ステップになりました。最終的には、複数の医療試験における Baichuan 3 のパフォーマンスが向上しただけでなく、実際の医療の質疑応答のシナリオでユーザーに正確で詳細なフィードバックを提供しました。 論理的推論の面では、Baichuan 3は数学やコードなどの複数の権威ある評価においてGPT-4に近い優れた結果を達成しており、その強力な基本的な論理的推論能力を十分に実証しています。 Baichuan 3は、豊富で高品質の専門的な医療知識と、調整されたプロンプトを通じてこの知識を十分に刺激する能力に基づき、1000億を超えるパラメータの推論能力と組み合わせることで、医療分野のタスクのパフォーマンスを大幅に向上させ、さまざまな中国語と英語の医療テストでのスコアが2〜14パーセントポイント増加しました。 Baichuan 3は、複数の権威ある医療評価タスクで優れた成績を収めています。MCMLE、MedExam、CMExamなどの中国語の医療タスクでGPT-4を上回るだけでなく、USMLE、MedMCQAなどの英語の医療タスクでの評価スコアもGPT-4のレベルに近いです。これは、最も強力な医療能力を備えた中国の大型モデルです。 写真 3. 「反復強化学習」技術のブレークスルーにより、作成精度が大幅に向上意味理解とテキスト生成は、大規模モデルの最も基本的な基盤機能であり、他の機能の柱となります。これら 2 つの機能を向上させるために、業界では多くの探求と実践が行われてきました。OpenAI、Google、Anthropic などが導入した RLHF (人間のフィードバックに基づく強化学習) と RLAIF (AI フィードバックに基づく強化学習) は重要な技術です。 強化学習に基づく整合モデルは、特に複数の制約や複数ラウンドの対話の下での指示など、ユーザーの指示をより正確に理解できるだけでなく、生成されるコンテンツの品質をさらに向上させることができます。しかし、大規模モデルで強化学習の役割を最大限に活用するには、安定した効率的な強化学習トレーニングフレームワークと高品質の半順序データだけでなく、モデル機能の継続的な改善を実現するための「探索と利用」のバランスも必要です。 Baichuan Intelligence は上記の問題について徹底的な調査を実施し、的を絞った解決策を提供しました。強化学習トレーニングフレームワークの面では、Baichuan Intelligence は、デュアルトレーニングおよび推論エンジンと複数のモデルの並列スケジューリングを統合した独自の PPO トレーニングフレームワークを開発しました。このフレームワークは、1,000 億を超えるモデルの効率的なトレーニングを十分にサポートでき、業界の主流のフレームワークと比較してトレーニング効率が 400% 向上しています。半順序データに関しては、Baichuan Intelligence は RLHF と RLAIF の組み合わせを革新的に採用して高品質の半順序データを生成し、データ品質とデータコストのより良いバランスを実現します。これを基に、Baichuan Intelligence は「探索と活用」という根本的な課題に応えて、PPO 探索空間と報酬モデル評価空間を同時にアップグレードすることで「反復強化学習」(Iterative RLHF&RLAIF)を実現しました。強化学習に基づくバージョンクライミングにより、SFT に基づくベースモデルの潜在能力をさらに引き出すことができ、Baichuan 3 の意味理解と生成機能が大幅に向上します。 文章作成において最も難しい唐詩と宋の歌詞を例に挙げると、中国伝統文化の宝である詩と歌詞は、形式、韻律、平行性、リズムなどに厳しい制約があるだけでなく、内容が高度に凝縮され、深い意味を持っています。 SFT の微調整のみを使用して学習すると、一方では、高品質の詩の作成データに非常に高い専門家のコストが必要となり、他方では、韻律、平行性、リズムなどの複数の側面における制約の適切な理解と遵守を達成できません。さらに、伝統的な単発RLHFパラダイムも、唐詩と宋詩に直面して大きな課題に直面しています。トレーニング中にPPOによって生成された応答が報酬モデルの評価範囲を超え、「探索」プロセスが制御不能になる可能性があります。 Baichuan 3 は、「RLHF&RLAIF」と反復強化学習手法を組み合わせて、大規模モデルの詩作成能力を新たなレベルに引き上げます。現在の業界最高モデルレベルと比較して、使いやすさが500%向上し、文才はGPT-4をはるかに上回ります。宋辞のように、形式が多様で、構造が奥深く、リズムが豊かな難しい文学ジャンルの場合、生成されるコンテンツは、きちんと対照的で、韻律が調和していることもあります。その精緻で奥深い創作力により、誰でも簡単に対象を描写し考えを表現する五字律詩や七字四行詩を創作でき、願望や感情を表現する「秦元春」や「丁鳳波」を書くことができる。これは大衆の人間性を高めるだけでなく、大型模型の時代に中国の伝統文化が真に「生き生きと」することを助ける。 写真 写真 パラメータ規模が1000億を超える大規模言語モデルとして、Baichuan 3はGPT-4に近いレベルの英語パフォーマンスを実現しただけでなく、多くの一般的な中国語タスクのパフォーマンスでもGPT-4を上回り、Baichuan Intelligenceにとって新たなマイルストーンとなりました。 Baichuan 3の包括的な総合能力と医療分野での強力なパフォーマンスは、Baichuan Intelligenceが「スーパーアプリケーション」を作成し、多くの複雑なアプリケーションシナリオで大規模なモデルテクノロジーを実装するための強力なサポートを提供します。 |
>>: 精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました
[51CTO.com クイック翻訳] ご存知のとおり、顔の特徴は指紋ほどユニークで永続的ではありま...
インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...
最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...
「私たちのチームは、世界最大かつ最先端のテクノロジー企業出身者で構成されています。世界クラスの才能あ...
中国のAI研究者の数は過去10年間で10倍に増加したが、そのほとんどは海外、主に米国に居住している。...
[51CTO.com クイック翻訳] 気付きましたか? 人工知能はもはや、少数のテクノロジー企業の単...
[[431488]]テルネットTelnet プログラムの目的は、ネットワーク経由でリモート ログイン...
最近、AI(人工知能)同時通訳詐欺事件をめぐる議論がテクノロジーや翻訳界で話題となり、「AIは人間を...
翻訳者 |李睿レビュー | Chonglou GPT-4 のような大規模言語モデル (LLM) はソ...
人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...
AAAI(人工知能振興協会)は、人工知能分野で国際的に最も権威のある学術団体の一つです。フェローは協...
現在、新型コロナウイルス感染症のパンデミックが世界的に拡大し、私たちの知る世界は大きく変化しています...