百度文心ビッグモデル4.0速報：万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの準備がほぼ整っていると報じた。今日、IT Home は、基盤となるアーキテクチャ、インフラストラクチャ、トレーニングデータセット、コストなどの重要な情報を含む Wenxin 4.0 の詳細も知りました。

まず核心的な結論から始めましょう。

1. 昨日の暴露は基本的に真実でした。現在、Wenxin Model 4.0 は実際に小規模なトラフィックベースでテストされていることが分かっています。
2. Wenxin 4.0 のパラメータ数は、公開されているすべての LLM のパラメータ数より多く、Wanka クラスターを使用してトレーニングされた中国初の大規模モデルでもあります。
3. 推論コストは Wenxin 3.5 と比較して大幅に増加しており、約 8 ～ 10 倍と言われています。（大型モデルは本当に高価です）

次に、啓示の詳細を見てみましょう。

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーターモデル?

IT Homeが入手した情報によると、文心モデル4.0のパラメータ規模は、パラメータが公開されているすべてのLLMよりも大きく、文心モデル4.0のパラメータ規模は兆レベルを超えると予想されるという。

このパラメータ量だけ見ると、それほど悪くないと思う人も多いでしょう。何しろ、現在公開されている情報によると、GPT-4のパラメータ数はすでに約1兆8千億にも上ります。しかし、内部告発者はさらに、Wenxin Model 4.0はまだ単一のモデルであり、GPTや他の多くの大規模言語モデルで使用されている混合エキスパートモデル（MoE）を採用していないと述べました。

以前、「天才ハッカー」ジョージ・ホッツ氏は、GPT-4がハイブリッドモデルを採用している理由は、モデルのパラメータスケールを2200億以上にすることが不可能だからだと明かした。 OpenAI はモデルの改善を望んでいますが、トレーニングに時間がかかると、効果は減少します。

したがって、Baidu が単一のモデルでブレークスルーを達成できたとしても、モデルの機能も大幅に向上するかどうかは、実際にリリースされて初めてわかることになります。

これほど多数のパラメータを持つモデルには、大量の計算能力が必要になります。現在のニュースでは、 Wenxin 4.0 は Wanka AI クラスターでトレーニングされており、これは Wanka 規模のクラスターを使用してトレーニングされた中国初の大規模言語モデルと見なされるべきです。

万華クラスターのコンセプトとは？現在中国では、ファーウェイとアリババのみが万華AIクラスターを構築したことを明らかにしていますが、それに基づいた具体的なモデルが発売されたという話はまだありません。

これは、Wanka クラスターを構築するのは簡単ではなく、それを最大限に活用するのはさらに難しいことを示しています。分析によると、PaddlePaddle の深い統合のおかげで、このような規模のモデルを Wanka クラスターに基づいてトレーニングできるのです。

コストが高騰し、一般向けに少量の検査が実施されている

トレーニングコストが増加しているだけでなく、Wenxin 4.0の推論コストも3.5と比較して大幅に増加していることが明らかになりました。IT Homeはまだ1000トークンあたりの具体的な推論コストを入手していませんが、以前の約8〜10倍であると噂されており、これはまだ高使用率（MFU）条件下です。利用率が低い場合、コストは増加し続けると予想されます。

最後に、 Baiduの社内従業員によると、実際に少量のトラフィックでWenxin Model 4.0の秘密のテストを開始したとのこと。少数のWenxin Yiyanユーザーがすでに最新バージョンのモデルを使用しており、早ければ来週にも正式に発表される予定だ。

多くの人々は、この声明の方が信頼性が高いと信じており、テクノロジーコミュニティにおける最近のいくつかの暴露からもいくつかの手がかりを見ることができます。おそらく、Wenxin Yiyan で質問するときは、Wenxin モデル 4.0 を使用しているのでしょう。生成された結果が GPT-4 と競合できるかどうかはわかりません。

IT Home は、上記の情報は公式に確認されたものではなく、その正確性は各自が判断すべきであることを改めて強調します。

<<: 新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

>>:

百度文心ビッグモデル4.0速報：万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーターモデル?

コストが高騰し、一般向けに少量の検査が実施されている

今後のマシンビジョンのトレンド

ロボットが人間を攻撃、しかしテスラはそのニュースを隠蔽？マスク氏はこう答えた。

Microsoft AI の面接の質問はどれくらい難しいですか?サンプルロールはこちら

米メディア：なぜソフトロボットは科学者を魅了するのか？

音声認識を開発する方法

人工知能は前例のないキャリア革命をもたらすだろう

オライリー、2023年ジェネレーティブAIエンタープライズレポートを発表

Baidu がカスタマイズされたトレーニングおよびサービスプラットフォーム EasyDL を全面公開: 誰もが AI を使えるように

ヘルスケアにおける人工知能の機会とリスク

推薦する

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

北京大学とテンセントは、デザイナーと同じくらいクリエイティブなテキストロゴ生成モデルを提案した。

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

人工知能は社会統治の近代化を効果的に促進できる

優れたオープンソース RPA フレームワーク 5 つ

ソラを解剖：技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

Googleが謝罪：Vision AIが人種差別的な結果を生成

ML 向け勾配降下法アルゴリズム機械学習初心者向け勾配降下法アルゴリズム

2021年の人工知能業界の予測

人工知能が中国の古典「古いドラマ」と「古い映画」に新たな表情を与える

産業用ロボットの開発動向

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーター モデル?

コストが高騰し、一般向けに少量の検査が実施されている

推薦する

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーターモデル?