百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの準備がほぼ整っていると報じた。今日、IT Home は、基盤となるアーキテクチャ、インフラストラクチャ、トレーニング データ セット、コストなどの重要な情報を含む Wenxin 4.0 の詳細も知りました。

まず核心的な結論から始めましょう。

  • 1. 昨日の暴露は基本的に真実でした。現在、Wenxin Model 4.0 は実際に小規模なトラフィックベースでテストされていることが分かっています。
  • 2. Wenxin 4.0 のパラメータ数は、公開されているすべての LLM のパラメータ数より多く、Wanka クラスターを使用してトレーニングされた中国初の大規模モデルでもあります。
  • 3. 推論コストは Wenxin 3.5 と比較して大幅に増加しており、約 8 ~ 10 倍と言われています。 (大型モデルは本当に高価です)

次に、啓示の詳細を見てみましょう。

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーター モデル?

IT Homeが入手した情報によると、文心モデル4.0のパラメータ規模は、パラメータが公開されているすべてのLLMよりも大きく、文心モデル4.0のパラメータ規模は兆レベルを超えると予想されるという

このパラメータ量だけ見ると、それほど悪くないと思う人も多いでしょう。何しろ、現在公開されている情報によると、GPT-4のパラメータ数はすでに約1兆8千億にも上ります。しかし、内部告発者はさらに、Wenxin Model 4.0はまだ単一のモデルであり、GPTや他の多くの大規模言語モデルで使用されている混合エキスパートモデル(MoE)を採用していないと述べました。

以前、「天才ハッカー」ジョージ・ホッツ氏は、GPT-4がハイブリッドモデルを採用している理由は、モデルのパラメータスケールを2200億以上にすることが不可能だからだと明かした。 OpenAI はモデルの改善を望んでいますが、トレーニングに時間がかかると、効果は減少します。

したがって、Baidu が単一のモデルでブレークスルーを達成できたとしても、モデルの機能も大幅に向上するかどうかは、実際にリリースされて初めてわかることになります。

これほど多数のパラメータを持つモデルには、大量の計算能力が必要になります。現在のニュースでは、 Wenxin 4.0 は Wanka AI クラスターでトレーニングされており、これは Wanka 規模のクラスターを使用してトレーニングされた中国初の大規模言語モデルと見なされるべきです。

万華クラスターのコンセプトとは?現在中国では、ファーウェイとアリババのみが万華AIクラスターを構築したことを明らかにしていますが、それに基づいた具体的なモデルが発売されたという話はまだありません。

これは、Wanka クラスターを構築するのは簡単ではなく、それを最大限に活用するのはさらに難しいことを示しています。分析によると、PaddlePaddle の深い統合のおかげで、このような規模のモデルを Wanka クラスターに基づいてトレーニングできるのです。

コストが高騰し、一般向けに少量の検査が実施されている

トレーニングコストが増加しているだけでなく、Wenxin 4.0の推論コストも3.5と比較して大幅に増加していることが明らかになりました。IT Homeはまだ1000トークンあたりの具体的な推論コストを入手していませんが、以前の約8〜10倍であると噂されており、これはまだ高使用率(MFU)条件下です。利用率が低い場合、コストは増加し続けると予想されます。

最後に、 Baiduの社内従業員によると、実際に少量のトラフィックでWenxin Model 4.0の秘密のテストを開始したとのこと。少数のWenxin Yiyanユーザーがすでに最新バージョンのモデルを使用しており、早ければ来週にも正式に発表される予定だ。

多くの人々は、この声明の方が信頼性が高いと信じており、テクノロジーコミュニティにおける最近のいくつかの暴露からもいくつかの手がかりを見ることができます。おそらく、Wenxin Yiyan で質問するときは、Wenxin モデル 4.0 を使用しているのでしょう。生成された結果が GPT-4 と競合できるかどうかはわかりません。

IT Home は、上記の情報は公式に確認されたものではなく、その正確性は各自が判断すべきであることを改めて強調します。

<<:  新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

権威ある業界レポートが発表されました。我が国のロボット開発の特徴と傾向は何ですか?

ロボットは「製造業の至宝」とみなされており、ロボット産業の発展は国家のイノベーションと産業競争力の向...

自動運転はどこまで徹底できるのか?運転席をなくすことさえできる。

Baiduの無人運転アプリケーションを見ました。私は車の所有者が自動で駐車するのを助けるアウディの...

ネイチャーが中国のAIの現状を分析。2030年に世界をリードできるか?

ネイチャー誌の最近の分析記事では、中国の人工知能研究は質の面で急速な進歩を遂げているが、影響力の大き...

人工知能時代の雇用問題と解決策

人工知能(AI)は現在、頻繁に使われる言葉であり、一般的には、もう一つの総合的な技術革命、つまり「第...

テンセント・フンユアン・ビッグモデル・アップグレード:「文勝図」を追加し、コード能力を大幅に向上

テンセントは10月26日、テンセント渾源モデルが新たなアップグレードを経て、「文勝図」機能を正式に公...

フォーブス誌の2020年AIに関するトップ10予測: 人工知能はますます「疎外」されつつある

人工知能 (AI) は間違いなく 2010 年代のテクノロジーのテーマであり、新しい 10 年が始ま...

精度が極めて低いです! OpenAIがAI検出器を削除、ICMLの傑出した論文が非難される

OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier を...

...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...

これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...

研究者:AIは将来「感情」を持つことが期待されており、関連する医療ハードウェア産業の発展に役立つ可能性がある

著名なAI研究者のジェフリー・ヒントン氏は、Googleを退職後、人工知能関連産業の研究に専念してい...

地球外文明は人間ではなく、人工知能かもしれません!なぜ科学者はこう言うのでしょうか?

地球外文明が存在するかどうかという疑問は、常に科学者たちを深く悩ませてきました。現在に至るまで、私た...

IBM、次世代AI開発をメインフレームに移行するための更新されたツールスイートをリリース

IBMは木曜日、メインフレーム開発者向けに最近発表した生成型AIコーディング機能をベースに、古いデー...

2021年中国の人工知能産業市場規模とサブ産業の市場予測分析

人工知能は、人間による情報の統合、データの分析、機械の助けを借りた洞察の獲得のプロセスを再構築し、人...

Pythonを使用して独自の音声認識システムをトレーニングします。この操作の波は安定しています

近年、音声認識技術は急速に発展しており、携帯電話のSiri音声インテリジェントアシスタント、Micr...