昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの準備がほぼ整っていると報じた。今日、IT Home は、基盤となるアーキテクチャ、インフラストラクチャ、トレーニング データ セット、コストなどの重要な情報を含む Wenxin 4.0 の詳細も知りました。 まず核心的な結論から始めましょう。
次に、啓示の詳細を見てみましょう。 Wanka Cluster によってこれまでにトレーニングされた最大のパラメーター モデル?IT Homeが入手した情報によると、文心モデル4.0のパラメータ規模は、パラメータが公開されているすべてのLLMよりも大きく、文心モデル4.0のパラメータ規模は兆レベルを超えると予想されるという。 このパラメータ量だけ見ると、それほど悪くないと思う人も多いでしょう。何しろ、現在公開されている情報によると、GPT-4のパラメータ数はすでに約1兆8千億にも上ります。しかし、内部告発者はさらに、Wenxin Model 4.0はまだ単一のモデルであり、GPTや他の多くの大規模言語モデルで使用されている混合エキスパートモデル(MoE)を採用していないと述べました。 以前、「天才ハッカー」ジョージ・ホッツ氏は、GPT-4がハイブリッドモデルを採用している理由は、モデルのパラメータスケールを2200億以上にすることが不可能だからだと明かした。 OpenAI はモデルの改善を望んでいますが、トレーニングに時間がかかると、効果は減少します。 したがって、Baidu が単一のモデルでブレークスルーを達成できたとしても、モデルの機能も大幅に向上するかどうかは、実際にリリースされて初めてわかることになります。 これほど多数のパラメータを持つモデルには、大量の計算能力が必要になります。現在のニュースでは、 Wenxin 4.0 は Wanka AI クラスターでトレーニングされており、これは Wanka 規模のクラスターを使用してトレーニングされた中国初の大規模言語モデルと見なされるべきです。 万華クラスターのコンセプトとは?現在中国では、ファーウェイとアリババのみが万華AIクラスターを構築したことを明らかにしていますが、それに基づいた具体的なモデルが発売されたという話はまだありません。 これは、Wanka クラスターを構築するのは簡単ではなく、それを最大限に活用するのはさらに難しいことを示しています。分析によると、PaddlePaddle の深い統合のおかげで、このような規模のモデルを Wanka クラスターに基づいてトレーニングできるのです。 コストが高騰し、一般向けに少量の検査が実施されているトレーニングコストが増加しているだけでなく、Wenxin 4.0の推論コストも3.5と比較して大幅に増加していることが明らかになりました。IT Homeはまだ1000トークンあたりの具体的な推論コストを入手していませんが、以前の約8〜10倍であると噂されており、これはまだ高使用率(MFU)条件下です。利用率が低い場合、コストは増加し続けると予想されます。 最後に、 Baiduの社内従業員によると、実際に少量のトラフィックでWenxin Model 4.0の秘密のテストを開始したとのこと。少数のWenxin Yiyanユーザーがすでに最新バージョンのモデルを使用しており、早ければ来週にも正式に発表される予定だ。 多くの人々は、この声明の方が信頼性が高いと信じており、テクノロジーコミュニティにおける最近のいくつかの暴露からもいくつかの手がかりを見ることができます。おそらく、Wenxin Yiyan で質問するときは、Wenxin モデル 4.0 を使用しているのでしょう。生成された結果が GPT-4 と競合できるかどうかはわかりません。 IT Home は、上記の情報は公式に確認されたものではなく、その正確性は各自が判断すべきであることを改めて強調します。 |
<<: 新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ
データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...
[[402166]]今日、ロボットを自動化やインダストリー 4.0 戦略にシームレスに統合する方法に...
ほとんどの人は本物と偽物を区別できると自信を持っていますが、ディープフェイクの台頭により、この能力は...
世界経済フォーラム(AI が地球を救う 8 つの方法)を含む多くの予測では、人工知能 (AI) が「...
生成型人工知能 (GenAI) はテクノロジー分野に大きな影響を与えており、その変革の可能性は現在ソ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...
[[221813]] [51CTO.com クイック翻訳] JavaScript 開発者は、さまざま...
本文を始める前に、写真を見てみましょう。下の図では、写真の右半分に豊富な情報と明確な構造が表れている...
インテリジェンスは近年、製造業における最も重要なトレンドです。過去数年間の市場教育を経て、過去2年間...