中国語で最も強力なオープンソースモデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

最も徹底したオープンソースモデルがここにあります - 130 億のパラメーター、申請なしで商用利用が可能です。

それだけでなく、世界最大級の中国データセットの 1 つである600G 、 1500 億トークンのオープンソースも付属しています。

これは Kunlun Wanwei のSkywork-13Bシリーズで、次の 2 つのバージョンがあります。

Skywork-13B-Base : 数々のベンチマークテストでトップを獲得したシリーズの基本モデル。
Skywork-13B-Math : GSM8K評価で数学能力第1位を獲得したこのシリーズの数学モデル。

C-Eval、MMLU、CMMLU、GSM8Kなどの主要な権威ある評価ベンチマークでは、Skywork-13Bは中国のオープンソースモデルの中で最先端にあり、同じパラメータスケールで最適レベルにあることがわかります。

Skywork-13B シリーズがこのような優れた成果を達成できた理由の 1 つは、先ほど述べたデータセットによるものです。

結局のところ、クリーンな中国語のデータは大規模モデルにとって非常に重要であり、そのパフォーマンスをある程度決定することになります。

しかし、Kunlun Wanwei はそのような「宝物」を無料で寄付する用意があり、オープンソースコミュニティを構築し、開発者に奉仕することに対する同社の誠意を見るのは難しくありません。

さらに、Kunlun Wanwei Skywork-13Bには「軽量版」の大型モデルも搭載されており、コンシューマーグレードのグラフィックカードに展開して推論することができます。

Skywork-13B ダウンロードアドレス（モデルスコープ）：https://modelscope.cn/organization/skywork

Skywork-13B ダウンロードアドレス (Github): https://github.com/SkyworkAI/Skywork

次に、Skywork-13B シリーズのさらなる機能を詳しく見てみましょう。

商用利用には申請は必要ありません

Skywork-13Bシリーズの大規模モデルには、130億のパラメータと3.2兆の高品質な多言語トレーニングデータが含まれています。

その結果、生成、作成、数学的推論などのタスクにおいてモデルが大幅に改善されました。

まず、中国語のモデリング難度評価において、Skywork-13Bシリーズの大型モデルは、現在のすべての中国のオープンソースモデルを上回りました。

科学技術、金融、政府関係、企業サービス、文化創造、ゲームの分野で優れた実績を残してきました。

さらに、Skywork-13B-Math は数学的なタスクに特化しており、集中的な数学的トレーニングを受けており、GSM8K などのデータセットで同じサイズのモデルの中で最高の結果を達成しています。

同時に、Kunlun Wanwei はデータセットSkypile/Chinese-Web-Text-150Bもオープンソース化しました。そのデータは、慎重にフィルタリングされたデータ処理プロセスを通じて、中国語の Web ページからフィルタリングされます。

その結果、開発者は技術レポートにおける大規模モデルの事前トレーニングのプロセスと経験を最大限に活用し、モデルパラメータを詳細にカスタマイズし、ターゲットを絞ったトレーニングと最適化を実施できるようになります。

さらに、Skywork-13B では、モデルで使用される評価方法、データ比率の研究、トレーニングインフラストラクチャのチューニングソリューションも公開されました。

Skywork-13B シリーズのオープンソース製品は、申請なしで商用利用が可能です。

モデルをダウンロードし、Skywork モデルコミュニティライセンス契約に従うことに同意すると、ユーザーは再度商用許可を申請する必要がなくなります。

認証プロセスにより、業界、企業規模、ユーザー数などの制限も解除されます。

Kunlun Wanwei が徹底的にオープンソースであることは驚くべきことではありません。

崑崙万為の会長兼CEOであるFang Han氏は、オープンソースエコシステムの構築に初めて参加したベテランであり、中国のLinuxオープンソースの最も初期の推進者の一人です。

今年 ChatGPT のトレンドが始まったばかりの頃、彼はオープンソースの重要性を強調するために何度も公の場で講演しました。

オープンソースコードは、ChatGPT の中国語版が他のバージョンを追い抜くのに役立ちます。

したがって、Skywork-13Bシリーズの大型モデルの発売は理解しにくいことではありません。

では、Skywork-13B シリーズのオープンソース作業はどのように実現されるのでしょうか?

より薄い構造、より完全なデータ

Skywork-13B の技術的な詳細は、次の 4 つの側面から見ることができます。

モデル構造
トレーニングデータ
トレーニング方法
評価方法

まず、構造面では、Skywork-13B は Llama2-13B よりも「細身」で、モデルの層数は 52 です。

これを行う利点は、大規模なバッチサイズのトレーニングでより優れた一般化効果を達成できることです。

同時に、FFN Dim を 12288 と 4608 に減らすことで、モデルパラメータの数を元の Llama2-13B モデルと同等にすることができます。

Skywork-13BとLlama2-13Bの具体的な比較は次のとおりです。

第二に、データ面では、崑崙万為は英語、中国語、コードデータの割合も公開しました。

中国語と英語の部分では、学術論文、年次報告書、文書など比較的専門的な側面を考慮しながら、大量のウェブページデータとソーシャルメディアデータを吸収していることがわかります。

コードに関しては、データは主に GitHub から吸収されます。

トレーニング方法に関しても、Skywork-13B は完全にオープンソースです。

トレーニングには 2 つのフェーズがあります。

最初のフェーズでは、一般的なコーパスを使用して一般的なスキルを学習し、2 番目のフェーズでは、STEM (科学、技術、工学、数学) 関連のデータを追加して、モデルの推論、数学、問題解決能力をさらに強化します。

これを行う利点は、データをより洗練された方法で使用できることです。

最後に、モデル評価に関して、Kunlun Wanwei はドメインデータの複雑性を評価する方法を提供します。

大規模言語モデルのトレーニングの本質は、予測される次の単語（個々）をより正確にすることです。

Kunlun Wanwei は、基本的な大規模モデルを評価する重要な方法は、大規模言語モデルがさまざまな分野の記事(全体として)を生成する確率を評価することであると考えています。

一般的なモデルは、クロスエントロピー損失関数を使用して次の単語の確率を予測し、全体的な損失関数は各位置予測の実際の単語損失の平均です。

n は文書の長さ (トークンの数) を表し、 _piは位置 i にある実際の単語の確率です。

文書内の各位置の実際の単語の確率を掛け合わせると、文書全体を生成する確率が得られます。

このようにして、損失は記事を生成する確率に結び付けられます。

異なるモデルでは異なる単語セグメンターと異なる数のトークンが使用されるため、損失関数にはトークン数 n が掛けられます。このようにして、記事を生成する確率のみが考慮され、異なるモデルを比較することができます。

正規化された損失を指数的に困惑度に変換すると、モデルの違いがより読みやすくなります。

上記の分析に基づき、崑崙万為は今月（2023年10月）に複数の分野で発表された数百の高品質な論文を選別し、手作業で検証を行った。

最新のデータが選択されるのは、テストデータが評価されるすべての大規模モデルのトレーニングセット内に含まれないようにするためです。

以下は最終評価結果であり、Skywork-13B が優れたパフォーマンスを発揮したことがわかります。

どのように評価しますか?

今回の崑崙万為のオープンソースリリースでは、 「挑戦」が主なテーマであると言える。

結局のところ、大規模モデルの背後にある強力なツール、つまり高品質のデータセットをこれほどオープンに共有できる人は、世界でもほとんどいません。

より広い視点から時系列を見ると、崑崙万為がなぜそれほど「大胆」だったのか理解するのは難しくありません。

今年初め、世界中の大手メーカーによる大型モデル間の競争が本格化する中、崑崙万為はダークホースとして直接百モデル戦争に参戦した。

最初のリリースでは、Tiangong がライブ放送とリアルタイムデモンストレーションの形で独自のプログラマーインタビューに参加することを敢えてし、彼は順調に第 1 ラウンドを通過しました。

インタビューの質問に加えて、崑崙万偉はネットユーザーから次々と投げかけられたさまざまな難しい質問にも果敢に挑んだ。

今後、Kunlun Wanwei は数か月ごとにシステムの最適化を継続し、意味理解や推論などのタスクをよりスムーズに実行していきます。

そして8月末には、崑崙万為が先頭に立って、大規模モデル機能を組み込んだ中国初のAI検索を開始した。

当時としてはプラグインとは別に、大規模なモデル機能を敢えて活用した初の独立型AI検索製品でした。

わずか2か月後、Kunlun Wanweiは最新の大型モデルと最新のデータセットをリリースし、オープンソース化しました。そのすべての行動は速いだけでなく、大胆でもあると言えます。

それで次の質問は、なぜこれをするのかということです。

実は、崑崙万為は2020年という早い時期にAIGC分野への参入を開始していた。早期の準備と技術の蓄積が、大きなブームが来たときに素早く対応できた理由の一つだった。

崑崙万為は現在、AIビッグモデル、AI検索、AIゲーム、AI音楽、AIアニメーション、AIソーシャルネットワーキングの6つの主要なAIビジネスマトリックスを形成していると理解されています。

一方、オープンソースを成功させ、拡大させるためのたゆまぬ努力は、同社の遺伝子から生まれたものです。

崑崙万為の会長兼CEOである方漢氏は、オープンソースエコシステムの構築に最初に参加した一人であるベテランオープンソース開発者であり、中国のLinuxオープンソースの最も初期の推進者の一人でもあります。オープンソースの精神とAIGC技術の開発は、長い間崑崙万為の戦略に完全に統合されてきました。

ファン・ハンは以前こう言っています。

Kunlun Tiangong がオープンソースを選択したのは、オープンソースが AIGC エコシステムの発展を促進するための土壌であり、重要な力であると固く信じているからです。 Kunlun Wanwei は、AIGC モデルアルゴリズムの技術革新と開発に取り組んでおり、オープンソースの AIGC アルゴリズムとモデルコミュニティの開発と成長を促進し、あらゆる分野で AIGC テクノロジの使用と学習のハードルを下げることに尽力しています。

そうです、敷居を下げることがオープンソースにこだわるもう一つの大きな理由です。

百式戦役に突入して以来、崑崙万為がとったさまざまな行動から、天宮をより使いやすく、よりスムーズにするために取り組んでいることが容易にわかります。

一言で言えば、崑崙万為は現在、国産大型模型の第一層に位置しており、ピラミッドの頂点に位置していると言っても過言ではありません。

したがって、オープンソースのサポートが強化されたことで、Tiangong モデルがどのような驚くべきパフォーマンスを発揮するかが楽しみになります。

<<: 科学春節祭、それはBステーションに違いない：志会君のロボットアームが広漢宮殿を建設し、アカデミー会員の下半身が直接消えた

>>: ChatGPTがまた進化しました！オールインワンツール、ネットユーザー：今日、起業プロジェクトがいくつ消滅したか