中国語で最も強力なオープンソース モデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

中国語で最も強力なオープンソース モデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

最も徹底したオープンソース モデルがここにあります - 130 億のパラメーター、申請なしで商用利用が可能です。

それだけでなく、世界最大級の中国データセットの 1 つである600G1500 億トークンのオープンソースも付属しています。

これは Kunlun Wanwei のSkywork-13Bシリーズで、次の 2 つのバージョンがあります。

  • Skywork-13B-Base : 数々のベンチマークテストでトップを獲得したシリーズの基本モデル。
  • Skywork-13B-Math : GSM8K評価で数学能力第1位を獲得したこのシリーズの数学モデル。

C-Eval、MMLU、CMMLU、GSM8Kなどの主要な権威ある評価ベンチマークでは、Skywork-13Bは中国のオープンソースモデルの中で最先端にあり、同じパラメータスケールで最適レベルにあることがわかります。

Skywork-13B シリーズがこのような優れた成果を達成できた理由の 1 つは、先ほど述べたデータ セットによるものです。

結局のところ、クリーンな中国語のデータは大規模モデルにとって非常に重要であり、そのパフォーマンスをある程度決定することになります。

しかし、Kunlun Wanwei はそのような「宝物」を無料で寄付する用意があり、オープンソース コミュニティを構築し、開発者に奉仕することに対する同社の誠意を見るのは難しくありません。

さらに、Kunlun Wanwei Skywork-13Bには「軽量版」の大型モデルも搭載されており、コンシューマーグレードのグラフィックカードに展開して推論することができます。

Skywork-13B ダウンロードアドレス(モデルスコープ):https://modelscope.cn/organization/skywork

Skywork-13B ダウンロードアドレス (Github): https://github.com/SkyworkAI/Skywork

次に、Skywork-13B シリーズのさらなる機能を詳しく見てみましょう。

商用利用には申請は必要ありません

Skywork-13Bシリーズの大規模モデルには、130億のパラメータと3.2兆の高品質な多言語トレーニングデータが含まれています。

その結果、生成、作成、数学的推論などのタスクにおいてモデルが大幅に改善されました。

まず、中国語のモデリング難度評価において、Skywork-13Bシリーズの大型モデルは、現在のすべての中国のオープンソースモデルを上回りました

科学技術、金融、政府関係、企業サービス、文化創造、ゲームの分野で優れた実績を残してきました。

さらに、Skywork-13B-Math は数学的なタスクに特化しており、集中的な数学的トレーニングを受けており、GSM8K などのデータセットで同じサイズのモデルの中で最高の結果を達成しています。

同時に、Kunlun Wanwei はデータセットSkypile/Chinese-Web-Text-150Bもオープンソース化しました。そのデータは、慎重にフィルタリングされたデータ処理プロセスを通じて、中国語の Web ページからフィルタリングされます。

その結果、開発者は技術レポートにおける大規模モデルの事前トレーニングのプロセスと経験を最大限に活用し、モデルパラメータを詳細にカスタマイズし、ターゲットを絞ったトレーニングと最適化を実施できるようになります。

さらに、Skywork-13B では、モデルで使用される評価方法、データ比率の研究、トレーニング インフラストラクチャのチューニング ソリューションも公開されました。

Skywork-13B シリーズのオープンソース製品は、申請なしで商用利用が可能です

モデルをダウンロードし、Skywork モデル コミュニティ ライセンス契約に従うことに同意すると、ユーザーは再度商用許可を申請する必要がなくなります。

認証プロセスにより、業界、企業規模、ユーザー数などの制限も解除されます。

Kunlun Wanwei が徹底的にオープンソースであることは驚くべきことではありません。

崑崙万為の会長兼CEOであるFang Han氏は、オープンソースエコシステムの構築に初めて参加したベテランであり、中国のLinuxオープンソースの最も初期の推進者の一人です。

今年 ChatGPT のトレンドが始まったばかりの頃、彼はオープンソースの重要性を強調するために何度も公の場で講演しました。

オープンソースコードは、ChatGPT の中国語版が他のバージョンを追い抜くのに役立ちます。

したがって、Skywork-13Bシリーズの大型モデルの発売は理解しにくいことではありません。

では、Skywork-13B シリーズのオープンソース作業はどのように実現されるのでしょうか?

より薄い構造、より完全なデータ

Skywork-13B の技術的な詳細は、次の 4 つの側面から見ることができます。

  • モデル構造
  • トレーニングデータ
  • トレーニング方法
  • 評価方法

まず、構造面では、Skywork-13B は Llama2-13B よりも「細身」で、モデルの層数は 52 です。

これを行う利点は、大規模なバッチ サイズのトレーニングでより優れた一般化効果を達成できることです。

同時に、FFN Dim を 12288 と 4608 に減らすことで、モデル パラメータの数を元の Llama2-13B モデルと同等にすることができます。

Skywork-13BとLlama2-13Bの具体的な比較は次のとおりです。

第二に、データ面では、崑崙万為は英語、中国語、コードデータの割合も公開しました。

中国語と英語の部分では、学術論文、年次報告書、文書など比較的専門的な側面を考慮しながら、大量のウェブページデータとソーシャルメディアデータを吸収していることがわかります。

コードに関しては、データは主に GitHub から吸収されます。

トレーニング方法に関しても、Skywork-13B は完全にオープンソースです。

トレーニングには 2 つのフェーズがあります。

最初のフェーズでは、一般的なコーパスを使用して一般的なスキルを学習し、2 番目のフェーズでは、STEM (科学、技術、工学、数学) 関連のデータを追加して、モデルの推論、数学、問題解決能力をさらに強化します。

これを行う利点は、データをより洗練された方法で使用できることです。

最後に、モデル評価に関して、Kunlun Wanwei はドメイン データの複雑性を評価する方法を提供します。

大規模言語モデルのトレーニングの本質は、予測される次の単語(個々)をより正確にすることです。

Kunlun Wanwei は、基本的な大規模モデルを評価する重要な方法は、大規模言語モデルがさまざまな分野の記事(全体として)を生成する確率を評価することであると考えています。

一般的なモデルは、クロスエントロピー損失関数を使用して次の単語の確率を予測し、全体的な損失関数は各位置予測の実際の単語損失の平均です。

n は文書の長さ (トークンの数) を表し、 piは位置 i にある実際の単語の確率です。

文書内の各位置の実際の単語の確率を掛け合わせると、文書全体を生成する確率が得られます。

このようにして、損失は記事を生成する確率に結び付けられます。

異なるモデルでは異なる単語セグメンターと異なる数のトークンが使用されるため、損失関数にはトークン数 n が掛けられます。このようにして、記事を生成する確率のみが考慮され、異なるモデルを比較することができます

正規化された損失を指数的に困惑度に変換すると、モデルの違いがより読みやすくなります。

上記の分析に基づき、崑崙万為は今月(2023年10月)に複数の分野で発表された数百の高品質な論文を選別し、手作業で検証を行った。

最新のデータが選択されるのは、テスト データが評価されるすべての大規模モデルのトレーニング セット内に含まれないようにするためです。

以下は最終評価結果であり、Skywork-13B が優れたパフォーマンスを発揮したことがわかります。

どのように評価しますか?

今回の崑崙万為のオープンソースリリースでは、 「挑戦」が主なテーマであると言える。

結局のところ、大規模モデルの背後にある強力なツール、つまり高品質のデータセットをこれほどオープンに共有できる人は、世界でもほとんどいません。

より広い視点から時系列を見ると、崑崙万為がなぜそれほど「大胆」だったのか理解するのは難しくありません。

今年初め、世界中の大手メーカーによる大型モデル間の競争が本格化する中、崑崙万為はダークホースとして直接百モデル戦争に参戦した。

最初のリリースでは、Tiangong がライブ放送とリアルタイムデモンストレーションの形で独自のプログラマーインタビューに参加することを敢えてし、彼は順調に第 1 ラウンドを通過しました。

インタビューの質問に加えて、崑崙万偉はネットユーザーから次々と投げかけられたさまざまな難しい質問にも果敢に挑んだ。

今後、Kunlun Wanwei は数か月ごとにシステムの最適化を継続し、意味理解や推論などのタスクをよりスムーズに実行していきます。

そして8月末には、崑崙万為が先頭に立って、大規模モデル機能を組み込んだ中国初のAI検索を開始した。

当時としてはプラグインとは別に、大規模なモデル機能を敢えて活用した初の独立型AI検索製品でした。

わずか2か月後、Kunlun Wanweiは最新の大型モデルと最新のデータセットをリリースし、オープンソース化しました。そのすべての行動は速いだけでなく、大胆でもあると言えます。

それで次の質問は、なぜこれをするのかということです。

実は、崑崙万為は2020年という早い時期にAIGC分野への参入を開始していた。早期の準備と技術の蓄積が、大きなブームが来たときに素早く対応できた理由の一つだった。

崑崙万為は現在、AIビッグモデル、AI検索、AIゲーム、AI音楽、AIアニメーション、AIソーシャルネットワーキングの6つの主要なAIビジネスマトリックスを形成していると理解されています。

一方、オープンソースを成功させ、拡大させるためのたゆまぬ努力は、同社の遺伝子から生まれたものです。

崑崙万為の会長兼CEOである方漢氏は、オープンソースエコシステムの構築に最初に参加した一人であるベテランオープンソース開発者であり、中国のLinuxオープンソースの最も初期の推進者の一人でもあります。オープンソースの精神とAIGC技術の開発は、長い間崑崙万為の戦略に完全に統合されてきました。

ファン・ハンは以前こう言っています。

Kunlun Tiangong がオープンソースを選択したのは、オープンソースが AIGC エコシステムの発展を促進するための土壌であり、重要な力であると固く信じているからです。 Kunlun Wanwei は、AIGC モデル アルゴリズムの技術革新と開発に取り組んでおり、オープン ソースの AIGC アルゴリズムとモデル コミュニティの開発と成長を促進し、あらゆる分野で AIGC テクノロジの使用と学習のハードルを下げることに尽力しています。

そうです、敷居を下げることがオープンソースにこだわるもう一つの大きな理由です。

百式戦役に突入して以来、崑崙万為がとったさまざまな行動から、天宮をより使いやすく、よりスムーズにするために取り組んでいることが容易にわかります。

一言で言えば、崑崙万為は現在、国産大型模型の第一層に位置しており、ピラミッドの頂点に位置していると言っても過言ではありません。

したがって、オープンソースのサポートが強化されたことで、Tiangong モデルがどのような驚くべきパフォーマンスを発揮するかが楽しみになります。

<<:  科学春節祭、それはBステーションに違いない:志会君のロボットアームが広漢宮殿を建設し、アカデミー会員の下半身が直接消えた

>>:  ChatGPTがまた進化しました!オールインワンツール、ネットユーザー:今日、起業プロジェクトがいくつ消滅したか

ブログ    
ブログ    
ブログ    

推薦する

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...

準備はできたか? GNN グラフ ニューラル ネットワーク 2021 年の主要なアプリケーション ホットスポット 5 つ

[[378224]]今年から始めます。グラフニューラルネットワークは研究者の間で話題になっており、こ...

2023年に開発者が知っておくべき6つのAIツール

Chat GPTのリリース以来、AIはプログラミングをはじめ、さまざまな分野で素晴らしい製品を生み出...

...

AI+IoT: インテリジェント IoT (インダストリー 4.0 を含む) の需要が高い 5 つの業界

未来のスマートワールドでは、あらゆるものがモノのインターネットでつながり、あらゆるものがインテリジェ...

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

人工知能は21世紀における最も重要な技術的成果となりました。したがって、世界規模の開発動向に注目する...

顔認識が再び禁止される:プライバシーと偏見をめぐる論争は続く 米国の別の州が顔認識ソフトウェアを禁止

海外メディアの報道によると、ニューヨーク州議会は、学校での顔認証やその他の生体認証技術の使用を202...

ChatGPTでユーザーは何をするのでしょうか?プログラミングは30%を占めています。数千万人のユーザーを分析すると答えが見つかります

生成 AI、特に ChatGPT は、技術系プレス、主流メディア、そしてほぼすべての分野の専門家の間...

VB.NET コーディングアルゴリズム学習ノート

この記事では、VB.NET コーディング アルゴリズムを紹介します。おそらく、まだ多くの人が VB....

自動運転に関する毎年恒例の議論:量産化は3つの要因によって推進され、その本質はデータ軍拡競争である

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

生成 AI が流行する中、コンプライアンス計画にはどのような変化が見られるのでしょうか?

消費者のショッピング嗜好を予測したり、軍事上の意思決定を導いたり、金融犯罪に関する独自の洞察を提供し...

米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効

最近、米国商務省産業安全保障局(BIS)は、サイバーセキュリティ分野に関する最新の輸出管理規制を正式...

Google Brain エンジニアの講演: TensorFlow とディープラーニング

この記事は、Google Brain エンジニアの Zhou Yuefeng 氏が QCon Sha...

...

...