アリババクラウドは、70億のパラメータを持つTongyi Qianwen大規模モデルをオープンソース化し、無料で商用利用可能に

アリババクラウドは、70億のパラメータを持つTongyi Qianwen大規模モデルをオープンソース化し、無料で商用利用可能に

大規模モデルの開発動向はオープンソースへと移行し始めています。

周知のとおり、ChatGPT、GPT-4などのスターモデルはオープンソースではありません。それに応じて、オープンソース分野では、Metaが最近リリースしたLlama 2が、無料かつ商用利用可能な大規模モデルシリーズとして特に注目を集めています。

今日、オープンソース分野にもう一つの朗報が届きました。AIモデルコミュニティModelScopeが、Qwen-7BとQwen-7B-Chatという2つのオープンソースモデルを発表しました。Alibaba Cloudは、これらがTongyi Qianwenの70億パラメータ汎用モデルと対話モデルであることを確認しました。

最も重要なのは、どちらのモデルもオープンソースで、無料で、市販されていることです。


  • マジックタワーモデルスコープ: https://modelscope.cn/models/qwen/Qwen-7B/summaryhttps://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
  • ハギングフェイスアドレス: https://huggingface.co/Qwen
  • GitHub アドレス: https://github.com/QwenLM/Qwen-7B

具体的には:

  • Tongyi Qianwen-7B(Qwen-7B)は、Alibaba Cloudが開発したTongyi Qianwen大規模モデルシリーズの70億パラメータモデルです。 Qwen-7B は、超大規模な事前トレーニング データでトレーニングされた、Transformer に基づく大規模言語モデルです。事前トレーニングのデータの種類は多様で、大量のオンラインテキスト、専門書、コードなど、広範囲にわたります。中国語や英語を含む複数の言語をサポートするベースモデルです。2兆以上のトークンのデータセットでトレーニングされており、コンテキストウィンドウの長さは8kに達します。
  • Qwen-7B-Chat は、人間の認知に合わせて調整された Qwen-7B ベース モデルに基づく中国語 - 英語対話モデルです。

オープンソース コードは、Qwen-7B および Qwen-7B-Chat の量子化をサポートし、ユーザーがコンシューマー グレードのグラフィック カードにモデルを展開して実行することをサポートします。

モデルをダウンロードしたいユーザーは、MoDa コミュニティから直接モデルをダウンロードするか、Alibaba Cloud Lingji プラットフォームを通じて Qwen-7B および Qwen-7B-Chat にアクセスして呼び出すことができます。Alibaba Cloud は、モデルのトレーニング、推論、展開、微調整など、幅広いサービスをユーザーに提供します。

実際、アリババクラウドは今年4月にはすでに自社開発のビッグモデル「Tongyi Qianwen」をリリースしており、今回の2つのオープンソースモデルは研究者がビッグモデルを利用するハードルを大幅に下げた。この動きにより、アリババクラウドは中国で初めて大規模モデルオープンソースの仲間入りを果たした大規模テクノロジー企業となる。

複数の権威ある評価において、Tongyi Qianwen 7B モデルは国内外の同規模のモデルをはるかに上回る結果を達成し、業界最強の中国語と英語の 7B オープンソース モデルとなりました。

Tongyi Qianwen 7B 事前トレーニング済みモデルは、複数の権威あるベンチマーク評価で優れたパフォーマンスを発揮しました。中国語と英語の機能は、国内外の同規模のオープンソース モデルの機能をはるかに上回っており、一部の機能は 12B や 13B 規模のオープンソース モデルの機能さえ上回っています。

英語能力評価ベンチマーク MMLU では、Tongyi Qianwen 7B モデルは、主流のオープンソース モデル 7B、12B、13B よりも高いスコアを獲得しました。このベンチマークには 57 の分野からの英語の質問が含まれており、人文科学、社会科学、科学、工学の総合的な知識と問題解決能力がテストされます。

中国の常識能力評価ベンチマーク C-Eval では、Tongyi Qianwen は検証セットとテストセットの両方で最高得点を獲得した 7B オープンソース モデルであり、その堅実な中国語能力を実証しています。

数学の問題解決能力評価の GSM8K やコーディング能力評価の HumanEval などのベンチマークでも、Tongyi Qianwen 7B モデルは優れたパフォーマンスを発揮し、同サイズのすべてのオープンソース モデルや一部の大規模オープンソース モデルを上回りました。

Alibaba Cloudは、オープンソースのビッグモデルは、ユーザーがモデルのトレーニングと展開のプロセスを簡素化するのに役立つと述べました。ユーザーはモデルをゼロからトレーニングする必要はありません。事前にトレーニングされたモデルをダウンロードして微調整するだけで、高品質のモデルを迅速に構築できます。

Tongyi Qianwen のオープンソース化により、より多くの企業や機関がこの仲間入りを果たし、より多くの研究者に利便性をもたらすようになると信じています。

<<:  マスク氏がai.comドメイン名を購入しました!ウルトラマンは数千万ドルを費やしてそれを購入し、4ヶ月でアイアンマンに売却した

>>:  Jupyter のアップグレード: さまざまな大規模モデルを接続し、コードを生成し、チャットを通じてエラーを修正できます

ブログ    

推薦する

「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、...

...

海外メディア:ロボットは人間の生活を変え、雇用や結婚のパターンに影響を与える

[[442070]]レファレンス・ニュース・ネットワークは12月26日、ドイツのフランクフルター・ア...

Rocket Launch: 効率的で軽量なネットワーク トレーニング フレームワーク

まとめクリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳し...

コードコーパス、大規模モデル、インテリジェントエージェントの魔法の杖を振ると、より強力なエネルギーが呼び出されます

熱帯雨林の杖が、ダンブルドアのようなあらゆる時代の並外れた魔法使いの伝説を生み出したのと同じように、...

プロセスマイニングを通じて運用の卓越性を達成するための8つのステップ

運用の卓越性は、ビジネスの回復力と収益の成長を向上させる鍵となりますが、今日のプロセス所有者は、急速...

人工知能は親密な関係の「大きな殺し屋」

人工知能の存在は仕事や生活だけではなく、感情にも存在します。仕事の後で退屈を感じたら、たまごっちを飼...

...

Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

インターネット企業の中で、Google は間違いなく勝者であり、方向性をリードする企業です。同社の技...

...

人工知能(AI)について知っておくべきことすべて

人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...

アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

[[282855]]皆さんご存知の通り、今年の「ブラザーツー」の値段は大変高く、信じられないほど高...

Visual Mamba が登場: 2.8 倍高速、メモリが 87% 削減

「万能トランスフォーマー」として知られるマンバは、発売から2か月も経たないうちに高性能ビジュアルバー...

XML暗号化アルゴリズムが破られ、W3CはXML暗号化標準を改訂する必要がある

ルール研究所の研究者らは、XML 暗号化プロトコルに重大なセキュリティ上の脆弱性を発見し、シカゴで開...

顔認証決済はまだ普及していないが、中央銀行はすでに新しい決済方法を発表しており、ジャック・マーは今回不意を突かれた

顔認識の隠れた危険性これらの便利な支払い方法が普及したのは、ジャック・マーのおかげです。アリペイの登...