Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニュースが AI コミュニティの注目を集めました。

大規模モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデル サイズが含まれています。最も強力なバージョンは、GPT 3.5 および Mistral-Medium よりも優れたパフォーマンスを発揮します。ベース モデルとチャット モデルが含まれており、複数の言語をサポートしています。

アリババ同義千文チームによると、関連技術は同義千文公式サイトと同義千文アプリでも公開されているという。

さらに、本日リリースされた Qwen 1.5 には、次のようなハイライトもあります。

  • 32K のコンテキスト長をサポートします。
  • Base + Chat モデルのチェックポイントをオープンしました。
  • Transformers を使用してネイティブに実行できます。
  • GPTQ Int-4 / Int8、AWQ、GGUF の重みもリリースされました。

Tongyi Qianwen チームは、より高度な大規模モデルを審査員として活用し、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 の予備評価を実施しました。評価結果は次のとおりです。

GPT-4-Turbo には遅れをとっていますが、Qwen1.5 の最大バージョンモデル Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で素晴らしい結果を示し、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近人気の新しいモデル Mistral Medium に匹敵します。

さらに、Tongyi Qianwenチームは、大規模モデルによって判断されたスコアは回答の長さに関係しているように見えるものの、人間による観察結果では、Qwen1.5では回答が長すぎることがスコアに影響を与えないことが示されていると述べています。 AlpacaEval 2.0 上の Qwen1.5-Chat の平均長は 1618 で、これは GPT-4 の長さと一致し、GPT-4-Turbo よりも短くなっています。

Tongyi Qianwenの開発者は、ここ数か月間、真に「優れた」モデルを構築する方法の探求と、その過程で開発者の体験を継続的に向上させることに注力してきたと語った。

以前のバージョンと比較して、このアップデートでは、チャット モデルと人間の好みの整合を改善することに重点が置かれており、モデルの多言語処理機能が大幅に強化されています。シーケンスの長さに関しては、すべてのスケール モデルが 32768 トークンのコンテキスト長の範囲を達成しました。同時に、事前トレーニング済みのベースモデルの品質も最適化されており、微調整プロセス中にユーザーに優れたエクスペリエンスをもたらすことが期待されます。

基本能力

モデルの基本機能の評価に関しては、Tongyi Qianwen チームは、MMLU (5 ショット)、C-Eval、Humaneval、GS8K、BBH などのベンチマーク データセットで Qwen1.5 を評価しました。

Qwen1.5 は、さまざまなモデル サイズの評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで Llama2-70B を上回り、言語理解、推論、数学における能力を実証しました。

最近、小型モデルの構築は業界で話題になっています。Tongyi Qianwen チームは、モデルパラメータが 70 億未満の Qwen1.5 モデルとコミュニティ内の重要な小型モデルを比較しました。

Qwen1.5 は、パラメータ サイズ範囲が 70 億未満である業界をリードする小型モデルと非常に競争力があります。

多言語対応

Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で Base モデルの多言語機能を評価しました。 Alibaba の研究者は、オープンソース コミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。次の表には、テスト構成、評価メトリック、関連する特定の言語など、各テスト セットの詳細情報が記載されています。

詳細な結果は次のとおりです。

上記の結果は、Qwen1.5 ベース モデルが 12 の異なる言語での多言語能力において優れたパフォーマンスを発揮し、主題知識、言語理解、翻訳、数学などのさまざまな側面の評価で良好な結果を示していることを示しています。さらに、チャット モデルの多言語機能に関しては、次の結果が見られます。

長いシーケンス

長いシーケンスの理解に対する需要が高まり続ける中、アリババは新バージョンでQianwenモデルの対応機能を改善しました。Qwen1.5モデルの全シリーズは32Kトークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は次のとおりです。

結果から判断すると、Qwen1.5-7B-Chat のような小規模モデルでも GPT-3.5 と同等のパフォーマンスを発揮できますが、最大モデルの Qwen1.5-72B-Chat は GPT4-32k にわずかに遅れをとっています。

上記の結果は、32K トークン長での Qwen 1.5 の効果のみを示していることに注意してください。これは、モデルが最大長 32K のみをサポートできることを意味するものではありません。開発者は、config.json で max_position_embedding をより大きな値に変更して、モデルがより長いコンテキスト理解シナリオで満足のいく結果を達成できるかどうかを観察することができます。

外部システムへのリンク

今日、一般言語モデルの大きな魅力の 1 つは、外部システムとインターフェースできる可能性です。コミュニティ内で急速に台頭しているタスクである RAG は、幻覚、リアルタイム更新やプライベート データの取得が不可能なことなど、大規模言語モデルが直面するいくつかの典型的な課題に効果的に対処します。さらに、言語モデルは、API の使用や、指示や例に基づいたコードの記述において強力な機能を発揮します。大規模なモデルでは、コード インタープリターを使用したり、AI エージェントとして機能したりして、より幅広い価値をもたらすことができます。

Tongyi Qianwen チームは、RAG タスクにおける Qwen1.5 シリーズ チャット モデルのエンドツーエンドのパフォーマンスを評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テスト セットに基づいています。

その後、Tongyi Qianwen チームは、T-Eval ベンチマークで Qwen1.5 が汎用エージェントとして実行される能力を評価しました。すべての Qwen1.5 モデルはベンチマーク用に特別に最適化されているわけではありません。

ツール呼び出し機能をテストするために、Alibaba は独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストしました。結果は次のとおりです。

最後に、Python コード インタープリタが高度な LLM にとってますます強力なツールになっているため、Tongyi Qianwen チームは、以前はオープンソースだった評価ベンチマークでこのツールを活用する新しいモデルの能力も評価しました。

結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 のツール使用パフォーマンスに近づいていることを示しています。しかし、数学の問題解決や視覚化などのコードインタープリタータスクでは、最大のQwen1.5-72B-Chatモデルでさえ、エンコード能力のせいでGPT-4に大幅に遅れをとっています。アリババは、将来のバージョンでは事前トレーニングとアライメント中のすべてのQwenモデルのエンコード機能を改善すると述べた。

Qwen1.5 は HuggingFace トランスフォーマーのコードベースと統合されています。バージョン 4.37.0 以降、開発者はカスタム コードをロードせずに、トランスフォーマー ライブラリのネイティブ コードを使用して Qwen1.5 を直接使用できます (trust_remote_code オプションを指定)。

オープンソース エコシステムでは、Alibaba は vLLM、SGLang (デプロイメント用)、AutoAWQ、AutoGPTQ (量子化用)、Axolotl、LLaMA-Factory (微調整用)、llama.cpp (ローカル LLM 推論用) などのフレームワークと協力し、現在ではこれらすべてが Qwen1.5 をサポートしています。 Qwen1.5 シリーズは、Ollama や LMStudio などのプラットフォームでも使用できます。

<<: 

>>:  素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう

ブログ    
ブログ    
ブログ    

推薦する

...

世界初!人間の脳のようなスーパーコンピュータ「シェナン」がまもなく発売され、ムーアの法則を破り、エネルギー消費を数桁削減する

人間の脳は地球上で最も効率的な計算装置です。わずか 20W の電力と 1.3kg の質量で、1 秒間...

AIと機械学習でデータセンターを強化

AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...

仮想現実プログラムを使用してテストされた人工視覚技術は、視覚障害者の自立を支援する

科学技術が発展するにつれ、人類への科学技術の貢献が徐々に明らかになってきています。現在、世界中の科学...

エンタープライズ AI の 4 つのトレンド: 現在地と今後の方向性

[[275946]]ビッグデータダイジェスト制作出典: フォーブス編纂者:張大毓人工知能は従来の産業...

人工知能は気候変動に対する新時代の解決策である

人類が地球環境において行った行為を元に戻すために、人工知能が私たちの手助けをしてくれるでしょう。気候...

...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

新しい物理学AIは量子コンピューティング革命の鍵となるかもしれない

海外メディアの報道によると、量子コンピューティングは間違いなく現在最もエキサイティングなテクノロジー...

CCTV 3.15は顔認識の悪用を暴露し、多くの教育企業が同様のカメラを使用する可能性がある

CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...

[トイレに座ってアルゴリズムを読む] アルゴリズム 8: 賢い隣接リスト (配列の実装)

前回は、空間と時間の複雑さがともにN 2であるグラフの隣接行列保存方法を紹介しました。今回は、グラフ...

AIが人種差別や性差別も学習したのはなぜでしょうか?

[[232177]]外見の偏見や言語の差別など、AI による差別についてはこれまでたくさん話してき...