Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル（Qwen）バージョン1.5がリリースされました。今朝、新バージョンのニュースが AI コミュニティの注目を集めました。

大規模モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデルサイズが含まれています。最も強力なバージョンは、GPT 3.5 および Mistral-Medium よりも優れたパフォーマンスを発揮します。ベースモデルとチャットモデルが含まれており、複数の言語をサポートしています。

アリババ同義千文チームによると、関連技術は同義千文公式サイトと同義千文アプリでも公開されているという。

さらに、本日リリースされた Qwen 1.5 には、次のようなハイライトもあります。

32K のコンテキスト長をサポートします。
Base + Chat モデルのチェックポイントをオープンしました。
Transformers を使用してネイティブに実行できます。
GPTQ Int-4 / Int8、AWQ、GGUF の重みもリリースされました。

Tongyi Qianwen チームは、より高度な大規模モデルを審査員として活用し、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 の予備評価を実施しました。評価結果は次のとおりです。

GPT-4-Turbo には遅れをとっていますが、Qwen1.5 の最大バージョンモデル Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で素晴らしい結果を示し、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近人気の新しいモデル Mistral Medium に匹敵します。

さらに、Tongyi Qianwenチームは、大規模モデルによって判断されたスコアは回答の長さに関係しているように見えるものの、人間による観察結果では、Qwen1.5では回答が長すぎることがスコアに影響を与えないことが示されていると述べています。 AlpacaEval 2.0 上の Qwen1.5-Chat の平均長は 1618 で、これは GPT-4 の長さと一致し、GPT-4-Turbo よりも短くなっています。

Tongyi Qianwenの開発者は、ここ数か月間、真に「優れた」モデルを構築する方法の探求と、その過程で開発者の体験を継続的に向上させることに注力してきたと語った。

以前のバージョンと比較して、このアップデートでは、チャットモデルと人間の好みの整合を改善することに重点が置かれており、モデルの多言語処理機能が大幅に強化されています。シーケンスの長さに関しては、すべてのスケールモデルが 32768 トークンのコンテキスト長の範囲を達成しました。同時に、事前トレーニング済みのベースモデルの品質も最適化されており、微調整プロセス中にユーザーに優れたエクスペリエンスをもたらすことが期待されます。

基本能力

モデルの基本機能の評価に関しては、Tongyi Qianwen チームは、MMLU (5 ショット)、C-Eval、Humaneval、GS8K、BBH などのベンチマークデータセットで Qwen1.5 を評価しました。

Qwen1.5 は、さまざまなモデルサイズの評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで Llama2-70B を上回り、言語理解、推論、数学における能力を実証しました。

最近、小型モデルの構築は業界で話題になっています。Tongyi Qianwen チームは、モデルパラメータが 70 億未満の Qwen1.5 モデルとコミュニティ内の重要な小型モデルを比較しました。

Qwen1.5 は、パラメータサイズ範囲が 70 億未満である業界をリードする小型モデルと非常に競争力があります。

多言語対応

Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で Base モデルの多言語機能を評価しました。 Alibaba の研究者は、オープンソースコミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。次の表には、テスト構成、評価メトリック、関連する特定の言語など、各テストセットの詳細情報が記載されています。

詳細な結果は次のとおりです。

上記の結果は、Qwen1.5 ベースモデルが 12 の異なる言語での多言語能力において優れたパフォーマンスを発揮し、主題知識、言語理解、翻訳、数学などのさまざまな側面の評価で良好な結果を示していることを示しています。さらに、チャットモデルの多言語機能に関しては、次の結果が見られます。

長いシーケンス

長いシーケンスの理解に対する需要が高まり続ける中、アリババは新バージョンでQianwenモデルの対応機能を改善しました。Qwen1.5モデルの全シリーズは32Kトークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は次のとおりです。

結果から判断すると、Qwen1.5-7B-Chat のような小規模モデルでも GPT-3.5 と同等のパフォーマンスを発揮できますが、最大モデルの Qwen1.5-72B-Chat は GPT4-32k にわずかに遅れをとっています。

上記の結果は、32K トークン長での Qwen 1.5 の効果のみを示していることに注意してください。これは、モデルが最大長 32K のみをサポートできることを意味するものではありません。開発者は、config.json で max_position_embedding をより大きな値に変更して、モデルがより長いコンテキスト理解シナリオで満足のいく結果を達成できるかどうかを観察することができます。

外部システムへのリンク

今日、一般言語モデルの大きな魅力の 1 つは、外部システムとインターフェースできる可能性です。コミュニティ内で急速に台頭しているタスクである RAG は、幻覚、リアルタイム更新やプライベートデータの取得が不可能なことなど、大規模言語モデルが直面するいくつかの典型的な課題に効果的に対処します。さらに、言語モデルは、API の使用や、指示や例に基づいたコードの記述において強力な機能を発揮します。大規模なモデルでは、コードインタープリターを使用したり、AI エージェントとして機能したりして、より幅広い価値をもたらすことができます。

Tongyi Qianwen チームは、RAG タスクにおける Qwen1.5 シリーズチャットモデルのエンドツーエンドのパフォーマンスを評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テストセットに基づいています。

その後、Tongyi Qianwen チームは、T-Eval ベンチマークで Qwen1.5 が汎用エージェントとして実行される能力を評価しました。すべての Qwen1.5 モデルはベンチマーク用に特別に最適化されているわけではありません。

ツール呼び出し機能をテストするために、Alibaba は独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストしました。結果は次のとおりです。

最後に、Python コードインタープリタが高度な LLM にとってますます強力なツールになっているため、Tongyi Qianwen チームは、以前はオープンソースだった評価ベンチマークでこのツールを活用する新しいモデルの能力も評価しました。

結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 のツール使用パフォーマンスに近づいていることを示しています。しかし、数学の問題解決や視覚化などのコードインタープリタータスクでは、最大のQwen1.5-72B-Chatモデルでさえ、エンコード能力のせいでGPT-4に大幅に遅れをとっています。アリババは、将来のバージョンでは事前トレーニングとアライメント中のすべてのQwenモデルのエンコード機能を改善すると述べた。

Qwen1.5 は HuggingFace トランスフォーマーのコードベースと統合されています。バージョン 4.37.0 以降、開発者はカスタムコードをロードせずに、トランスフォーマーライブラリのネイティブコードを使用して Qwen1.5 を直接使用できます (trust_remote_code オプションを指定)。

オープンソースエコシステムでは、Alibaba は vLLM、SGLang (デプロイメント用)、AutoAWQ、AutoGPTQ (量子化用)、Axolotl、LLaMA-Factory (微調整用)、llama.cpp (ローカル LLM 推論用) などのフレームワークと協力し、現在ではこれらすべてが Qwen1.5 をサポートしています。 Qwen1.5 シリーズは、Ollama や LMStudio などのプラットフォームでも使用できます。

<<:

>>: 素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化：兄弟たち、工場に入る準備をしよう