Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニュースが AI コミュニティの注目を集めました。

大規模モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデル サイズが含まれています。最も強力なバージョンは、GPT 3.5 および Mistral-Medium よりも優れたパフォーマンスを発揮します。ベース モデルとチャット モデルが含まれており、複数の言語をサポートしています。

アリババ同義千文チームによると、関連技術は同義千文公式サイトと同義千文アプリでも公開されているという。

さらに、本日リリースされた Qwen 1.5 には、次のようなハイライトもあります。

  • 32K のコンテキスト長をサポートします。
  • Base + Chat モデルのチェックポイントをオープンしました。
  • Transformers を使用してネイティブに実行できます。
  • GPTQ Int-4 / Int8、AWQ、GGUF の重みもリリースされました。

Tongyi Qianwen チームは、より高度な大規模モデルを審査員として活用し、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 の予備評価を実施しました。評価結果は次のとおりです。

GPT-4-Turbo には遅れをとっていますが、Qwen1.5 の最大バージョンモデル Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で素晴らしい結果を示し、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近人気の新しいモデル Mistral Medium に匹敵します。

さらに、Tongyi Qianwenチームは、大規模モデルによって判断されたスコアは回答の長さに関係しているように見えるものの、人間による観察結果では、Qwen1.5では回答が長すぎることがスコアに影響を与えないことが示されていると述べています。 AlpacaEval 2.0 上の Qwen1.5-Chat の平均長は 1618 で、これは GPT-4 の長さと一致し、GPT-4-Turbo よりも短くなっています。

Tongyi Qianwenの開発者は、ここ数か月間、真に「優れた」モデルを構築する方法の探求と、その過程で開発者の体験を継続的に向上させることに注力してきたと語った。

以前のバージョンと比較して、このアップデートでは、チャット モデルと人間の好みの整合を改善することに重点が置かれており、モデルの多言語処理機能が大幅に強化されています。シーケンスの長さに関しては、すべてのスケール モデルが 32768 トークンのコンテキスト長の範囲を達成しました。同時に、事前トレーニング済みのベースモデルの品質も最適化されており、微調整プロセス中にユーザーに優れたエクスペリエンスをもたらすことが期待されます。

基本能力

モデルの基本機能の評価に関しては、Tongyi Qianwen チームは、MMLU (5 ショット)、C-Eval、Humaneval、GS8K、BBH などのベンチマーク データセットで Qwen1.5 を評価しました。

Qwen1.5 は、さまざまなモデル サイズの評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで Llama2-70B を上回り、言語理解、推論、数学における能力を実証しました。

最近、小型モデルの構築は業界で話題になっています。Tongyi Qianwen チームは、モデルパラメータが 70 億未満の Qwen1.5 モデルとコミュニティ内の重要な小型モデルを比較しました。

Qwen1.5 は、パラメータ サイズ範囲が 70 億未満である業界をリードする小型モデルと非常に競争力があります。

多言語対応

Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で Base モデルの多言語機能を評価しました。 Alibaba の研究者は、オープンソース コミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。次の表には、テスト構成、評価メトリック、関連する特定の言語など、各テスト セットの詳細情報が記載されています。

詳細な結果は次のとおりです。

上記の結果は、Qwen1.5 ベース モデルが 12 の異なる言語での多言語能力において優れたパフォーマンスを発揮し、主題知識、言語理解、翻訳、数学などのさまざまな側面の評価で良好な結果を示していることを示しています。さらに、チャット モデルの多言語機能に関しては、次の結果が見られます。

長いシーケンス

長いシーケンスの理解に対する需要が高まり続ける中、アリババは新バージョンでQianwenモデルの対応機能を改善しました。Qwen1.5モデルの全シリーズは32Kトークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は次のとおりです。

結果から判断すると、Qwen1.5-7B-Chat のような小規模モデルでも GPT-3.5 と同等のパフォーマンスを発揮できますが、最大モデルの Qwen1.5-72B-Chat は GPT4-32k にわずかに遅れをとっています。

上記の結果は、32K トークン長での Qwen 1.5 の効果のみを示していることに注意してください。これは、モデルが最大長 32K のみをサポートできることを意味するものではありません。開発者は、config.json で max_position_embedding をより大きな値に変更して、モデルがより長いコンテキスト理解シナリオで満足のいく結果を達成できるかどうかを観察することができます。

外部システムへのリンク

今日、一般言語モデルの大きな魅力の 1 つは、外部システムとインターフェースできる可能性です。コミュニティ内で急速に台頭しているタスクである RAG は、幻覚、リアルタイム更新やプライベート データの取得が不可能なことなど、大規模言語モデルが直面するいくつかの典型的な課題に効果的に対処します。さらに、言語モデルは、API の使用や、指示や例に基づいたコードの記述において強力な機能を発揮します。大規模なモデルでは、コード インタープリターを使用したり、AI エージェントとして機能したりして、より幅広い価値をもたらすことができます。

Tongyi Qianwen チームは、RAG タスクにおける Qwen1.5 シリーズ チャット モデルのエンドツーエンドのパフォーマンスを評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テスト セットに基づいています。

その後、Tongyi Qianwen チームは、T-Eval ベンチマークで Qwen1.5 が汎用エージェントとして実行される能力を評価しました。すべての Qwen1.5 モデルはベンチマーク用に特別に最適化されているわけではありません。

ツール呼び出し機能をテストするために、Alibaba は独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストしました。結果は次のとおりです。

最後に、Python コード インタープリタが高度な LLM にとってますます強力なツールになっているため、Tongyi Qianwen チームは、以前はオープンソースだった評価ベンチマークでこのツールを活用する新しいモデルの能力も評価しました。

結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 のツール使用パフォーマンスに近づいていることを示しています。しかし、数学の問題解決や視覚化などのコードインタープリタータスクでは、最大のQwen1.5-72B-Chatモデルでさえ、エンコード能力のせいでGPT-4に大幅に遅れをとっています。アリババは、将来のバージョンでは事前トレーニングとアライメント中のすべてのQwenモデルのエンコード機能を改善すると述べた。

Qwen1.5 は HuggingFace トランスフォーマーのコードベースと統合されています。バージョン 4.37.0 以降、開発者はカスタム コードをロードせずに、トランスフォーマー ライブラリのネイティブ コードを使用して Qwen1.5 を直接使用できます (trust_remote_code オプションを指定)。

オープンソース エコシステムでは、Alibaba は vLLM、SGLang (デプロイメント用)、AutoAWQ、AutoGPTQ (量子化用)、Axolotl、LLaMA-Factory (微調整用)、llama.cpp (ローカル LLM 推論用) などのフレームワークと協力し、現在ではこれらすべてが Qwen1.5 をサポートしています。 Qwen1.5 シリーズは、Ollama や LMStudio などのプラットフォームでも使用できます。

<<: 

>>:  素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatG...

小さなバッチがディープラーニングの一般化を高める理由

バッチ サイズは、機械学習における重要なハイパーパラメータの 1 つです。このハイパーパラメータは、...

...

疫病との戦いに人工知能とビッグデータが爆発的に役立つでしょうか?

[[315014]]新型コロナウイルス感染症の発生と蔓延は、全国の人々の心を動かしました。社会のあ...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

インテリジェントな仮想アシスタントが2022年に生産性を2倍にする方法

翻訳者 | 張野貴校正 | 孫淑娟 良策インテリジェント仮想アシスタント市場の洞察インテリジェント ...

失敗が頻発する中、AI 翻訳者はどのように進歩の道を続けるべきでしょうか?

[[248512]]当時、英語に支配されていた恐怖を覚えている人がどれだけいるでしょうか?前日に覚...

OpenAIの人事異動で最大の勝者はオープンソースコミュニティになると予想される

米国現地時間11月20日朝、マイクロソフトは突然、OpenAIの元CEOアルトマン氏とOpenAI社...

月給5万ドルでこのホットなAI分野をマスターするには、これらの9冊の本を読むだけで十分です

はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...

Java プログラミング スキル - データ構造とアルゴリズム「スパース配列」

[[385874]]基本的な紹介配列内のほとんどの要素が 0 であるか、同じ値を持つ配列である場合...

...

...

ハリバートンのチーフデータサイエンティスト兼テクニカルフェローがエネルギー業界における AI アプリケーションの現状について語る

エネルギー産業はハイテク主導の産業です。石油・ガス業界では、過酷な条件下で大型機器を使用してさまざま...

AIoT分野におけるセキュリティリスクを知っておく必要があります!

現在、AI医療、スマートホーム、自動運転、スマート取引などの人工知能の発展は、企業のビジネスモデルを...

Nvidiaのアルゴリズムが破られ、RTX30シリーズはマイニング計算能力を100%回復:グラフィックカードの値下げは終わったのか?

GPUマイニングで米国証券取引委員会から罰金を科されたNvidiaは、最近、暗号化アルゴリズムが解...