春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニュースが AI コミュニティの注目を集めました。 大規模モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72B の 6 つのモデル サイズが含まれています。最も強力なバージョンは、GPT 3.5 および Mistral-Medium よりも優れたパフォーマンスを発揮します。ベース モデルとチャット モデルが含まれており、複数の言語をサポートしています。 アリババ同義千文チームによると、関連技術は同義千文公式サイトと同義千文アプリでも公開されているという。 さらに、本日リリースされた Qwen 1.5 には、次のようなハイライトもあります。
Tongyi Qianwen チームは、より高度な大規模モデルを審査員として活用し、広く使用されている 2 つのベンチマーク、MT-Bench と Alpaca-Eval で Qwen1.5 の予備評価を実施しました。評価結果は次のとおりです。 GPT-4-Turbo には遅れをとっていますが、Qwen1.5 の最大バージョンモデル Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で素晴らしい結果を示し、Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct、TULU 2 DPO 70B を上回り、最近人気の新しいモデル Mistral Medium に匹敵します。 さらに、Tongyi Qianwenチームは、大規模モデルによって判断されたスコアは回答の長さに関係しているように見えるものの、人間による観察結果では、Qwen1.5では回答が長すぎることがスコアに影響を与えないことが示されていると述べています。 AlpacaEval 2.0 上の Qwen1.5-Chat の平均長は 1618 で、これは GPT-4 の長さと一致し、GPT-4-Turbo よりも短くなっています。 Tongyi Qianwenの開発者は、ここ数か月間、真に「優れた」モデルを構築する方法の探求と、その過程で開発者の体験を継続的に向上させることに注力してきたと語った。 以前のバージョンと比較して、このアップデートでは、チャット モデルと人間の好みの整合を改善することに重点が置かれており、モデルの多言語処理機能が大幅に強化されています。シーケンスの長さに関しては、すべてのスケール モデルが 32768 トークンのコンテキスト長の範囲を達成しました。同時に、事前トレーニング済みのベースモデルの品質も最適化されており、微調整プロセス中にユーザーに優れたエクスペリエンスをもたらすことが期待されます。 基本能力モデルの基本機能の評価に関しては、Tongyi Qianwen チームは、MMLU (5 ショット)、C-Eval、Humaneval、GS8K、BBH などのベンチマーク データセットで Qwen1.5 を評価しました。 Qwen1.5 は、さまざまなモデル サイズの評価ベンチマークで優れたパフォーマンスを示し、72B バージョンはすべてのベンチマークで Llama2-70B を上回り、言語理解、推論、数学における能力を実証しました。 最近、小型モデルの構築は業界で話題になっています。Tongyi Qianwen チームは、モデルパラメータが 70 億未満の Qwen1.5 モデルとコミュニティ内の重要な小型モデルを比較しました。 Qwen1.5 は、パラメータ サイズ範囲が 70 億未満である業界をリードする小型モデルと非常に競争力があります。 多言語対応Tongyi Qianwen チームは、ヨーロッパ、東アジア、東南アジアの 12 の異なる言語で Base モデルの多言語機能を評価しました。 Alibaba の研究者は、オープンソース コミュニティの公開データセットから、試験、理解、翻訳、数学の 4 つの異なる側面をカバーする、次の表に示す評価セットを構築しました。次の表には、テスト構成、評価メトリック、関連する特定の言語など、各テスト セットの詳細情報が記載されています。 詳細な結果は次のとおりです。 上記の結果は、Qwen1.5 ベース モデルが 12 の異なる言語での多言語能力において優れたパフォーマンスを発揮し、主題知識、言語理解、翻訳、数学などのさまざまな側面の評価で良好な結果を示していることを示しています。さらに、チャット モデルの多言語機能に関しては、次の結果が見られます。 長いシーケンス長いシーケンスの理解に対する需要が高まり続ける中、アリババは新バージョンでQianwenモデルの対応機能を改善しました。Qwen1.5モデルの全シリーズは32Kトークンのコンテキストをサポートしています。 Tongyi Qianwen チームは、長いコンテキストに基づいて応答を生成するモデルの能力を測定する L-Eval ベンチマークで Qwen1.5 モデルのパフォーマンスを評価しました。結果は次のとおりです。 結果から判断すると、Qwen1.5-7B-Chat のような小規模モデルでも GPT-3.5 と同等のパフォーマンスを発揮できますが、最大モデルの Qwen1.5-72B-Chat は GPT4-32k にわずかに遅れをとっています。 上記の結果は、32K トークン長での Qwen 1.5 の効果のみを示していることに注意してください。これは、モデルが最大長 32K のみをサポートできることを意味するものではありません。開発者は、config.json で max_position_embedding をより大きな値に変更して、モデルがより長いコンテキスト理解シナリオで満足のいく結果を達成できるかどうかを観察することができます。 外部システムへのリンク今日、一般言語モデルの大きな魅力の 1 つは、外部システムとインターフェースできる可能性です。コミュニティ内で急速に台頭しているタスクである RAG は、幻覚、リアルタイム更新やプライベート データの取得が不可能なことなど、大規模言語モデルが直面するいくつかの典型的な課題に効果的に対処します。さらに、言語モデルは、API の使用や、指示や例に基づいたコードの記述において強力な機能を発揮します。大規模なモデルでは、コード インタープリターを使用したり、AI エージェントとして機能したりして、より幅広い価値をもたらすことができます。 Tongyi Qianwen チームは、RAG タスクにおける Qwen1.5 シリーズ チャット モデルのエンドツーエンドのパフォーマンスを評価しました。評価は、中国語と英語の RAG 評価に使用されるセットである RGB テスト セットに基づいています。 その後、Tongyi Qianwen チームは、T-Eval ベンチマークで Qwen1.5 が汎用エージェントとして実行される能力を評価しました。すべての Qwen1.5 モデルはベンチマーク用に特別に最適化されているわけではありません。 ツール呼び出し機能をテストするために、Alibaba は独自のオープンソース評価ベンチマークを使用して、ツールを正しく選択して呼び出すモデルの機能をテストしました。結果は次のとおりです。 最後に、Python コード インタープリタが高度な LLM にとってますます強力なツールになっているため、Tongyi Qianwen チームは、以前はオープンソースだった評価ベンチマークでこのツールを活用する新しいモデルの能力も評価しました。 結果は、大規模な Qwen1.5-Chat モデルが一般に小規模なモデルよりも優れており、Qwen1.5-72B-Chat が GPT-4 のツール使用パフォーマンスに近づいていることを示しています。しかし、数学の問題解決や視覚化などのコードインタープリタータスクでは、最大のQwen1.5-72B-Chatモデルでさえ、エンコード能力のせいでGPT-4に大幅に遅れをとっています。アリババは、将来のバージョンでは事前トレーニングとアライメント中のすべてのQwenモデルのエンコード機能を改善すると述べた。 Qwen1.5 は HuggingFace トランスフォーマーのコードベースと統合されています。バージョン 4.37.0 以降、開発者はカスタム コードをロードせずに、トランスフォーマー ライブラリのネイティブ コードを使用して Qwen1.5 を直接使用できます (trust_remote_code オプションを指定)。 オープンソース エコシステムでは、Alibaba は vLLM、SGLang (デプロイメント用)、AutoAWQ、AutoGPTQ (量子化用)、Axolotl、LLaMA-Factory (微調整用)、llama.cpp (ローカル LLM 推論用) などのフレームワークと協力し、現在ではこれらすべてが Qwen1.5 をサポートしています。 Qwen1.5 シリーズは、Ollama や LMStudio などのプラットフォームでも使用できます。 |
>>: 素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう
人間の脳は地球上で最も効率的な計算装置です。わずか 20W の電力と 1.3kg の質量で、1 秒間...
AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...
科学技術が発展するにつれ、人類への科学技術の貢献が徐々に明らかになってきています。現在、世界中の科学...
[[275946]]ビッグデータダイジェスト制作出典: フォーブス編纂者:張大毓人工知能は従来の産業...
YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv...
人類が地球環境において行った行為を元に戻すために、人工知能が私たちの手助けをしてくれるでしょう。気候...
消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...
海外メディアの報道によると、量子コンピューティングは間違いなく現在最もエキサイティングなテクノロジー...
CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...
前回は、空間と時間の複雑さがともにN 2であるグラフの隣接行列保存方法を紹介しました。今回は、グラフ...
[[232177]]外見の偏見や言語の差別など、AI による差別についてはこれまでたくさん話してき...
ChatGPT がネットワーク機能とプラグイン機能を公開すると、事前トレーニング データの知識に限...