ChatGLM-6Bは3月のリリース以来、AIコミュニティで人気を博し、GitHubで29.8kのスターを獲得しています。 ChatGLM の第 2 世代が登場しました。 清華大学KEGとデータマイニンググループ(THUDM)は、中国語と英語のバイリンガル対話モデルChatGLM2-6Bをリリースしました。 写真 プロジェクトアドレス: https://github.com/THUDM/ChatGLM2-6B ハギングフェイス: https://huggingface.co/THUDM/chatglm2-6b 最新バージョンの ChatGLM2-6B には多くの機能が追加されています: - ベースモデルがアップグレードされ、より強力なパフォーマンスを実現 - 8K-32kコンテキストをサポート - 推論パフォーマンスが42%向上 - 学術研究に完全に開放され、商業的な許可も許可されている 中国の C-Eval リストでは、ChatGLM2 が 71.1 ポイントで 1 位となり、GPT-4 を圧倒したことは特筆に値します。最新バージョンのChatGLM2-6Bは51.7ポイントで6位にランクされました。 写真 ChatGLM2-6B アップグレードのハイライトChatGLM-6B の第 2 世代バージョンは、スムーズな会話や導入のハードルの低さなど、第 1 世代モデルの優れた機能を多く引き継いでおり、さらに多くの新機能が追加されています。 1. より強力なパフォーマンス 第一世代の ChatGLM モデルの開発経験に基づいて、ChatGLM2-6B のベースモデルが完全にアップグレードされました。 ChatGLM2-6B は GLM のハイブリッド目的関数を使用し、1.4T の中国語と英語の識別子で事前トレーニングされ、人間の好みの調整でトレーニングされています。 評価結果によると、第 1 世代モデルと比較して、ChatGLM2-6B は MMLU (+23%)、CEval (+33%)、GSM8K (+571%)、BBH (+60%) などのデータセットで大幅なパフォーマンス向上を達成し、同じサイズのオープンソース モデルの中で非常に競争力があります。 2. より長い文脈 研究者らは、FlashAttention テクノロジーに基づいて、ベースモデルのコンテキスト長を ChatGLM-6B の 2K から 32K に拡張し、対話段階で 8K のコンテキスト長のトレーニングを使用して、より多くの対話ラウンドを可能にしました。 ただし、ChatGLM2-6B の現在のバージョンでは、単一ラウンドの非常に長いドキュメントを理解する能力が限られているため、その後の反復的なアップグレードでは最適化に重点が置かれることになります。 3. より効率的な推論 ChatGLM2-6B は、Multi-Query Attention テクノロジーに基づいて、より効率的な推論速度とより低いビデオ メモリ使用量を実現します。 公式モデル実装では、推論速度が第 1 世代と比較して 42% 向上し、INT4 量子化では、6G ビデオ メモリでサポートされる会話の長さが 1K から 8K に増加しました。 4. よりオープンなプロトコル ChatGLM2-6B ウェイトは学術研究に完全に開放されており、正式な書面による許可を得た後は商用利用も許可されます。 効果ChatGLM2-6Bは、第1世代モデルと比較して、さまざまな面で機能が大幅に向上しました。 数学的論理 写真 写真 知識推論 写真 写真 長い文書の理解 写真 写真 評価結果研究チームは評価のためにいくつかの典型的な中国語と英語のデータセットを選択しました。以下は、MMLU(英語)、C-Eval(中国語)、GSM8K(数学)、BBH(英語)におけるChatGLM2-6Bモデルの評価結果です。 MMLU 写真 C評価 写真 8K 写真 BBH 推論パフォーマンスChatGLM2-6B は、Multi-Query Attention を使用して生成速度を向上させます。 2000 文字を生成する平均速度の比較は次のとおりです。 マルチクエリアテンションは、生成プロセス中の KV キャッシュのメモリ使用量も削減します。 さらに、ChatGLM2-6B は対話トレーニングに Causal Mask を使用し、継続的な対話中に前のラウンドの KV キャッシュを再利用できるため、メモリ使用量がさらに最適化されます。 したがって、INT4 量子化推論に 6GB のビデオ メモリを搭載したグラフィック カードを使用する場合、第 1 世代の ChatGLM-6B モデルはビデオ メモリが不足していることを通知する前に最大 1119 文字を生成できますが、ChatGLM2-6B は少なくとも 8192 文字を生成できます。 写真 研究チームは量子化がモデルのパフォーマンスに与える影響もテストしました。結果は、量子化がモデルのパフォーマンスに与える影響が許容範囲内であることを示しています。 写真 使い方環境設備 まず、このリポジトリをダウンロードする必要があります: 次に、pip を使用して依存関係をインストールします: pip install -r requirements.txt。最適な推論パフォーマンスを得るには、Transformers ライブラリの推奨バージョンは 4.30.2 であり、Torch バージョンは 2.0 以降である必要があります。 コードコール ChatGLM2-6B モデルは、次のコードを通じて呼び出して会話を生成することができます。 Hugging Face Hub からモデルをダウンロードする前に、Git LFS をインストールして次のコマンドを実行する必要があります。 チェックポイントのダウンロード速度が遅い場合は、モデル実装のみをダウンロードできます。 次に、モデル パラメーター ファイルを手動でダウンロードし、ローカルの chatglm2-6b ディレクトリ内のファイルを置き換えます。 アドレス: https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/ モデルがローカルにダウンロードされたら、上記のコード内の THUDM/chatglm2-6b をローカルの chatglm2-6b フォルダーのパスに置き換えて、ローカルからモデルをロードします。 |
<<: ChatGPT「おばあちゃんの抜け穴」がまた人気です!亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます
>>: 米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい
[[248715]] [51CTO.com 速訳] re:Invent 2017 カンファレンスで ...
翻訳者 |陳俊レビュー | Chonglou 「ペアプログラミング」という概念を聞いたことがあります...
世界中で人工知能の大規模な構築と応用の発展が加速する中、近年、人工知能ガバナンスの問題が社会の関心を...
[[409064]]みなさんこんにちは。私は梁唐です。今日は、検索、広告、推奨アルゴリズムにおける...
製造業とメタバースMetaverse テクノロジーを製造業に統合すると、企業の運営方法に革命をもたら...
現在、ますます多くのスタートアップ企業と大手半導体企業が新しい AI チップの発売を競っています。 ...
エンドツーエンドの自動運転は、システムの複雑性が高まるなどのモジュール式システムに伴う欠点を回避でき...
9月25日、北京市中関村の百度ブレインイノベーション体験センターで、百度ブレインオープンデーのポート...
今日のデジタル時代では、広大なインターネット上での絶え間ない情報交換により、前例のないサイバーセキュ...
編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「私たちのチームは、世界最大かつ最先端のテクノロジー企業出身者で構成されています。世界クラスの才能あ...
紙: http://wanghao.in/paper/NatureMedicine21_MSA.pd...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...