国内No.1の大型モデルオープンソースが帰ってきた、最強のバイリンガルLLM「ファミリーバケツ」レベルのオープンソース！ 340億のパラメータがLlama2-70Bを上回る

最も強力な中国語 - 英語バイリンガルモデルがオープンソースになりました。

今日、Wudao Tianying Aquila 大規模言語モデルシリーズは Aquila2 に完全にアップグレードされ、340 億のパラメータを持つ Aquila2-34B という重量級の新メンバーが追加されました。

コード生成、検査、理解、推論、言語の 4 つの側面における 22 の評価ベンチマークにおいて、Aquila2-34B は複数のリストでトップを占めました。

しかし、「ラマ2を完全に超える」といった言葉はもはやニュースではない。業界ではスコアよりも、大型モデルの機能を重視しています。

これらの実用的な機能に関して言えば、AquilaChat2のパフォーマンスは依然として非常に目を引くものです。

優れた推論能力を備えているだけでなく、長いテキストを処理する能力も大幅に向上しています。強力な一般化能力により、AI エージェント、コード生成、文献検索など、さまざまな実際のアプリケーションシナリオに適応できます。

さらに驚くべきことは、Zhiyuan が Aquila2 モデルシリーズ全体をオープンソース化しただけでなく、FlagScale フレームワークや FlagAttention 演算子セットを含む Aquila2 の革新的なトレーニングアルゴリズム、およびセマンティックベクトルモデル BGE の新バージョンも同時にオープンソース化したことです。

革新的なトレーニングアルゴリズムとベストプラクティスの同時公開は業界でも前例のないことだと言えます。このようなフルファミリーレベルのオープンソースは、大規模オープンソースコミュニティの業界の良心とみなすことができます。

Aquila2 モデル全シリーズのオープンソースアドレス:

https://github.com/FlagAI-Open/Aquila2

https://model.baai.ac.cn/

https://huggingface.co/BAAI

最も強力な中国語 - 英語バイリンガルモデル、オープンソース!

Aquila2-34B は、パラメーターが半分、トレーニングデータが 2/3 しかない Llama2-70B やその他のオープンソースベースモデルを上回り、22 の総合ランキングでトップに立っています。どのように達成したのでしょうか?

もちろん、これは Zhiyuan が長年にわたって蓄積してきた高品質のコーパスによるものです。これらのコーパスで事前トレーニングされたモデルは、Tongyi Qianwen や Llama 2 を上回る非常に強力な総合的な機能を備えています。

アーキテクチャのアップグレード、アルゴリズムの革新、データの反復により、Aquila2 は包括的な中国語と英語の機能においてさらなる進歩を遂げることができました。

Aquila2 ベースモデルは、AquilaChat2 会話モデルの強力な基盤を提供します。

高品質の指示微調整データセットでトレーニングした後、AquilaChat2-34Bは現在入手可能なオープンソースの中国語-英語バイリンガル対話モデルの中で最も強力なものとなり、主観的および客観的な評価結果があらゆる面でトップに立っています。

SFTモデル評価結果

さらに、AquilaChat2-34B には興味深い機能がいくつかあります。中国語の世界に関する豊富なネイティブ知識を備えているだけでなく、より正確で包括的、そして人道的な回答も提供します。

中国語圏の習得に関しては、AquilaChat2-34B は GPT-4 を上回るパフォーマンスを発揮します。

「ネジでトマトを揚げる方法」のような質問に対して、AquilaChat2-34B は、ユーザーがおそらく「トマト入りスクランブルエッグ」を尋ねたいのだろうと即座に巧みに推測しました。

対照的に、GPT-4 は「トマトで炒めたカタツムリの麺」レベルしか理解できません。

大きなモデルに「大学生が就職しやすい専攻は何ですか、そして分析の単位は何ですか」と尋ねると、GPT-4 の答えは単純かつ大まかです - 専攻です。

AquilaChat2-34B は、分析単位は業界、企業タイプ、職位、地域、給与水準、専門職のマッチングなどであると洞察力をもって述べました。

推論はLlama 2を超え、GPT-4に次ぐ

AGI がいつ実現できるかは、現在業界で非常にホットな話題です。

AGI を実現するにはどうすればよいでしょうか?これらの中で最も重要なのは、大規模モデルの推論能力です。

評価ベンチマークである統合推論データセット (IRD) では、帰納的推論、演繹的推論、仮説的推論、因果推論の次元における結果とプロセスの精度の観点から、12 を超える一般的なモデルが総合的に比較されました。

結果によると、AquilaChat2-34B は IRD 評価ベンチマークで LLama2-70B-Chat や GPT-3.5 などのモデルを上回り、GPT-4 に次ぐ 2 位となりました。

IRDデータセットにおけるSFTモデルの評価結果

コンテキストウィンドウの長さが 16K に拡張されました

長いテキスト入力は、業界が早急に解決する必要がある問題です。

受信できるテキスト入力の量は、大規模モデルのメモリ量を直接的に決定します。パラメータの数と合わせて、モデルの適用効果を決定します。

この目的のために、Zhiyuan は Aquila2-34B をベースとして、位置コーディング補間法を使用して処理し、20 万件の高品質の長いテキスト会話のデータセットに対して SFT を実行し、モデルの有効なコンテキストウィンドウの長さを 16K に直接拡張しました。

LongBench の 4 つの中国語と英語の長文質問と回答、および長文要約タスクの評価結果によると、AquilaChat2-34B-16K はオープンソースの長文モデルのトップレベルにあり、GPT-3.5 に近いことが示されています。

長文理解課題の評価

さらに、大規模なモデルでは一般的に長さ拡張機能が不十分であるという問題があり、大規模なモデルの長いテキスト機能が著しく制限されることは誰もが知っています。

Zhiyuan は北京大学のチームと共同で、非常に長いテキストを処理する際の複数の言語モデルの注意分布の視覚的分析を実施しました。彼らは、すべての言語モデルに、コンテキストウィンドウの長さよりも大幅に小さい固定された相対位置のボトルネックがあることを発見しました。

この目的のために、Zhiyuan チームは革新的な NLPE (非線形位置埋め込み) 法を提案しました。この方法は RoPE 法に基づいており、相対位置エンコーディングを調整し、最大相対長さを制限することでモデルの拡張機能を向上させます。

コード、中国語と英語のFew-Shot Leaning、電子書籍など、複数の分野でのテキスト継続に関する実験では、NLPEは4K Aquila2-34Bモデルを32Kの長さまで拡張でき、継続テキストの一貫性はDynamic-NTK、位置補間などの方法よりもはるかに優れていることが示されました。

下の図に示すように、HotpotQA、2WikiMultihopQA、および長さが 5K ～ 15K の他のデータセットに対する命令追従能力テストでは、NLPE 拡張後の AquilaChat2-7B (2K) の精度は 17.2% であるのに対し、Dynamic-NTK 拡張後の AquilaChat2-7B の精度はわずか 0.4% であることがわかります。

SFT モデルにおける NLPE と主流のダイナミック NTK エピタキシー法の性能の比較

ベースモデルにおける NLPE と主流のダイナミック NTK エピタキシー法の機能の比較 (ppl 値が低いほど優れています)

同時に、Zhiyuan Group は、長いテキスト推論に適したセグメント化された Attention 演算子 PiecewiseAttention も開発し、NLPE やその他の Attention Map 指向の最適化アルゴリズムを効率的にサポートし、ビデオメモリの使用量をさらに削減して計算速度を向上させました。

一般化能力が強く、「スコアは高いが能力が低い」ということはない

多くの大規模モデルは、標準テストでは良好なパフォーマンスを発揮しますが、実際のアプリケーションになると機能が低下します。

比較すると、Aquila2 モデルは試験では良好なパフォーマンスを示しましたが、実際のアプリケーションシナリオでのパフォーマンスはどの程度でしょうか?

ご存知のように、大規模モデルの一般化能力、つまり 1 つの例から別の例へと推論を導く能力は非常に重要です。

これは、LLM がこれまで見たことのないタスクを効果的に処理し、トレーニングデータ以外でも正確な応答を返すことができることを意味します。

この大規模モデルがベンチマークテストでは高得点を獲得したが、実際のアプリケーションではパフォーマンスが低い場合、つまり、試験問題に答えるのは得意だが実用的な問題を解決するのは得意ではない場合、それは「得点は高いが能力が低い」ことの現れです。

Aquila2 モデルの一般化能力を評価するために、Zhiyuan チームは 3 つの実際のアプリケーションシナリオでそれを検証しました。

AIエージェントはMinecraftで自律的に考える

オープンな環境で複数のタスクを学習できる汎用エージェントは、モデルの能力を示す重要なものです。

インテリジェントエージェントタスクのテストに関して言えば、思い浮かぶ最も一般的なオープンワールドゲームは、もちろん Minecraft です。

無限に生成される複雑な世界と多数のオープンタスクがあり、インテリジェントエージェントに豊富なインタラクティブインターフェースを提供します。

今年3月、Zhiyuanチームは専門家のデータなしで「Minecraft」のマルチタスクを効率的に解決する方法、Plan4MCを提案しました。

Plan4MC は、内在的報酬を伴う強化学習法を通じてエージェントの基本スキルをトレーニングします。

次に、エージェントは大規模モデル AquilaChat2 の推論機能を使用してタスク計画を完了します。

たとえば、エージェントが「木を切り、近くに作業台を作る」というタスクを受け取ると、AquilaChat2 との対話が複数回行われます。

まず、エージェントはワークベンチを構築するという主なタスクを明確に定義し、「現在の環境の状態」や「完了するタスク」などのプロンプトを入力します。

コマンドを受け取った後、AquilaChat2 はフィードバックを開始し、エージェントに「次にどのスキルを使用するか」を伝え、次のサブタスクである近くの木材の検索も決定しました。

エージェントが木材を見つけたら、次のサブタスクはそれを切り倒すことです。環境情報を入力として引き続き取得すると、AquilaChat2 が次のスキル名を表示します。

このようにして、エージェントは AquilaChat2 と対話しながら、全体的な目標に向かって前進し続け、タスクを完了します。

このように、エージェントは AquilaChat2 の助けを借りて完璧なワークベンチを構築しました。

Aquila2+BGE2、複雑な文書も検索可能

複雑な文献の検索は多くの科学研究者にとって頭痛の種となっています。

従来のベクトルライブラリの検索方法に基づいて、大規模なモデルでもいくつかの単純な問題に対して優れたパフォーマンスを発揮できます。

しかし、深い理解を必要とする複雑な問題に直面した場合、その能力は限られます。

Zhiyuan は、Aqiula2 とオープンソースのセマンティックベクトルモデル BGE2 を組み合わせて、この大きな問題を完全に解決しました。

特定の著者による特定のトピックに関する論文を検索したい場合や、あるトピックに関する複数の論文の要約テキストを生成するための大規模なモデルが必要な場合、それは難しい問題ではありません。

たとえば、Aqiula2 が Mirella Lapata の「要約」に関する論文を紹介しましょう。

Aquiula2 は、要件を満たす複雑なドキュメントをすぐに提供しました。

Aquila2+BGE2 文献検索シナリオの複雑なクエリ例

AquilaSQL: 最適なテキスト SQL 生成モデル

AquilaSQL は、ユーザーが発行した自然言語の指示を適切な SQL クエリステートメントに正確に翻訳する「翻訳者」として機能します。

このようにして、データのクエリと分析の敷居が大幅に下がります。

実際のアプリケーションシナリオでは、ユーザーは AquilaSQL に基づいて二次開発を実行し、それをローカルナレッジベースに移植して、ローカルクエリ SQL を生成することもできます。

さらに、モデルのデータ分析パフォーマンスをさらに向上させることができるため、モデルはクエリ結果を返すだけでなく、分析の結論やグラフなどをさらに生成することもできます。

Aquila ベースモデル自体には優れたコード生成機能があります。

これを基に、AquilaSQL は SQL コーパスと SFT での継続的な事前トレーニングの 2 段階のトレーニングを受け、最終的に Cspider の「テキスト SQL 言語生成モデル」ランキングで SOTA モデルを 67.3% の精度率で上回りました。一方、SQL コーパスで微調整されていない GPT4 モデルは 67.3% でした。正解率はわずか30.8%です。

下の図では、AquilaSQL を使用して、身長、収入、場所の 3 つのデータテーブルから「北京に住み、収入が 1000 を超える人の平均身長」をフィルターしています。

AquilaSQL オープンソースリポジトリアドレス: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sql

AquilaSQL は、複数テーブルのクエリステートメントを正常に生成し、この複雑なクエリタスクを完了しました。

「ファミリーバケット」レベルのオープンソース、業界の良心

あまり知られていない事実だが、Llama2 もオープンソースであるにもかかわらず、その商用ライセンス契約は中国のユーザーにとってそれほど友好的ではない。

さらに、Llama2 は中国での商用利用に制限があるだけでなく、月間アクティブ商用利用にも制限があります。

Llama 2 のビジネス契約では、英語以外の言語でのビジネスは許可されないことが明記されています。

対照的に、Aquila は世界中で市販されており、Llama2 ほど制限が厳しくなく、他の市販モデルのように登録フォームも必要ありません。

さらに、多くのモデルチームは、モデルトレーニングのハイパーパラメータや最適化プランなどの重要なデータを公開していません。ただし、BGE、FlagScale、FlagAttention を含む Aquila2 の革新的なトレーニングアルゴリズムはすべてオープンソースであり、開発者と共有されています。

このツールセットを使用すると、開発者は Aquila2 を簡単に再現できます。

この前例のない「家族全員のバケツ」オープンソースは、まさに大規模モデルオープンソース界の YYDS です。

私たちがトレーニングツールとアルゴリズムを惜しみなくオープンソース化する理由は、非営利団体 Zhiyuan の立場、つまり徹底的かつ包括的なオープンソース共有を通じて、世界的な大規模モデルエコシステムの繁栄を促進することに基づいています。

次世代セマンティックベクトルモデル BGE2

BGE (BAAI General Embedding) は、今年 8 月に Zhiyuan によってオープンソース化された新しいセマンティックベクトルモデルです。

今回、新世代のBGE2もAquila2と同時にオープンソース化されます。

BGE2 の BGE-LLM Embedder モデルは、「知識検索」、「メモリ検索」、「例検索」、「ツール検索」という 4 つの主要な機能を統合しています。

初めて、単一のセマンティックベクトルモデルによって、大規模言語モデルの主な検索要件を包括的にカバーすることを実現しました。

BGE-LLM Embedder を特定の使用シナリオと組み合わせることで、知識集約型タスクの処理、長期記憶、コマンドの追跡、ツールの使用などの重要な領域における大規模言語モデルのパフォーマンスが大幅に向上します。

効率的な並列トレーニングフレームワーク FlagScale

FlagScale は、Aquila2-34B で使用される効率的な並列トレーニングフレームワークであり、大規模な言語モデルにワンストップトレーニング機能を提供できます。

Zhiyuan チームの共有のおかげで、大規模なモデル開発者は FlagScale プロジェクトを通じて Aquila2 モデルのトレーニング構成、最適化計画、ハイパーパラメータを入手できます。

FlagScale オープンソースコードリポジトリ: https://github.com/FlagOpen/FlagScale

その結果、Zhiyuan はトレーニングコードとハイパーパラメータを完全にオープンソース化した「中国初の大規模モデルチーム」にもなりました。

FlagScale は Megatron-LM の拡張機能であり、分散オプティマイザー状態の再セグメンテーション、トレーニング問題データの正確な配置、パラメータから Huggingface への変換など、一連の機能強化を提供します。

実際のテストの結果、Aquila2 のトレーニングスループットと GPU 使用率は業界トップレベルに達しました。

FlagScale トレーニングスループットと GPU 使用率

さらに、FlagScale は、データ並列処理、テンソル並列処理、1F1B パイプライン並列処理などのさまざまな並列テクノロジを使用してトレーニングプロセスを高速化し、混合精度トレーニングに BF16 を使用します。

パフォーマンスの最適化に関しては、FlagScale は FlashAttn V2、コンピューティングと通信のオーバーラップ、勾配累積などのテクノロジを使用して、コンピューティング効率を大幅に向上させます。

今後も、FlagScale はアップストリームプロジェクト Megatron-LM の最新コードに追随し、よりカスタマイズされた機能を導入し、最新の分散トレーニングおよび推論技術と主流の大規模モデルを統合し、異種 AI ハードウェアをサポートしていきます。

このようにして、さまざまな規模と要件のモデルトレーニングタスクを満たす、汎用的で便利かつ効率的な分散型大規模モデルトレーニングおよび推論フレームワークを構築できます。

オープンソース演算子セット FlagAttention

さらに、FlagAttention は、長いテキストと大規模なモデルのトレーニングをサポートする、Triton 言語で開発された最初のカスタマイズされた高性能 Attention オープンソース演算子セットです。

大規模モデルのトレーニングのニーズを満たすために、Flash Attention シリーズの Memory Efficient Attention 演算子が拡張されました。

現在、区分的アテンション演算子「PiecewiseAttention」が実装され、数日前から国内チップに適応されています。今後、より異種チップに適応される予定です。

FlagAttention オープンソースコードリポジトリ: https://github.com/FlagOpen/FlagAttention

PiecewiseAttention は主に、回転位置エンコーディング (Roformer) を使用した Transformer モデルの外挿問題を解決します。

大規模モデルの推論時のシーケンス長がトレーニング時の最大シーケンス長を超えると、遠く離れたトークン間の注意重みが異常に増加します。

しかし、Flash Attention では、区分処理方式を使用して Attention Score を効率的に計算することはできません。そのため、Zhiyuan チームは独自の区分 PiecewiseAttention 演算子を開発しました。大規模なモデル開発者は、このオープンソース演算子を使用して、より柔軟な前処理を実現できます。

つまり、PiecewiseAttention には次の特性があります。

- 普遍性:セグメント化された Attention 計算を使用するモデルに対して普遍的であり、Aquila 以外の大規模言語モデルに移行できます。

- 使いやすさ: FlagAttention は Triton 言語に基づいて実装されており、PyTorch インターフェイスを提供します。構築とインストールのプロセスは、CUDA C で開発された Flash Attention よりも便利です。

- スケーラビリティ: Triton 言語のおかげで、FlagAttention アルゴリズム自体の変更および拡張のしきい値も比較的低く、開発者はそれに基づいてさらに多くの新しい機能を簡単に開発できます。

今後、FlagAttention プロジェクトは、大規模モデル研究のニーズをターゲットにし、他の機能拡張による Attention 演算子のサポート、演算子のパフォーマンスのさらなる最適化、より異種 AI ハードウェアへの適応を継続していきます。

開発者ガイド: Aquila2 を使い始める

Aquila2 モデルの重みとコードリポジトリ:

方法1（推奨）：FlagAIを介してAquila2シリーズモデルをロードする

https://github.com/FlagAI-Open/Aquila2

方法2: FlagOpenモデルリポジトリから重みを個別にダウンロードする

https://model.baai.ac.cn/

方法3: Hugging Faceを介してAquila2シリーズモデルをロードする

https://huggingface.co/BAAI

Aquila2 シリーズ全体は、複数の大規模モデルエコシステムのオープンソースプロジェクトと互換性があります。

• LoRA/QLoRA: 大規模モデルのトレーニングを高速化するだけでなく、ビデオメモリの使用量も削減する軽量モデル微調整トレーニングテクノロジー。

• vLLM: 高スループットの大規模言語モデルサービスの構築をサポートし、ストリーミング出力をサポートし、単一マシンのマルチカードと分散並列推論をサポートします。

• llama.cpp: 非 GPU 側と 4 ビットの量子化をサポートし、開発者の使用しきい値をさらに下げます。

<<:

>>: OpenAI のセキュリティ脆弱性が明らかに: ChatGPT の制限は一般的でない言語を使用することで簡単に回避可能

ディープラーニングを使用して映画を推奨するにはどうすればよいでしょうか?独自の推奨システムを作成する方法を教えます!