Zhiyuan が最も強力なセマンティックベクトルモデル BGE をオープンソース化しました。中国語と英語の評価はあらゆる面でOpenAIとMetaを上回る

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。

ビッグモデルの時代においては、幻覚問題、知識の適時性問題、長すぎるテキスト問題など、ビッグモデルでは限界があったり不十分であったりするさまざまな問題を解決するために必須の技術です。しかし、中国語圏では高品質のセマンティックベクトルモデルはまだ比較的少なく、オープンソースになることもほとんどありません。

大規模モデルの制約の解決を加速するために、Zhiyuan は最近、最も強力なオープンソースおよび商用の中国語と英語のセマンティックベクトルモデル BGE (BAAI General Embedding) をリリースしました。これは、中国語と英語のセマンティック検索精度と全体的なセマンティック表現機能の点で、OpenAI のテキスト埋め込み 002 など、コミュニティ内のすべての同様のモデルを上回っています。さらに、BGE は、同じパラメータの大きさを持つモデル間で最小のベクトル次元を維持するため、使用コストが低くなります。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コードリポジトリ: https://github.com/FlagOpen/FlagEmbedding

C-MTEB ベンチマークリンク: https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

BGE モデル関連のコードはすべて、埋め込みテクノロジーとモデルに重点を置いた新しいセクションである FlagOpen Feizhi 大規模モデルテクノロジーオープンソースシステムの FlagEmbedding プロジェクトでオープンソース化されています。 ARI は、より完全な大規模モデルのフルスタック技術を学界と産業界にオープンソースとして提供し続けます。

同時に、現在の中国語コミュニティには包括的な評価ベンチマークが不足していることから、Zhiyuanチームは、6つのカテゴリの評価タスクと31のデータセットを含む、最大かつ最も包括的な中国語セマンティックベクトル表現能力評価ベンチマークC-MTEB（Chinese Massive Text Embedding Benchmark）をリリースし、中国語セマンティックベクトルの包括的な表現能力を評価するための強固な基盤を築きました。すべてのテストデータと評価コードはオープンソース化されています。

大規模モデルアプリケーションの開発者にとって朗報です。LangChain と Zhiyuan BGE を組み合わせることで、大規模な垂直モデルをトレーニングするために多額の費用をかけずに、ローカルナレッジの質問と回答アシスタントを簡単にカスタマイズできます。

検索精度は大幅に向上しており、中国語と英語の87のタスクで優れたパフォーマンスを発揮します。

BGE は、現在の中国語タスクに対する最も強力なセマンティックベクトルモデルであり、そのセマンティック表現機能は、同様のオープンソースモデルの機能を総合的に上回っています。

中国語意味ベクトルの総合的表現能力をテストするC-MTEBの実験結果によると、（表1）BGE中国語モデル（BGE-zh）は、大規模言語モデルへの接続で最も一般的に使用される検索能力において特に顕著な優位性を持ち、その検索精度はOpenAI Text Embedding 002の約1.4倍であることがわかりました。

表1. 中国語意味ベクトル総合表現能力評価（C-MTEB）

注: モデルサイズ列では、ベース ~100M、ラージ ~300M、XXL ~11BBGE wo命令: BGE入力端子は命令を使用しません

中国語機能と同様に、BGE 英語モデル (BGE-en) の意味表現機能も同様に優れています。英語の評価ベンチマーク MTEB の評価結果 (表 2) によると、コミュニティにはすでに多くの優れたベースラインモデルが存在するものの、BGE は、全体的な指標 (平均) と検索機能 (検索) という 2 つの中核的な側面において、これまでのすべてのオープンソースの類似モデルを上回っています。

同時に、BGE の機能は、コミュニティで最も人気のあるオプションである OpenAI Text Embedding 002 を大幅に上回っています。

表2. 英語意味ベクトル総合表現能力テスト（MTEB）注：モデルサイズの列では、ベース〜100M、ラージ〜300M、XXL〜11B

図1. 中国語C-MTEB（左）、英語MTEB（右）注：BGEは赤、OpenAI Text Embedding 002は青

中国語セマンティックベクトル、総合評価ベンチマーク C-MTEB

これまで、中国のコミュニティには包括的かつ効果的な評価ベンチマークがありませんでした。BGE 研究チームは、既存の中国のオープンソースデータセットに基づいて、中国語セマンティックベクトルの評価ベンチマークである C-MTEB (Chinese Massive Text Embedding Benchmark、表 3 を参照) を構築しました。

C-MTEBの構築は、同じカテゴリーの英語ベンチマークMTEB [12]を参考にしており、31の関連データセットを含む合計6つの評価タスクカテゴリー（検索、ランキング、文の類似性、推論、分類、クラスタリング）をカバーしています。

C-MTEB は現在、最大かつ最も包括的な中国語セマンティックベクトル評価ベンチマークであり、中国語セマンティックベクトルの包括的な表現能力を信頼性高く包括的にテストするための実験的基盤を提供します。

現在、C-MTEB のすべてのテストデータと評価コードは、BGE モデルとともにオープンソース化されています。

表3. C-MTEB評価タスクの次元とデータセット

技術的なハイライト: 効率的な事前トレーニング + 大規模なテキストペアの微調整

BGE の優れた意味表現能力は、1) 表現に関する事前トレーニングと、2) 大規模なテキストペアのトレーニングという 2 つの要素から生まれます。

BGEは、2つの大規模コーパスWudao [10]とPile [11]の表現に事前トレーニングアルゴリズムRetroMAE [5,6]（図2）を採用しました。マスク率の低い入力はセマンティックベクトル（Embed）にエンコードされ、次にマスク率の高い入力がセマンティックベクトルと連結されて元の入力が再構築されます。このようにして、BGE はラベルなしコーパスを使用して、言語モデルベースを意味表現タスクに適応させることができます。

図2. RetroMAE事前トレーニングアルゴリズムの概略図

BGEは、中国語と英語でそれぞれ最大1億2000万と2億3200万のサンプルペアデータを構築し、実際のシナリオでモデルがさまざまな意味マッチングタスクを習得できるようにしました。また、ネガティブサンプリング増幅[7]とハードネガティブサンプルマイニング[8]を使用して、対照学習の難易度をさらに高め、最大65Kのネガティブサンプルスケールを達成し、意味ベクトルの識別能力を強化しました。

さらに、BGEは命令チューニング[9]の考え方を活用し、問題側にシナリオ記述を追加するために非対称命令追加方式を採用しており、図3に示すように、マルチタスクシナリオにおけるセマンティックベクトルの一般的な能力が向上しています。

図3. シーンヒントの挿入によるマルチタスクの一般的な機能の向上

要約すると、BGE は現在、特にセマンティック検索機能の点で最もパフォーマンスの高いセマンティックベクトルモデルです。

その優れた機能は、大規模な言語モデルアプリケーション (読解、オープンドメインの質問応答、知識ベースの対話など) を構築するための重要な機能コンポーネントを提供します。以前のオープンソースモデルと比較して、BGE ではモデルサイズとベクトル次元が増加しなかったため、同じ操作とストレージ効率が維持されました。

現在、BGE の中国語モデルと英語モデルは両方ともオープンソースであり、コードと重みは MIT プロトコルに基づいており、無料の商用利用をサポートしています。

BGE は、Zhiyuan の「FlagOpen ビッグモデルテクノロジーオープンソースシステム」の重要な部分として、ビッグモデルエコロジカルインフラストラクチャの構築を可能にするために、継続的に反復および更新を行っていきます。

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コードリポジトリ: https://github.com/FlagOpen/FlagEmbedding

FlagOpen公式サイト: https://flagopen.baai.ac.cn/

セマンティックベクトルモデルの知識拡張

1. セマンティックベクトルモデルとは何ですか?

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。このモデルは、自然なデータサンプル（言語、コード、画像、音声、ビデオなど）をベクトル（連続したデジタルシーケンス）に変換し、ベクトル間の「距離」を使用してデータサンプル間の「相関」を測定します。

2. 大規模モデルの時代において、幻覚の問題や長期記憶の課題などを緩和するために必要な技術。

- タイムリーに知識を習得する

モデルのトレーニング中の段階のみに基づく「厳格な」知識の蓄積は、大規模なモデルが質問に答えるときに幻覚を起こす重要な要因です。セマンティックベクトルモデルの助けにより、大規模モデルは時代の流れに遅れを取らない「生きた知識」を獲得でき、回答は新しくて正確です。具体的には、セマンティックベクトルモデルを通じて特定の垂直分野に知識ベースインデックスを確立することで、大規模モデルに世界知識とローカル知識を効率的に補完できます。ユーザーが LLM に質問すると、LLM は最新かつ最も完全な知識ベースから回答を取得します。

- 大規模モデルの長期記憶を改善する

大規模モデルは長い間、長期メモリに閉じ込められてきました。既存の LLM ではコンテキスト入力の長さに制限があり、長いテキストを処理する能力が制限されます。セマンティックベクトルモデルを使用すると、長いドキュメントを構造化し、LLM と直接対話できるようになり、長いテキスト処理機能の欠点を補うことができます。

3. LangChainのような大規模スターアプリケーションの重要な強み

OpenAI、Google、Metaなどのメーカーは、大規模モデル向けのセマンティックベクターモデルとAPIサービスを立ち上げており、大規模モデルアプリケーションフレームワークLangChain、ベクターストレージデータベースPinecone、ドキュメントフォーマットインデックスツールLlama Index、自律的にステップを「考え」てタスクを完了するアシスタントAutoGPTなど、世界中の大規模モデル開発者コミュニティで影響力のある多くの大規模モデルアプリケーションフレームワークとツールの誕生を直接促進してきました。

<<: AIGCのビジネス：アクセンチュアが30億ドルを投資した理由

>>: 8ヵ月後、制御された核融合が再び点火に成功しました！出力エネルギーが3.5メガジュールを超え、記録を更新