Zhiyuan が最も強力なセマンティック ベクトル モデル BGE をオープンソース化しました。中国語と英語の評価はあらゆる面でOpenAIとMetaを上回る

Zhiyuan が最も強力なセマンティック ベクトル モデル BGE をオープンソース化しました。中国語と英語の評価はあらゆる面でOpenAIとMetaを上回る

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。

ビッグモデルの時代においては、幻覚問題、知識の適時性問題、長すぎるテキスト問題など、ビッグモデルでは限界があったり不十分であったりするさまざまな問題を解決するために必須の技術です。しかし、中国語圏では高品質のセマンティック ベクトル モデルはまだ比較的少なく、オープン ソースになることもほとんどありません。

大規模モデルの制約の解決を加速するために、Zhiyuan は最近、最も強力なオープンソースおよび商用の中国語と英語のセマンティック ベクトル モデル BGE (BAAI General Embedding) をリリースしました。これは、中国語と英語のセマンティック検索精度と全体的なセマンティック表現機能の点で、OpenAI のテキスト埋め込み 002 など、コミュニティ内のすべての同様のモデルを上回っています。さらに、BGE は、同じパラメータの大きさを持つモデル間で最小のベクトル次元を維持するため、使用コストが低くなります。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

C-MTEB ベンチマーク リンク: https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

BGE モデル関連のコードはすべて、埋め込みテクノロジーとモデルに重点を置いた新しいセクションである FlagOpen Feizhi 大規模モデル テクノロジー オープン ソース システムの FlagEmbedding プロジェクトでオープン ソース化されています。 ARI は、より完全な大規模モデルのフルスタック技術を学界と産業界にオープンソースとして提供し続けます。

同時に、現在の中国語コミュニティには包括的な評価ベンチマークが不足していることから、Zhiyuanチームは、6つのカテゴリの評価タスクと31のデータセットを含む、最大かつ最も包括的な中国語セマンティックベクトル表現能力評価ベンチマークC-MTEB(Chinese Massive Text Embedding Benchmark)をリリースし、中国語セマンティックベクトルの包括的な表現能力を評価するための強固な基盤を築きました。すべてのテストデータと評価コードはオープンソース化されています。

大規模モデル アプリケーションの開発者にとって朗報です。LangChain と Zhiyuan BGE を組み合わせることで、大規模な垂直モデルをトレーニングするために多額の費用をかけずに、ローカル ナレッジの質問と回答アシスタントを簡単にカスタマイズできます。

検索精度は大幅に向上しており、中国語と英語の87のタスクで優れたパフォーマンスを発揮します。

BGE は、現在の中国語タスクに対する最も強力なセマンティック ベクトル モデルであり、そのセマンティック表現機能は、同様のオープン ソース モデルの機能を総合的に上回っています。

中国語意味ベクトルの総合的表現能力をテストするC-MTEBの実験結果によると、(表1)BGE中国語モデル(BGE-zh)は、大規模言語モデルへの接続で最も一般的に使用される検索能力において特に顕著な優位性を持ち、その検索精度はOpenAI Text Embedding 002の約1.4倍であることがわかりました。

表1. 中国語意味ベクトル総合表現能力評価(C-MTEB)

注: モデルサイズ列では、ベース ~100M、ラージ ~300M、XXL ~11BBGE wo命令: BGE入力端子は命令を使用しません

中国語機能と同様に、BGE 英語モデル (BGE-en) の意味表現機能も同様に優れています。英語の評価ベンチマーク MTEB の評価結果 (表 2) によると、コミュニティにはすでに多くの優れたベースライン モデルが存在するものの、BGE は、全体的な指標 (平均) と検索機能 (検索) という 2 つの中核的な側面において、これまでのすべてのオープンソースの類似モデルを上回っています。

同時に、BGE の機能は、コミュニティで最も人気のあるオプションである OpenAI Text Embedding 002 を大幅に上回っています。

表2. 英語意味ベクトル総合表現能力テスト(MTEB)注:モデルサイズの列では、ベース〜100M、ラージ〜300M、XXL〜11B

図1. 中国語C-MTEB(左)、英語MTEB(右) 注:BGEは赤、OpenAI Text Embedding 002は青

中国語セマンティックベクトル、総合評価ベンチマーク C-MTEB

これまで、中国のコミュニティには包括的かつ効果的な評価ベンチマークがありませんでした。BGE 研究チームは、既存の中国のオープンソース データセットに基づいて、中国語セマンティック ベクトルの評価ベンチマークである C-MTEB (Chinese Massive Text Embedding Benchmark、表 3 を参照) を構築しました。

C-MTEBの構築は、同じカテゴリーの英語ベンチマークMTEB [12]を参考にしており、31の関連データセットを含む合計6つの評価タスクカテゴリー(検索、ランキング、文の類似性、推論、分類、クラスタリング)をカバーしています。

C-MTEB は現在、最大かつ最も包括的な中国語セマンティック ベクトル評価ベンチマークであり、中国語セマンティック ベクトルの包括的な表現能力を信頼性高く包括的にテストするための実験的基盤を提供します。

現在、C-MTEB のすべてのテスト データと評価コードは、BGE モデルとともにオープンソース化されています。

表3. C-MTEB評価タスクの次元とデータセット

技術的なハイライト: 効率的な事前トレーニング + 大規模なテキストペアの微調整

BGE の優れた意味表現能力は、1) 表現に関する事前トレーニングと、2) 大規模なテキスト ペアのトレーニングという 2 つの要素から生まれます。

BGEは、2つの大規模コーパスWudao [10]とPile [11]の表現に事前トレーニングアルゴリズムRetroMAE [5,6](図2)を採用しました。マスク率の低い入力はセマンティックベクトル(Embed)にエンコードされ、次にマスク率の高い入力がセマンティックベクトルと連結されて元の入力が再構築されます。このようにして、BGE はラベルなしコーパスを使用して、言語モデル ベースを意味表現タスクに適応させることができます。

図2. RetroMAE事前トレーニングアルゴリズムの概略図

BGEは、中国語と英語でそれぞれ最大1億2000万と2億3200万のサンプルペアデータを構築し、実際のシナリオでモデルがさまざまな意味マッチングタスクを習得できるようにしました。また、ネガティブサンプリング増幅[7]とハードネガティブサンプルマイニング[8]を使用して、対照学習の難易度をさらに高め、最大65Kのネガティブサンプルスケールを達成し、意味ベクトルの識別能力を強化しました。

さらに、BGEは命令チューニング[9]の考え方を活用し、問題側にシナリオ記述を追加するために非対称命令追加方式を採用しており、図3に示すように、マルチタスクシナリオにおけるセマンティックベクトルの一般的な能力が向上しています。

図3. シーンヒントの挿入によるマルチタスクの一般的な機能の向上

要約すると、BGE は現在、特にセマンティック検索機能の点で最もパフォーマンスの高いセマンティック ベクトル モデルです。

その優れた機能は、大規模な言語モデル アプリケーション (読解、オープン ドメインの質問応答、知識ベースの対話など) を構築するための重要な機能コンポーネントを提供します。以前のオープンソース モデルと比較して、BGE ではモデル サイズとベクトル次元が増加しなかったため、同じ操作とストレージ効率が維持されました。

現在、BGE の中国語モデルと英語モデルは両方ともオープンソースであり、コードと重みは MIT プロトコルに基づいており、無料の商用利用をサポートしています。

BGE は、Zhiyuan の「FlagOpen ビッグモデル テクノロジー オープンソース システム」の重要な部分として、ビッグモデル エコロジカル インフラストラクチャの構築を可能にするために、継続的に反復および更新を行っていきます。

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

FlagOpen公式サイト: https://flagopen.baai.ac.cn/

セマンティックベクトルモデルの知識拡張

1. セマンティックベクトルモデルとは何ですか?

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。このモデルは、自然なデータサンプル(言語、コード、画像、音声、ビデオなど)をベクトル(連続したデジタルシーケンス)に変換し、ベクトル間の「距離」を使用してデータサンプル間の「相関」を測定します。

2. 大規模モデルの時代において、幻覚の問題や長期記憶の課題などを緩和するために必要な技術。

- タイムリーに知識を習得する

モデルのトレーニング中の段階のみに基づく「厳格な」知識の蓄積は、大規模なモデルが質問に答えるときに幻覚を起こす重要な要因です。セマンティック ベクトル モデルの助けにより、大規模モデルは時代の流れに遅れを取らない「生きた知識」を獲得でき、回答は新しくて正確です。具体的には、セマンティック ベクトル モデルを通じて特定の垂直分野に知識ベース インデックスを確立することで、大規模モデルに世界知識とローカル知識を効率的に補完できます。ユーザーが LLM に質問すると、LLM は最新かつ最も完全な知識ベースから回答を取得します。

- 大規模モデルの長期記憶を改善する

大規模モデルは長い間、長期メモリに閉じ込められてきました。既存の LLM ではコンテキスト入力の長さに制限があり、長いテキストを処理する能力が制限されます。セマンティック ベクトル モデルを使用すると、長いドキュメントを構造化し、LLM と直接対話できるようになり、長いテキスト処理機能の欠点を補うことができます。

3. LangChainのような大規模スターアプリケーションの重要な強み

OpenAI、Google、Metaなどのメーカーは、大規模モデル向けのセマンティックベクターモデルとAPIサービスを立ち上げており、大規模モデルアプリケーションフレームワークLangChain、ベクターストレージデータベースPinecone、ドキュメントフォーマットインデックスツールLlama Index、自律的にステップを「考え」てタスクを完了するアシスタントAutoGPTなど、世界中の大規模モデル開発者コミュニティで影響力のある多くの大規模モデルアプリケーションフレームワークとツールの誕生を直接促進してきました。

<<:  AIGCのビジネス:アクセンチュアが30億ドルを投資した理由

>>:  8ヵ月後、制御された核融合が再び点火に成功しました!出力エネルギーが3.5メガジュールを超え、記録を更新

ブログ    
ブログ    

推薦する

...

...

自動運転について話しましょう

自動運転とは何ですか?自動運転とは、さまざまなセンサー、コンピュータービジョン、人工知能、機械学習な...

...

人工知能とブロックチェーンが連携すると、どのような技術的利益が生まれるのでしょうか?

ブロックチェーンと人工知能は、現在のテクノロジー業界で最も注目されている2つの業界です。Statis...

...

...

百度、検索エンジンアルゴリズムを調整して微博コンテンツのインデックスを強化

情報筋によると、検索エンジンの百度は先週、検索アルゴリズムを調整し、微博のコンテンツのインデックスを...

人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

[[334948]]自動運転車、音声アシスタント、その他の人工知能技術は、ほとんどの人にとって革命...

PCの顔認証ログイン、驚くほど簡単

以前、オープンソース プロジェクトをやったことがあります。GitHub ログインが完成した後、もっと...

高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

[[356670]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

企業に利益をもたらす 5 つの AI トレンド

[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...