Zhiyuan が最も強力なセマンティック ベクトル モデル BGE をオープンソース化しました。中国語と英語の評価はあらゆる面でOpenAIとMetaを上回る

Zhiyuan が最も強力なセマンティック ベクトル モデル BGE をオープンソース化しました。中国語と英語の評価はあらゆる面でOpenAIとMetaを上回る

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。

ビッグモデルの時代においては、幻覚問題、知識の適時性問題、長すぎるテキスト問題など、ビッグモデルでは限界があったり不十分であったりするさまざまな問題を解決するために必須の技術です。しかし、中国語圏では高品質のセマンティック ベクトル モデルはまだ比較的少なく、オープン ソースになることもほとんどありません。

大規模モデルの制約の解決を加速するために、Zhiyuan は最近、最も強力なオープンソースおよび商用の中国語と英語のセマンティック ベクトル モデル BGE (BAAI General Embedding) をリリースしました。これは、中国語と英語のセマンティック検索精度と全体的なセマンティック表現機能の点で、OpenAI のテキスト埋め込み 002 など、コミュニティ内のすべての同様のモデルを上回っています。さらに、BGE は、同じパラメータの大きさを持つモデル間で最小のベクトル次元を維持するため、使用コストが低くなります。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

C-MTEB ベンチマーク リンク: https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

BGE モデル関連のコードはすべて、埋め込みテクノロジーとモデルに重点を置いた新しいセクションである FlagOpen Feizhi 大規模モデル テクノロジー オープン ソース システムの FlagEmbedding プロジェクトでオープン ソース化されています。 ARI は、より完全な大規模モデルのフルスタック技術を学界と産業界にオープンソースとして提供し続けます。

同時に、現在の中国語コミュニティには包括的な評価ベンチマークが不足していることから、Zhiyuanチームは、6つのカテゴリの評価タスクと31のデータセットを含む、最大かつ最も包括的な中国語セマンティックベクトル表現能力評価ベンチマークC-MTEB(Chinese Massive Text Embedding Benchmark)をリリースし、中国語セマンティックベクトルの包括的な表現能力を評価するための強固な基盤を築きました。すべてのテストデータと評価コードはオープンソース化されています。

大規模モデル アプリケーションの開発者にとって朗報です。LangChain と Zhiyuan BGE を組み合わせることで、大規模な垂直モデルをトレーニングするために多額の費用をかけずに、ローカル ナレッジの質問と回答アシスタントを簡単にカスタマイズできます。

検索精度は大幅に向上しており、中国語と英語の87のタスクで優れたパフォーマンスを発揮します。

BGE は、現在の中国語タスクに対する最も強力なセマンティック ベクトル モデルであり、そのセマンティック表現機能は、同様のオープン ソース モデルの機能を総合的に上回っています。

中国語意味ベクトルの総合的表現能力をテストするC-MTEBの実験結果によると、(表1)BGE中国語モデル(BGE-zh)は、大規模言語モデルへの接続で最も一般的に使用される検索能力において特に顕著な優位性を持ち、その検索精度はOpenAI Text Embedding 002の約1.4倍であることがわかりました。

表1. 中国語意味ベクトル総合表現能力評価(C-MTEB)

注: モデルサイズ列では、ベース ~100M、ラージ ~300M、XXL ~11BBGE wo命令: BGE入力端子は命令を使用しません

中国語機能と同様に、BGE 英語モデル (BGE-en) の意味表現機能も同様に優れています。英語の評価ベンチマーク MTEB の評価結果 (表 2) によると、コミュニティにはすでに多くの優れたベースライン モデルが存在するものの、BGE は、全体的な指標 (平均) と検索機能 (検索) という 2 つの中核的な側面において、これまでのすべてのオープンソースの類似モデルを上回っています。

同時に、BGE の機能は、コミュニティで最も人気のあるオプションである OpenAI Text Embedding 002 を大幅に上回っています。

表2. 英語意味ベクトル総合表現能力テスト(MTEB)注:モデルサイズの列では、ベース〜100M、ラージ〜300M、XXL〜11B

図1. 中国語C-MTEB(左)、英語MTEB(右) 注:BGEは赤、OpenAI Text Embedding 002は青

中国語セマンティックベクトル、総合評価ベンチマーク C-MTEB

これまで、中国のコミュニティには包括的かつ効果的な評価ベンチマークがありませんでした。BGE 研究チームは、既存の中国のオープンソース データセットに基づいて、中国語セマンティック ベクトルの評価ベンチマークである C-MTEB (Chinese Massive Text Embedding Benchmark、表 3 を参照) を構築しました。

C-MTEBの構築は、同じカテゴリーの英語ベンチマークMTEB [12]を参考にしており、31の関連データセットを含む合計6つの評価タスクカテゴリー(検索、ランキング、文の類似性、推論、分類、クラスタリング)をカバーしています。

C-MTEB は現在、最大かつ最も包括的な中国語セマンティック ベクトル評価ベンチマークであり、中国語セマンティック ベクトルの包括的な表現能力を信頼性高く包括的にテストするための実験的基盤を提供します。

現在、C-MTEB のすべてのテスト データと評価コードは、BGE モデルとともにオープンソース化されています。

表3. C-MTEB評価タスクの次元とデータセット

技術的なハイライト: 効率的な事前トレーニング + 大規模なテキストペアの微調整

BGE の優れた意味表現能力は、1) 表現に関する事前トレーニングと、2) 大規模なテキスト ペアのトレーニングという 2 つの要素から生まれます。

BGEは、2つの大規模コーパスWudao [10]とPile [11]の表現に事前トレーニングアルゴリズムRetroMAE [5,6](図2)を採用しました。マスク率の低い入力はセマンティックベクトル(Embed)にエンコードされ、次にマスク率の高い入力がセマンティックベクトルと連結されて元の入力が再構築されます。このようにして、BGE はラベルなしコーパスを使用して、言語モデル ベースを意味表現タスクに適応させることができます。

図2. RetroMAE事前トレーニングアルゴリズムの概略図

BGEは、中国語と英語でそれぞれ最大1億2000万と2億3200万のサンプルペアデータを構築し、実際のシナリオでモデルがさまざまな意味マッチングタスクを習得できるようにしました。また、ネガティブサンプリング増幅[7]とハードネガティブサンプルマイニング[8]を使用して、対照学習の難易度をさらに高め、最大65Kのネガティブサンプルスケールを達成し、意味ベクトルの識別能力を強化しました。

さらに、BGEは命令チューニング[9]の考え方を活用し、問題側にシナリオ記述を追加するために非対称命令追加方式を採用しており、図3に示すように、マルチタスクシナリオにおけるセマンティックベクトルの一般的な能力が向上しています。

図3. シーンヒントの挿入によるマルチタスクの一般的な機能の向上

要約すると、BGE は現在、特にセマンティック検索機能の点で最もパフォーマンスの高いセマンティック ベクトル モデルです。

その優れた機能は、大規模な言語モデル アプリケーション (読解、オープン ドメインの質問応答、知識ベースの対話など) を構築するための重要な機能コンポーネントを提供します。以前のオープンソース モデルと比較して、BGE ではモデル サイズとベクトル次元が増加しなかったため、同じ操作とストレージ効率が維持されました。

現在、BGE の中国語モデルと英語モデルは両方ともオープンソースであり、コードと重みは MIT プロトコルに基づいており、無料の商用利用をサポートしています。

BGE は、Zhiyuan の「FlagOpen ビッグモデル テクノロジー オープンソース システム」の重要な部分として、ビッグモデル エコロジカル インフラストラクチャの構築を可能にするために、継続的に反復および更新を行っていきます。

BGE モデルリンク: https://huggingface.co/BAAI/

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

FlagOpen公式サイト: https://flagopen.baai.ac.cn/

セマンティックベクトルモデルの知識拡張

1. セマンティックベクトルモデルとは何ですか?

セマンティック埋め込みモデルは、検索、推奨、データマイニングなどの重要な分野で広く使用されています。このモデルは、自然なデータサンプル(言語、コード、画像、音声、ビデオなど)をベクトル(連続したデジタルシーケンス)に変換し、ベクトル間の「距離」を使用してデータサンプル間の「相関」を測定します。

2. 大規模モデルの時代において、幻覚の問題や長期記憶の課題などを緩和するために必要な技術。

- タイムリーに知識を習得する

モデルのトレーニング中の段階のみに基づく「厳格な」知識の蓄積は、大規模なモデルが質問に答えるときに幻覚を起こす重要な要因です。セマンティック ベクトル モデルの助けにより、大規模モデルは時代の流れに遅れを取らない「生きた知識」を獲得でき、回答は新しくて正確です。具体的には、セマンティック ベクトル モデルを通じて特定の垂直分野に知識ベース インデックスを確立することで、大規模モデルに世界知識とローカル知識を効率的に補完できます。ユーザーが LLM に質問すると、LLM は最新かつ最も完全な知識ベースから回答を取得します。

- 大規模モデルの長期記憶を改善する

大規模モデルは長い間、長期メモリに閉じ込められてきました。既存の LLM ではコンテキスト入力の長さに制限があり、長いテキストを処理する能力が制限されます。セマンティック ベクトル モデルを使用すると、長いドキュメントを構造化し、LLM と直接対話できるようになり、長いテキスト処理機能の欠点を補うことができます。

3. LangChainのような大規模スターアプリケーションの重要な強み

OpenAI、Google、Metaなどのメーカーは、大規模モデル向けのセマンティックベクターモデルとAPIサービスを立ち上げており、大規模モデルアプリケーションフレームワークLangChain、ベクターストレージデータベースPinecone、ドキュメントフォーマットインデックスツールLlama Index、自律的にステップを「考え」てタスクを完了するアシスタントAutoGPTなど、世界中の大規模モデル開発者コミュニティで影響力のある多くの大規模モデルアプリケーションフレームワークとツールの誕生を直接促進してきました。

<<:  AIGCのビジネス:アクセンチュアが30億ドルを投資した理由

>>:  8ヵ月後、制御された核融合が再び点火に成功しました!出力エネルギーが3.5メガジュールを超え、記録を更新

ブログ    
ブログ    
ブログ    

推薦する

...

ディープラーニングパーセプトロンの原理の詳しい説明

前回の機械学習のトピックは終了しました。機械学習の分野でよく使用されるアルゴリズム、モデル、その原理...

中国の人工知能チップ市場の分析と展望

技術の進歩はあらゆる産業革命の原動力となってきましたが、人類社会は人工知能技術の進歩により、いわゆる...

ついに誰かが説明可能な機械学習を明らかにした

[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

ダニエル・ウーの顔を5秒で変える!人気のAIアプリ「ZAO」は依然として技術的な問題に直面しています。あなたの「顔」は認証されましたか?

制作:ビッグデータダイジェスト編集部ZAOは一夜にして人気者になった。一昨夜、文翁の友人の輪には、さ...

ウォールストリートジャーナル:大手テクノロジー企業は依然として生成AIサービスで利益を上げようとしている

昨年末の ChatGPT の登場により、生成 AI の流行が巻き起こり、現在ではほぼすべての主要ソフ...

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...

...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

優秀なデータ アナリストは、基本的な統計、データベース、データ分析方法、考え方、データ分析ツールのス...

セマンティクスと機械学習が融合するとき

人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、...

フロンティアモデルフォーラムは責任あるAIの創造を目指している

政府や社会からの監視が強まる中、人工知能(AI)の責任ある開発を促進し、業界標準を確立することを目的...

人工知能は物流の自動化の方法を変え、労働集約型産業に革新をもたらすだろう

自動化はテクノロジーを利用して、人間がより多くのタスクを完了できるようにします。物流においては、自動...