Zhiyuanは3億個のセマンティックベクトルモデルトレーニングデータを公開し、BGEモデルは反復と更新を続けています

Zhiyuanは3億個のセマンティックベクトルモデルトレーニングデータを公開し、BGEモデルは反復と更新を続けています

大規模モデルの開発と応用が急速に発展するにつれ、大規模モデルの中核となる基本コンポーネントとしての埋め込みの重要性がますます高まっています。 1か月前にZhiyuanがリリースしたオープンソースの商用中国語および英語セマンティックベクトルモデルBGE(BAAI General Embedding)はコミュニティで大きな注目を集めており、Hugging Faceの累計ダウンロード数は数十万に達しています。現在、BGEは急速に反復してバージョン1.5をリリースし、いくつかのアップデートを発表しました。その中で、BGEは初めて3億の大規模なトレーニングデータをオープンソース化し、コミュニティが同様のモデルをトレーニングし、この分野での技術開発を促進するのに役立てています。

  • MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP
  • BGE モデルリンク: https://huggingface.co/BAAI
  • BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

中国語 - 英語のベクトルモデルトレーニングデータセット3億個を公開

業界初のセマンティックベクトルモデルトレーニングデータがオープンソース化され、中国語と英語のデータが3億件に達しました。

BGE の優れた機能は、主に大規模で多様なトレーニング データによるものです。これまで、業界内で同様のデータセットをリリースした企業はほとんどありませんでした。今回のアップデートで、Zhiyuan は BGE のトレーニング データを初めてコミュニティに公開し、こうしたテクノロジーのさらなる開発の基盤を築きました。

今回公開されたMTPデータセットは、合計3億件の中国語と英語の関連テキストペアで構成されており、そのうち中国語のレコードが1億件、英語のデータが2億件あります。データは、必要なサンプリング、抽出、クリーニングを行った後、Wudao Corpora、Pile、DuReader、Sentence Transformer などのコーパスから収集されます。

詳細については、データハブをご覧ください: https://data.baai.ac.cn

MTP は、中国語と英語の関連テキスト ペアの現在までに最大のオープン ソース データセットであり、中国語と英語のセマンティック ベクトル モデルのトレーニングに重要な基盤を提供します。

開発者コミュニティに応えてBGE機能アップグレード

コミュニティからのフィードバックに基づいて、BGE はバージョン 1.0 からさらに最適化され、パフォーマンスがより堅牢で優れたものになりました。具体的なアップグレード内容は以下のとおりです。

  • モデルの更新。 BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中の温度係数を 0.02 に増やすことで類似度の分布の問題を軽減し、類似度の値をより安定させます。
  • 新しいモデルが追加されました。オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。
  • 新しい機能。 BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

《C-Pack: 中国語の汎用埋め込みを促進するパッケージ化されたリソース》

リンク: https://arxiv.org/pdf/2309.07597.pdf

開発者コミュニティで高い人気を獲得

BGEはリリース以来、大規模なモデル開発者コミュニティの注目を集めており、現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

LangChainの役員、LangChainの共同設立者兼CEOのハリソン・チェイス氏、Deep Tradingの設立者ヤム・ペレグ氏、その他コミュニティの著名人がBGEに対する懸念を表明した。


オープンソースを堅持し、共同イノベーションを推進する Zhiyuan ビッグモデル技術開発システム FlagOpen BGE は、埋め込み技術とモデルに重点を置いた新しいセクション FlagEmbedding を追加しました。BGE はスター オープンソース プロジェクトの 1 つです。 FlagOpenはビッグモデル時代のAI技術インフラの構築に注力しており、今後もより充実したビッグモデルフルスタック技術を学界や産業界にオープンソース化していきます。

<<:  オープンソース「AI史上最も重要な非公開会議」!マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した

>>:  爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

ブログ    
ブログ    
ブログ    

推薦する

AIアシスタントのユーザーエクスペリエンスは2018年に大幅に低下

人工知能 (AI) 音声アシスタントは近年大きな進歩を遂げ、スマートスピーカーやその他の AI スマ...

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

...

AI チャットボットと自動テストの重要性

近年、銀行、医療、小売、通信などの業界でチャットボットの使用が大幅に増加しています。これにより、私た...

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入...

ハイリアンと手を携えてデジタル変革の道を議論する

モバイルインターネットの発展に伴い、企業の生産・運営プロセスで生成されるデータは、これまでにない爆発...

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。...

人工知能がデータセンターのネットゼロカーボン達成を支援

今日、業界や部門に関係なく、私たちは皆、エネルギーと燃料のコスト上昇、原材料費の増加、営業利益率と利...

MetaMindによるNLP研究の徹底分析:機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...

人工知能の6つの主要概念とAIプロジェクトを実装するための7つの考慮事項を1つの記事で理解する

AI はすべての問題を解決できるわけではありませんが、正しく適用すれば短期間で大きな変化をもたらすこ...

中国人がさらに7,360万ドルの資金調達を実施した!天才プログラマーが共同設立したLeCunの重鎮たちが全員サポート

Perplexity AIは本日、シリーズBの資金調達で7,360万ドルを調達し、評価額は5億2,0...

セキュリティ+ロボット業界の新動向:技術力の向上が急務

人口減少と人件費の高騰が進む中、ロボットは産業構造改革の中核となっている。ロボットが産業のアップグレ...

Amazon Transcribe について

Amazon Transcribe は、開発者がアプリケーションに音声テキスト変換機能を簡単に追加で...