Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において、人工知能研究院は中国語と英語のセマンティックベクトルモデルのトレーニング用MTP(大量テキストペア)データセットをリリースしました。

これは世界最大の中国語と英語のテキストペアのトレーニングデータセットであり、データサイズは3億ペアです。その3つの主な特徴は、巨大なスケール、豊富なトピック、高いデータ品質です。中国語モデルトレーニングデータセットの不足の問題を解決するのに役立ちます。

汎用セマンティック ベクトル モデルは、大規模モデルのパフォーマンスを決定する重要なコンポーネントです。外部モデルを外部知識にリンクできます。「関連テキスト」を基本要素とする高品質のトレーニング データは、汎用セマンティック ベクトル モデルを構築するための中核要素です。

今回オープンソース化されたMTPデータセットは、Zhiyuan BGEの中国語と英語のセマンティックベクトルモデルのトレーニングに使用された中国語と英語のデータです。

中国語・英語のベクトルモデルトレーニングデータ3億件を公開

大規模モデルのトレーニングにはデータが不可欠です。高品質のオープンソース データセット、特に基本モデルをトレーニングするためのオープンソース データセットを構築することは、大規模モデルの開発にとって非常に重要です。しかし、中国のコミュニティにはデータ オープンソース コントリビューターがほとんどいません。

今回公開された世界最大級のセマンティックベクトルモデル学習データMTPには、以下の特徴があります。

- 巨大なスケール:

3億のテキストペア、中国語が1億、英語が2億。

- 豊富なテーマ:

これは、検索、コミュニティ Q&A、百科事典の知識、科学技術文献など、さまざまなトピックを網羅した大量の高品質テキスト データから派生したものです。

- 高いデータ品質:

データは必要なサンプリング、抽出、フィルタリングを通じて取得され、このデータでトレーニングされたセマンティック ベクトル モデル BGE (BAAI General Embedding) は、同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP

BGE モデルリンク: https://huggingface.co/BAAI

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

データの重要性を踏まえ、Zhiyuanは2021年に世界最大のコーパスであるWuDaoCorporaを立ち上げ、200GBの高品質で低リスクの中国語コーパスを公開しました。これは400以上の産学研の連携であり、770以上の研究開発チームが申請しています。マイクロソフト、ハーバード大学、スタンフォード大学、ファーウェイ、アリババ、テンセント、彭城実験室などにデータサービスを提供しており、グローバルな大規模モデル関連の研究を効果的にサポートしています。

今年、世界最大規模で商用利用可能、継続的に更新される中国のオープンソース指導データセットである COIG が、世界 40 以上の機関から 100 人以上のエンジニアの参加を得てオープンし、国境を越えて緊密に協力するグローバルなデータ オープンソースの感動的なストーリーを生み出しました。

数十万回のダウンロードを誇る、最も人気のあるBGEモデルが更新されました

BGEセマンティックベクトルモデルは、リリース以来、大規模なモデル開発者コミュニティから多くの注目を集めています。現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

中国語意味埋め込みモデル評価 (C-MTEB)

英語セマンティックベクトルモデル評価リスト (MTEB)

Langchain 公式ツイート:「BGE モデルが MTEB ベンチマークで 1 位にランクイン」

LangChainの共同創設者兼CEO、ハリソン・チェイスの推薦

コミュニティからのフィードバックに基づいて、BGE はさらに最適化および更新され、より堅牢かつ優れたパフォーマンスを発揮するようになりました。具体的なアップグレード内容は以下のとおりです。

- モデルの更新:

BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中に温度係数を 0.02 に増やすことで類似度分布の問題を軽減し、類似度の値をより安定させます。

- 新しいモデル:

オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。

- 新機能:

BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

レポートアドレス: https://arxiv.org/abs/2309.07597

ビッグモデルの時代にLinuxのようなエコシステムを構築する

2022年末のChatGPTの登場により、世界的な大規模モデルの研究開発は爆発的な成長期に入りました。同時に、激しい競争と高コストもオープンソースの台頭を促し、人工知能の発展の重要な原動力となっています。

画期的な出来事は、今年5月に世界の人工知能界で広く流布された「オープンソースAIはGoogleとOpenAIに勝つ」と主張するGoogleの内部文書でした。Metaの代表的なオープンソースモデルであるLlamaは、業界の現在の発展において重要な役割を果たしています。

中国のビッグモデルオープンソースエコシステムの代表組織として、ZhiyuanはFlagOpen Feizhiビッグモデルテクノロジーオープンソースシステムの構築に尽力しており、ビッグモデルの共同構築と共有の時代に「Linuxのような」オープンソースエコシステムをリードしています。

2022年11月に立ち上げられ、2023年2月に正式リリースされたFlagOpenビッグモデルテクノロジーオープンソースシステムは、ビッグモデルのオープンソース構築の全体的な傾向を先見的に予見しています。

現在、オープンソースモデル技術開発システムであるFlagOpenは、埋め込み技術とモデルに重点を置いたFlagEmbeddingセクションを追加しました。BGEはその中の最初のオープンソースモデルです。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE プロジェクトに加えて、FlagOpen には、大規模モデル アルゴリズム、モデル、データ、ツール、評価などの重要なコンポーネントもあります。

そのうち、FlagEval(Libra)大規模モデル評価システムおよびオープンプラットフォームは、3次元評価システムを構築し、600以上の総合的な能力評価をカバーしています。科学的、公正かつオープンな評価ベンチマーク、方法、ツールセットを確立し、研究者が基本モデルやトレーニングアルゴリズムのパフォーマンスを総合的に評価するのを支援することを目指しています。

毎月発表されるFlagEval大規模モデル評価リストは、主流モデルを多面的に評価・解釈し、公正かつ包括的なゴールドスタンダードを作成し、大規模モデルの能力評価の風向計としてますます重要になっています。

<<: 

>>: 

ブログ    
ブログ    

推薦する

コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

BGR によれば、注射針に対する恐怖は人口の少なくとも 10% を悩ませており、あらゆる種類のワクチ...

2018年中国人工知能都市ランキングトップ15

最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...

生成 AI を構築するか、購入するか?

テキスト、画像、ビデオ、またはおそらく複数のモデルとサービスの組み合わせであっても、生成 AI を活...

人工知能は、マルチドメイン畳み込みニューラルネットワークを通じて、JPEG二重圧縮画像内の偽造領域を特定します。

人工知能がマルチドメイン畳み込みニューラル ネットワークを介して JPEG 二重圧縮画像の偽造領域を...

TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

自己教師あり表現学習は、過去 2 年間で非常に人気が高まっています。機械学習分野のリーダーであるジェ...

Python は AI のために生まれたわけではありません。Golang は今後 10 年間の人工知能を支配することになるでしょうか?

ここ数年、Python は人工知能とデータサイエンスの分野で最も人気のあるプログラミング言語になりま...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

DevOps で AI を使用して非線形スケーリングを実現する方法

テクノロジーが飛躍的に進歩するにつれ、AI はスピード、スケーラビリティ、品質、柔軟性を求めるあらゆ...

百度の主任科学者アンドリュー・ン氏が辞任を発表

[[186234]] 3月22日、百度のトップ科学者アンドリュー・ン氏は、英語のセルフメディアプラッ...

スマートセキュリティカメラの3つの主要市場

2020 年に企業のオーナーや管理者が直面した健康、安全、セキュリティの課題は、非常に明確になりまし...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

...

中国チームがボストン・ダイナミクスに対抗する四足歩行ロボットを発表

本日、Yushu Technology は、中国で正式に一般に公開される初の四足歩行ロボットとなる四...

自動運転の簡単な分析 - 衝突防止警報システム

朝起きると、自分が遅く起きたことに気づきます。時間通りに会社に着いて出勤記録を残さないようにし、勤怠...

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...