Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において、人工知能研究院は中国語と英語のセマンティックベクトルモデルのトレーニング用MTP(大量テキストペア)データセットをリリースしました。

これは世界最大の中国語と英語のテキストペアのトレーニングデータセットであり、データサイズは3億ペアです。その3つの主な特徴は、巨大なスケール、豊富なトピック、高いデータ品質です。中国語モデルトレーニングデータセットの不足の問題を解決するのに役立ちます。

汎用セマンティック ベクトル モデルは、大規模モデルのパフォーマンスを決定する重要なコンポーネントです。外部モデルを外部知識にリンクできます。「関連テキスト」を基本要素とする高品質のトレーニング データは、汎用セマンティック ベクトル モデルを構築するための中核要素です。

今回オープンソース化されたMTPデータセットは、Zhiyuan BGEの中国語と英語のセマンティックベクトルモデルのトレーニングに使用された中国語と英語のデータです。

中国語・英語のベクトルモデルトレーニングデータ3億件を公開

大規模モデルのトレーニングにはデータが不可欠です。高品質のオープンソース データセット、特に基本モデルをトレーニングするためのオープンソース データセットを構築することは、大規模モデルの開発にとって非常に重要です。しかし、中国のコミュニティにはデータ オープンソース コントリビューターがほとんどいません。

今回公開された世界最大級のセマンティックベクトルモデル学習データMTPには、以下の特徴があります。

- 巨大なスケール:

3億のテキストペア、中国語が1億、英語が2億。

- 豊富なテーマ:

これは、検索、コミュニティ Q&A、百科事典の知識、科学技術文献など、さまざまなトピックを網羅した大量の高品質テキスト データから派生したものです。

- 高いデータ品質:

データは必要なサンプリング、抽出、フィルタリングを通じて取得され、このデータでトレーニングされたセマンティック ベクトル モデル BGE (BAAI General Embedding) は、同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP

BGE モデルリンク: https://huggingface.co/BAAI

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

データの重要性を踏まえ、Zhiyuanは2021年に世界最大のコーパスであるWuDaoCorporaを立ち上げ、200GBの高品質で低リスクの中国語コーパスを公開しました。これは400以上の産学研の連携であり、770以上の研究開発チームが申請しています。マイクロソフト、ハーバード大学、スタンフォード大学、ファーウェイ、アリババ、テンセント、彭城実験室などにデータサービスを提供しており、グローバルな大規模モデル関連の研究を効果的にサポートしています。

今年、世界最大規模で商用利用可能、継続的に更新される中国のオープンソース指導データセットである COIG が、世界 40 以上の機関から 100 人以上のエンジニアの参加を得てオープンし、国境を越えて緊密に協力するグローバルなデータ オープンソースの感動的なストーリーを生み出しました。

数十万回のダウンロードを誇る、最も人気のあるBGEモデルが更新されました

BGEセマンティックベクトルモデルは、リリース以来、大規模なモデル開発者コミュニティから多くの注目を集めています。現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

中国語意味埋め込みモデル評価 (C-MTEB)

英語セマンティックベクトルモデル評価リスト (MTEB)

Langchain 公式ツイート:「BGE モデルが MTEB ベンチマークで 1 位にランクイン」

LangChainの共同創設者兼CEO、ハリソン・チェイスの推薦

コミュニティからのフィードバックに基づいて、BGE はさらに最適化および更新され、より堅牢かつ優れたパフォーマンスを発揮するようになりました。具体的なアップグレード内容は以下のとおりです。

- モデルの更新:

BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中に温度係数を 0.02 に増やすことで類似度分布の問題を軽減し、類似度の値をより安定させます。

- 新しいモデル:

オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。

- 新機能:

BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

レポートアドレス: https://arxiv.org/abs/2309.07597

ビッグモデルの時代にLinuxのようなエコシステムを構築する

2022年末のChatGPTの登場により、世界的な大規模モデルの研究開発は爆発的な成長期に入りました。同時に、激しい競争と高コストもオープンソースの台頭を促し、人工知能の発展の重要な原動力となっています。

画期的な出来事は、今年5月に世界の人工知能界で広く流布された「オープンソースAIはGoogleとOpenAIに勝つ」と主張するGoogleの内部文書でした。Metaの代表的なオープンソースモデルであるLlamaは、業界の現在の発展において重要な役割を果たしています。

中国のビッグモデルオープンソースエコシステムの代表組織として、ZhiyuanはFlagOpen Feizhiビッグモデルテクノロジーオープンソースシステムの構築に尽力しており、ビッグモデルの共同構築と共有の時代に「Linuxのような」オープンソースエコシステムをリードしています。

2022年11月に立ち上げられ、2023年2月に正式リリースされたFlagOpenビッグモデルテクノロジーオープンソースシステムは、ビッグモデルのオープンソース構築の全体的な傾向を先見的に予見しています。

現在、オープンソースモデル技術開発システムであるFlagOpenは、埋め込み技術とモデルに重点を置いたFlagEmbeddingセクションを追加しました。BGEはその中の最初のオープンソースモデルです。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE プロジェクトに加えて、FlagOpen には、大規模モデル アルゴリズム、モデル、データ、ツール、評価などの重要なコンポーネントもあります。

そのうち、FlagEval(Libra)大規模モデル評価システムおよびオープンプラットフォームは、3次元評価システムを構築し、600以上の総合的な能力評価をカバーしています。科学的、公正かつオープンな評価ベンチマーク、方法、ツールセットを確立し、研究者が基本モデルやトレーニングアルゴリズムのパフォーマンスを総合的に評価するのを支援することを目指しています。

毎月発表されるFlagEval大規模モデル評価リストは、主流モデルを多面的に評価・解釈し、公正かつ包括的なゴールドスタンダードを作成し、大規模モデルの能力評価の風向計としてますます重要になっています。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?

[[205598]]すでにこの業界にいる私としては、今後数年間で業界にどのような機械学習の才能が必...

顔認識技術は「束縛」されているのか?テクノロジーはまだシステムを待つ必要がある

文/東方一洛顔認識技術は公共の場で自由に使用できなくなるのでしょうか?最近、欧州連合は377対248...

仮想現実プログラムを使用してテストされた人工視覚技術は、視覚障害者の自立を支援する

科学技術が発展するにつれ、人類への科学技術の貢献が徐々に明らかになってきています。現在、世界中の科学...

2022年にAIがサイバーセキュリティにもたらすもの

過去 1 年間で、人工知能 (AI) は私たちの日常生活のより大きな部分を占めるようになり、さまざま...

「半導体第一の都市」上海、ついに半導体製造再開の夜明けを迎える

上海市経済情報化委員会は4月16日、「上海市工業企業の業務・生産再開に関する防疫対策ガイドライン(第...

...

バナナの皮をむくのに9つの手順が必要ですか?ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...

GPT-4 は人間よりも資金調達を理解しています。 AIビジネスプランがベンチャーキャピタルを熱狂させる

AI が作成した資金調達計画が、実際に VC を熱狂的に追いつめたと信じられますか? GPT-4 に...

掃除機はいくらかかりますか?掃除ロボットの原理とハードウェア構成の詳細な説明

時代の発展とともに、掃除ロボットは多くの家庭にとって必需品となりました。掃除ロボットは、ベッドの下を...

医療ロボットが登場し、医療分野は大きな変化を迎える

近年、人工知能の発展、技術の飛躍的進歩、その応用分野の漸進的な拡大に伴い、人々の生活と福祉の重要な一...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。 「規模が大きいほど能力が強くなる」には理論的根拠がある

今日の物語の主人公は、サンジーヴ・アローラとアニルド・ゴヤルという二人の科学者です。アローラ氏はプリ...

ロボット工学が医療業界にもたらす変化

ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...

...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...