Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において、人工知能研究院は中国語と英語のセマンティックベクトルモデルのトレーニング用MTP(大量テキストペア)データセットをリリースしました。

これは世界最大の中国語と英語のテキストペアのトレーニングデータセットであり、データサイズは3億ペアです。その3つの主な特徴は、巨大なスケール、豊富なトピック、高いデータ品質です。中国語モデルトレーニングデータセットの不足の問題を解決するのに役立ちます。

汎用セマンティック ベクトル モデルは、大規模モデルのパフォーマンスを決定する重要なコンポーネントです。外部モデルを外部知識にリンクできます。「関連テキスト」を基本要素とする高品質のトレーニング データは、汎用セマンティック ベクトル モデルを構築するための中核要素です。

今回オープンソース化されたMTPデータセットは、Zhiyuan BGEの中国語と英語のセマンティックベクトルモデルのトレーニングに使用された中国語と英語のデータです。

中国語・英語のベクトルモデルトレーニングデータ3億件を公開

大規模モデルのトレーニングにはデータが不可欠です。高品質のオープンソース データセット、特に基本モデルをトレーニングするためのオープンソース データセットを構築することは、大規模モデルの開発にとって非常に重要です。しかし、中国のコミュニティにはデータ オープンソース コントリビューターがほとんどいません。

今回公開された世界最大級のセマンティックベクトルモデル学習データMTPには、以下の特徴があります。

- 巨大なスケール:

3億のテキストペア、中国語が1億、英語が2億。

- 豊富なテーマ:

これは、検索、コミュニティ Q&A、百科事典の知識、科学技術文献など、さまざまなトピックを網羅した大量の高品質テキスト データから派生したものです。

- 高いデータ品質:

データは必要なサンプリング、抽出、フィルタリングを通じて取得され、このデータでトレーニングされたセマンティック ベクトル モデル BGE (BAAI General Embedding) は、同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP

BGE モデルリンク: https://huggingface.co/BAAI

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

データの重要性を踏まえ、Zhiyuanは2021年に世界最大のコーパスであるWuDaoCorporaを立ち上げ、200GBの高品質で低リスクの中国語コーパスを公開しました。これは400以上の産学研の連携であり、770以上の研究開発チームが申請しています。マイクロソフト、ハーバード大学、スタンフォード大学、ファーウェイ、アリババ、テンセント、彭城実験室などにデータサービスを提供しており、グローバルな大規模モデル関連の研究を効果的にサポートしています。

今年、世界最大規模で商用利用可能、継続的に更新される中国のオープンソース指導データセットである COIG が、世界 40 以上の機関から 100 人以上のエンジニアの参加を得てオープンし、国境を越えて緊密に協力するグローバルなデータ オープンソースの感動的なストーリーを生み出しました。

数十万回のダウンロードを誇る、最も人気のあるBGEモデルが更新されました

BGEセマンティックベクトルモデルは、リリース以来、大規模なモデル開発者コミュニティから多くの注目を集めています。現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

中国語意味埋め込みモデル評価 (C-MTEB)

英語セマンティックベクトルモデル評価リスト (MTEB)

Langchain 公式ツイート:「BGE モデルが MTEB ベンチマークで 1 位にランクイン」

LangChainの共同創設者兼CEO、ハリソン・チェイスの推薦

コミュニティからのフィードバックに基づいて、BGE はさらに最適化および更新され、より堅牢かつ優れたパフォーマンスを発揮するようになりました。具体的なアップグレード内容は以下のとおりです。

- モデルの更新:

BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中に温度係数を 0.02 に増やすことで類似度分布の問題を軽減し、類似度の値をより安定させます。

- 新しいモデル:

オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。

- 新機能:

BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

レポートアドレス: https://arxiv.org/abs/2309.07597

ビッグモデルの時代にLinuxのようなエコシステムを構築する

2022年末のChatGPTの登場により、世界的な大規模モデルの研究開発は爆発的な成長期に入りました。同時に、激しい競争と高コストもオープンソースの台頭を促し、人工知能の発展の重要な原動力となっています。

画期的な出来事は、今年5月に世界の人工知能界で広く流布された「オープンソースAIはGoogleとOpenAIに勝つ」と主張するGoogleの内部文書でした。Metaの代表的なオープンソースモデルであるLlamaは、業界の現在の発展において重要な役割を果たしています。

中国のビッグモデルオープンソースエコシステムの代表組織として、ZhiyuanはFlagOpen Feizhiビッグモデルテクノロジーオープンソースシステムの構築に尽力しており、ビッグモデルの共同構築と共有の時代に「Linuxのような」オープンソースエコシステムをリードしています。

2022年11月に立ち上げられ、2023年2月に正式リリースされたFlagOpenビッグモデルテクノロジーオープンソースシステムは、ビッグモデルのオープンソース構築の全体的な傾向を先見的に予見しています。

現在、オープンソースモデル技術開発システムであるFlagOpenは、埋め込み技術とモデルに重点を置いたFlagEmbeddingセクションを追加しました。BGEはその中の最初のオープンソースモデルです。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE プロジェクトに加えて、FlagOpen には、大規模モデル アルゴリズム、モデル、データ、ツール、評価などの重要なコンポーネントもあります。

そのうち、FlagEval(Libra)大規模モデル評価システムおよびオープンプラットフォームは、3次元評価システムを構築し、600以上の総合的な能力評価をカバーしています。科学的、公正かつオープンな評価ベンチマーク、方法、ツールセットを確立し、研究者が基本モデルやトレーニングアルゴリズムのパフォーマンスを総合的に評価するのを支援することを目指しています。

毎月発表されるFlagEval大規模モデル評価リストは、主流モデルを多面的に評価・解釈し、公正かつ包括的なゴールドスタンダードを作成し、大規模モデルの能力評価の風向計としてますます重要になっています。

<<: 

>>: 

ブログ    
ブログ    

推薦する

人工知能がフィットネス業界にもたらすイノベーション:AIパーソナルトレーナーの登場

デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...

すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

最近、OpenAI の主任科学者 Ilya Sutskever 氏が、計算理論の研究に重点を置く S...

Keras の重み制約を使用してディープ ニューラル ネットワークの過剰適合を減らす

[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...

...

アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ソートアルゴリズムは、「データ構造とアルゴリズム」における最も基本的なアルゴリズムの 1 つです。ソ...

...

Excelが変わりました! MicrosoftはPythonを搭載しているので、機械学習を直接行うことができます。

素晴らしいニュースです! Microsoft が Excel に Python を導入しました。 E...

GitHub のスターや Kaggle のいいねを公に販売する「ブラックマーケット」がますます露骨になっていませんか?

開発者の世界では、GitHub のスターの数は、プロジェクトが人気があるかどうかを判断するための非常...

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

LeCunは再び自己回帰LLMを批判:2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはス...

...

...

革新的なマイクロチップ設計によりコンピューティングがエッジにまで広がり、AIをリアルタイムで使用できるようになります。

人工知能によるコンピュータネットワークへの需要の爆発的な増加に対処するため、プリンストン大学の研究者...

企業には自動化の取り組みを監督する最高ロボット責任者が必要ですか?

職場におけるロボット工学と自動化の利用増加に対応するために、企業は最高ロボット工学責任者 (CRO)...

...