Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において、人工知能研究院は中国語と英語のセマンティックベクトルモデルのトレーニング用MTP(大量テキストペア)データセットをリリースしました。

これは世界最大の中国語と英語のテキストペアのトレーニングデータセットであり、データサイズは3億ペアです。その3つの主な特徴は、巨大なスケール、豊富なトピック、高いデータ品質です。中国語モデルトレーニングデータセットの不足の問題を解決するのに役立ちます。

汎用セマンティック ベクトル モデルは、大規模モデルのパフォーマンスを決定する重要なコンポーネントです。外部モデルを外部知識にリンクできます。「関連テキスト」を基本要素とする高品質のトレーニング データは、汎用セマンティック ベクトル モデルを構築するための中核要素です。

今回オープンソース化されたMTPデータセットは、Zhiyuan BGEの中国語と英語のセマンティックベクトルモデルのトレーニングに使用された中国語と英語のデータです。

中国語・英語のベクトルモデルトレーニングデータ3億件を公開

大規模モデルのトレーニングにはデータが不可欠です。高品質のオープンソース データセット、特に基本モデルをトレーニングするためのオープンソース データセットを構築することは、大規模モデルの開発にとって非常に重要です。しかし、中国のコミュニティにはデータ オープンソース コントリビューターがほとんどいません。

今回公開された世界最大級のセマンティックベクトルモデル学習データMTPには、以下の特徴があります。

- 巨大なスケール:

3億のテキストペア、中国語が1億、英語が2億。

- 豊富なテーマ:

これは、検索、コミュニティ Q&A、百科事典の知識、科学技術文献など、さまざまなトピックを網羅した大量の高品質テキスト データから派生したものです。

- 高いデータ品質:

データは必要なサンプリング、抽出、フィルタリングを通じて取得され、このデータでトレーニングされたセマンティック ベクトル モデル BGE (BAAI General Embedding) は、同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP

BGE モデルリンク: https://huggingface.co/BAAI

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

データの重要性を踏まえ、Zhiyuanは2021年に世界最大のコーパスであるWuDaoCorporaを立ち上げ、200GBの高品質で低リスクの中国語コーパスを公開しました。これは400以上の産学研の連携であり、770以上の研究開発チームが申請しています。マイクロソフト、ハーバード大学、スタンフォード大学、ファーウェイ、アリババ、テンセント、彭城実験室などにデータサービスを提供しており、グローバルな大規模モデル関連の研究を効果的にサポートしています。

今年、世界最大規模で商用利用可能、継続的に更新される中国のオープンソース指導データセットである COIG が、世界 40 以上の機関から 100 人以上のエンジニアの参加を得てオープンし、国境を越えて緊密に協力するグローバルなデータ オープンソースの感動的なストーリーを生み出しました。

数十万回のダウンロードを誇る、最も人気のあるBGEモデルが更新されました

BGEセマンティックベクトルモデルは、リリース以来、大規模なモデル開発者コミュニティから多くの注目を集めています。現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

中国語意味埋め込みモデル評価 (C-MTEB)

英語セマンティックベクトルモデル評価リスト (MTEB)

Langchain 公式ツイート:「BGE モデルが MTEB ベンチマークで 1 位にランクイン」

LangChainの共同創設者兼CEO、ハリソン・チェイスの推薦

コミュニティからのフィードバックに基づいて、BGE はさらに最適化および更新され、より堅牢かつ優れたパフォーマンスを発揮するようになりました。具体的なアップグレード内容は以下のとおりです。

- モデルの更新:

BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中に温度係数を 0.02 に増やすことで類似度分布の問題を軽減し、類似度の値をより安定させます。

- 新しいモデル:

オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。

- 新機能:

BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

レポートアドレス: https://arxiv.org/abs/2309.07597

ビッグモデルの時代にLinuxのようなエコシステムを構築する

2022年末のChatGPTの登場により、世界的な大規模モデルの研究開発は爆発的な成長期に入りました。同時に、激しい競争と高コストもオープンソースの台頭を促し、人工知能の発展の重要な原動力となっています。

画期的な出来事は、今年5月に世界の人工知能界で広く流布された「オープンソースAIはGoogleとOpenAIに勝つ」と主張するGoogleの内部文書でした。Metaの代表的なオープンソースモデルであるLlamaは、業界の現在の発展において重要な役割を果たしています。

中国のビッグモデルオープンソースエコシステムの代表組織として、ZhiyuanはFlagOpen Feizhiビッグモデルテクノロジーオープンソースシステムの構築に尽力しており、ビッグモデルの共同構築と共有の時代に「Linuxのような」オープンソースエコシステムをリードしています。

2022年11月に立ち上げられ、2023年2月に正式リリースされたFlagOpenビッグモデルテクノロジーオープンソースシステムは、ビッグモデルのオープンソース構築の全体的な傾向を先見的に予見しています。

現在、オープンソースモデル技術開発システムであるFlagOpenは、埋め込み技術とモデルに重点を置いたFlagEmbeddingセクションを追加しました。BGEはその中の最初のオープンソースモデルです。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE プロジェクトに加えて、FlagOpen には、大規模モデル アルゴリズム、モデル、データ、ツール、評価などの重要なコンポーネントもあります。

そのうち、FlagEval(Libra)大規模モデル評価システムおよびオープンプラットフォームは、3次元評価システムを構築し、600以上の総合的な能力評価をカバーしています。科学的、公正かつオープンな評価ベンチマーク、方法、ツールセットを確立し、研究者が基本モデルやトレーニングアルゴリズムのパフォーマンスを総合的に評価するのを支援することを目指しています。

毎月発表されるFlagEval大規模モデル評価リストは、主流モデルを多面的に評価・解釈し、公正かつ包括的なゴールドスタンダードを作成し、大規模モデルの能力評価の風向計としてますます重要になっています。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...

...

...

...

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...

...

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

中国の博士がCNN全体を視覚化し、各畳み込みとプーリングが明確になった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

MetaMindによるNLP研究の徹底分析:機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...

PyCaret: 機械学習モデルの開発が簡単に

今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...

知らないうちにAIを構築しているかもしれない

[[189866]]私たちは皆、検証コードに精通しています。reCAPTCHA は、人間と機械を区別...

平均年収35万元、2018年のビッグデータAIの発展動向分析

近年、ビッグデータは非常に人気があり、特に2017年には、ビッグデータ産業の発展が政府活動報告に記載...

人工ニューラルネットワーク分類器に基づくドメイン適応(DA)技術

DA テクノロジーは、まず自己組織化特徴マッピングに基づくクラスタリング テクノロジーを適用します。...