大規模モデルの開発と応用が急速に発展するにつれ、大規模モデルの中核となる基本コンポーネントとしての埋め込みの重要性がますます高まっています。 1か月前にZhiyuanがリリースしたオープンソースの商用中国語および英語セマンティックベクトルモデルBGE(BAAI General Embedding)はコミュニティで大きな注目を集めており、Hugging Faceの累計ダウンロード数は数十万に達しています。現在、BGEは急速に反復してバージョン1.5をリリースし、いくつかのアップデートを発表しました。その中で、BGEは初めて3億の大規模なトレーニングデータをオープンソース化し、コミュニティが同様のモデルをトレーニングし、この分野での技術開発を促進するのに役立てています。
中国語 - 英語のベクトルモデルトレーニングデータセット3億個を公開業界初のセマンティックベクトルモデルトレーニングデータがオープンソース化され、中国語と英語のデータが3億件に達しました。 BGE の優れた機能は、主に大規模で多様なトレーニング データによるものです。これまで、業界内で同様のデータセットをリリースした企業はほとんどありませんでした。今回のアップデートで、Zhiyuan は BGE のトレーニング データを初めてコミュニティに公開し、こうしたテクノロジーのさらなる開発の基盤を築きました。 今回公開されたMTPデータセットは、合計3億件の中国語と英語の関連テキストペアで構成されており、そのうち中国語のレコードが1億件、英語のデータが2億件あります。データは、必要なサンプリング、抽出、クリーニングを行った後、Wudao Corpora、Pile、DuReader、Sentence Transformer などのコーパスから収集されます。 詳細については、データハブをご覧ください: https://data.baai.ac.cn MTP は、中国語と英語の関連テキスト ペアの現在までに最大のオープン ソース データセットであり、中国語と英語のセマンティック ベクトル モデルのトレーニングに重要な基盤を提供します。 開発者コミュニティに応えてBGE機能アップグレードコミュニティからのフィードバックに基づいて、BGE はバージョン 1.0 からさらに最適化され、パフォーマンスがより堅牢で優れたものになりました。具体的なアップグレード内容は以下のとおりです。
注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。 《C-Pack: 中国語の汎用埋め込みを促進するパッケージ化されたリソース》 リンク: https://arxiv.org/pdf/2309.07597.pdf 開発者コミュニティで高い人気を獲得BGEはリリース以来、大規模なモデル開発者コミュニティの注目を集めており、現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。 LangChainの役員、LangChainの共同設立者兼CEOのハリソン・チェイス氏、Deep Tradingの設立者ヤム・ペレグ氏、その他コミュニティの著名人がBGEに対する懸念を表明した。 オープンソースを堅持し、共同イノベーションを推進する Zhiyuan ビッグモデル技術開発システム FlagOpen BGE は、埋め込み技術とモデルに重点を置いた新しいセクション FlagEmbedding を追加しました。BGE はスター オープンソース プロジェクトの 1 つです。 FlagOpenはビッグモデル時代のAI技術インフラの構築に注力しており、今後もより充実したビッグモデルフルスタック技術を学界や産業界にオープンソース化していきます。 |
<<: オープンソース「AI史上最も重要な非公開会議」!マスク氏、ザッカーバーグ氏、その他のテクノロジー界の巨人が集まり、AIの将来について議論した
>>: 爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。
わずか5年で、人工知能は急速に発展しました。最近、GPT-3が再び白熱した議論を巻き起こしています。...
ディープラーニングはコンピュータービジョンや自然言語処理などの分野でますます大きな成果を上げており、...
感染症の影響で延期されていた2020年全国人民代表大会と中国人民政治協商会議が5月21日に開幕した。...
人工知能(AI)は、さまざまな産業の変革と複雑なタスクの簡素化において目覚ましい進歩を遂げてきました...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能は社会を変えようとしています。民間企業、学界、政府を問わず、国レベルおよび国際レベルを問わず...
今朝早く、Cerebras Systems は世界初となる人間の脳規模の AI ソリューションのリリ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[280714]]人工知能は世界に大きな影響を与えます。 2025年までに、AIソフトウェアの総...
こんにちは!皆さん、こんにちは。私は大学の科学研究者で、主に人工知能の分野で研究を行っています。今後...
デジタル経済時代の新たな生産力として、コンピューティングパワーは質の高い経済社会の発展を支える重要な...
ヴィンセントのビデオはどの程度詳細にできますか?最近、アリババの調査により、1280×720 の解像...
グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...
最近、大規模言語モデル(LLM)の継続的なリリースにより、LLMランキング競争が熱を帯びてきており、...