OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

1週間前、OpenAIはユーザーに特典を配布しました。GPT-4が怠惰になる問題を修正した後、より小型で効率的なtext-embedding-3-small埋め込みモデルを含む5つの新しいモデルもリリースしました。

埋め込みは、自然言語やコードなどのコンテンツ内の概念を表す数字のシーケンスであることがわかっています。埋め込みにより、機械学習モデルやその他のアルゴリズムがコンテンツ間のつながりを理解し、クラスタリングや検索などのタスクを実行しやすくなります。 NLP の分野では埋め込みが非常に重要であることがわかります。

ただし、OpenAI の埋め込みモデルは誰でも無料で使用できるわけではありません。たとえば、text-embedding-3-small の価格は 1,000 トークンあたり 0.00002 ドルです。

現在、text-embedding-3-small よりも優れた埋め込みモデルがあり、それらは無料です。

AI スタートアップ企業 Nomic AI は、Nomic Embed のリリースを発表しました。これは、オープン ソース、オープン データ、オープン ウェイト、オープン トレーニング コード、完全に再現可能で監査可能な埋め込みモデルであり、コンテキスト長は 8192 で、短いコンテキストと長いコンテキストの両方のベンチマークで OpenAI text-embedding-3-small および text-embedding-ada-002 を上回りました。


テキスト埋め込みは、LLM およびセマンティック検索のための検索拡張生成 (RAG) を提供する、最新の NLP アプリケーションの不可欠な部分です。この技術は、文章または文書に関する意味情報を低次元ベクトルにエンコードし、データの視覚化、分類、情報検索のためのクラスタリングなどの下流アプリケーションで使用できるようにします。現在、最も人気のある長いコンテキストのテキスト埋め込みモデルは、コンテキスト長 8192 をサポートする OpenAI の text-embedding-ada-002 です。残念ながら、Ada はクローズドソースであり、トレーニング データは監査できません。

さらに、最高のパフォーマンスを誇るオープンソースの長コンテキストテキスト埋め込みモデル (E5-Mistral や jina-embeddings-v2-base-en など) は、モデルのサイズが大きいため汎用には適していないか、OpenAI の同等のモデルよりもパフォーマンスが劣っています。

Nomic-embed のリリースにより、これが変わります。このモデルには 1 億 3,700 万個のパラメータしかなく、導入が非常に簡単で、5 日間でトレーニングできます。


論文アドレス: https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf

論文タイトル: Nomic Embed: 再現可能なロングコンテキストテキスト埋め込みのトレーニング

プロジェクトアドレス: https://github.com/nomic-ai/contrastors

nomic-embedの構築方法

既存のテキスト エンコーダーの主な欠点の 1 つは、シーケンスの長さが 512 トークンに制限されていることです。より長いシーケンスのモデルをトレーニングするには、まず BERT を調整して長いシーケンス長に適応できるようにします。この研究のターゲット シーケンス長は 8192 です。

コンテキスト長 2048 で BERT をトレーニングする

この研究では、nomic-embed をトレーニングするために、多段階の対照学習パイプラインに従います。まず、この研究では BERT を初期化しました。bert-base は最大 512 トークンのコンテキスト長しか処理できないため、この研究では 2048 トークンのコンテキスト長で独自の BERT (nomic-bert-2048) をトレーニングすることにしました。

研究チームは、MosaicBERT に触発されて、BERT のトレーニング プロセスに次のような変更を加えました。

  • 回転位置埋め込みを使用してコンテキストの長さの外挿を可能にします。
  • モデルのパフォーマンスを向上させることが示されているため、SwiGLU アクティベーションを使用します。
  • ドロップアウトを0に設定します。

次のトレーニング最適化が実行されました。

  • Deepspeed と FlashAttention を使用したトレーニング。
  • BF16 の精度でトレーニング済み。
  • 語彙のサイズを 64 の倍数に増やします。
  • トレーニングのバッチサイズは 4096 です。
  • マスク言語モデリング中、マスキング率は 15% ではなく 30% になります。
  • 次の文の予測目標は使用されません。

トレーニング中、この研究ではすべてのステージを最大シーケンス長 2048 でトレーニングし、推論中に動的 NTK 補間を使用してシーケンス長を 8192 に拡張しました。

実験

この研究では、標準の GLUE ベンチマークで nomic-bert-2048 の品質を評価し、他の BERT モデルと同等のパフォーマンスを発揮する一方で、コンテキストの長さが大幅に長いという利点があることがわかりました。

nomic-embedの比較トレーニング

この研究では、nomic-bert-2048 を使用して nomic-embed のトレーニングを初期化しました。比較データセットは約 2 億 3,500 万のテキスト ペアで構成されており、その品質は収集プロセス中に Nomic Atlas を使用して徹底的に検証されました。

MTEB ベンチマークでは、nomic-embed は text-embedding-ada-002 および jina-embeddings-v2-base-en よりも優れています。

ただし、MTEB では長いコンテキストのタスクを評価することはできません。したがって、この研究では、最近リリースされた LoCo ベンチマークと Jina Long Context ベンチマークで nomic-embed を評価します。

LoCo ベンチマークについては、この研究では、パラメータ カテゴリ別、および評価が教師あり設定と教師なし設定のどちらで実行されるかによって個別に評価します。

下の表に示すように、Nomic Embed は 1 億パラメータの教師なしモデルの中で最もパフォーマンスに優れています。特に、Nomic Embed は、7B パラメータ クラスで最高のパフォーマンスを発揮するモデルや、LoCo ベンチマーク専用の教師あり設定でトレーニングされたモデルに匹敵します。

Jina Long Context ベンチマークでは、Nomic Embed は jina-embeddings-v2-base-en よりも全体的に優れていますが、このベンチマークでは Nomic Embed は OpenAI ada-002 や text-embedding-3-small よりも優れていません。

全体的に、Nomic Embed は 2/3 のベンチマークで OpenAI Ada-002 および text-embedding-3-small を上回りました。

調査によると、Nomic Embed を使用するための最良の選択肢は Nomic Embedding API であり、API を取得する方法は次のとおりです。


最後に、データ アクセス: 完全なデータにアクセスするために、調査ではユーザーに Cloudflare R2 (AWS S3 に似たオブジェクト ストレージ サービス) アクセス キーを提供しました。アクセスするには、ユーザーはまず Nomic Atlas アカウントを作成し、contrastors リポジトリの指示に従う必要があります。

Contrastors アドレス: https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access

<<:  「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

>>:  グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

ブログ    
ブログ    

推薦する

...

AIが再生可能エネルギーグリッドの回復力の鍵となる理由

[[393199]]画像提供:ロイター/セルジオ・ペレスエマニュエル・ラガリグシュナイダーエレクトリ...

AI時代の企業の変革とイノベーション

人工知能は、私たちの生活、仕事、学習に影響を与えるだけでなく、企業の運営、戦略、組織にも影響を与える...

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

[[254426]]機械学習の分野における知識とツールの主な特徴は、無料かつオープンであることです...

...

データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文

1. はじめに - AI トレーニング データに透かしを追加する理由ディープ ニューラル ネットワー...

データセンター不足がAIの未来を阻害している理由

多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...

2021年の中国の医療人工知能産業の展望

医療用人工知能製品は多様化しており、下流の需要は強い医療人工知能産業の上流は、主に医療データマイニン...

RC4 攻撃: RC4 暗号化アルゴリズムは SSL/TLS を保護できますか?

RC4 暗号化アルゴリズムで最近発見された問題について説明していただけますか? HTTPS 接続の...

ベクトルデータベースが生成AIを強化する方法

ベクトル データベースは、LLM と外部情報の間のブリッジとして機能し、生成 AI システムの基本機...

人工知能の知能を実現する方法

[[257748]]近年、ビジネスにおける人工知能 (AI) の重要性が急速に高まり、今では主要なテ...

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...

Facebookは人工知能を使ってコンテンツレビューの優先順位を決める

海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...

...

持続可能なAI: イノベーションと環境責任のバランス

人工知能 (AI) は研究と産業の両方で驚異的な成長を遂げ、科学、医学、金融、教育など多岐にわたる分...