OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

1週間前、OpenAIはユーザーに特典を配布しました。GPT-4が怠惰になる問題を修正した後、より小型で効率的なtext-embedding-3-small埋め込みモデルを含む5つの新しいモデルもリリースしました。

埋め込みは、自然言語やコードなどのコンテンツ内の概念を表す数字のシーケンスであることがわかっています。埋め込みにより、機械学習モデルやその他のアルゴリズムがコンテンツ間のつながりを理解し、クラスタリングや検索などのタスクを実行しやすくなります。 NLP の分野では埋め込みが非常に重要であることがわかります。

ただし、OpenAI の埋め込みモデルは誰でも無料で使用できるわけではありません。たとえば、text-embedding-3-small の価格は 1,000 トークンあたり 0.00002 ドルです。

現在、text-embedding-3-small よりも優れた埋め込みモデルがあり、それらは無料です。

AI スタートアップ企業 Nomic AI は、Nomic Embed のリリースを発表しました。これは、オープンソース、オープンデータ、オープンウェイト、オープントレーニングコード、完全に再現可能で監査可能な埋め込みモデルであり、コンテキスト長は 8192 で、短いコンテキストと長いコンテキストの両方のベンチマークで OpenAI text-embedding-3-small および text-embedding-ada-002 を上回りました。

テキスト埋め込みは、LLM およびセマンティック検索のための検索拡張生成 (RAG) を提供する、最新の NLP アプリケーションの不可欠な部分です。この技術は、文章または文書に関する意味情報を低次元ベクトルにエンコードし、データの視覚化、分類、情報検索のためのクラスタリングなどの下流アプリケーションで使用できるようにします。現在、最も人気のある長いコンテキストのテキスト埋め込みモデルは、コンテキスト長 8192 をサポートする OpenAI の text-embedding-ada-002 です。残念ながら、Ada はクローズドソースであり、トレーニングデータは監査できません。

さらに、最高のパフォーマンスを誇るオープンソースの長コンテキストテキスト埋め込みモデル (E5-Mistral や jina-embeddings-v2-base-en など) は、モデルのサイズが大きいため汎用には適していないか、OpenAI の同等のモデルよりもパフォーマンスが劣っています。

Nomic-embed のリリースにより、これが変わります。このモデルには 1 億 3,700 万個のパラメータしかなく、導入が非常に簡単で、5 日間でトレーニングできます。

論文アドレス: https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf

論文タイトル: Nomic Embed: 再現可能なロングコンテキストテキスト埋め込みのトレーニング

プロジェクトアドレス: https://github.com/nomic-ai/contrastors

nomic-embedの構築方法

既存のテキストエンコーダーの主な欠点の 1 つは、シーケンスの長さが 512 トークンに制限されていることです。より長いシーケンスのモデルをトレーニングするには、まず BERT を調整して長いシーケンス長に適応できるようにします。この研究のターゲットシーケンス長は 8192 です。

コンテキスト長 2048 で BERT をトレーニングする

この研究では、nomic-embed をトレーニングするために、多段階の対照学習パイプラインに従います。まず、この研究では BERT を初期化しました。bert-base は最大 512 トークンのコンテキスト長しか処理できないため、この研究では 2048 トークンのコンテキスト長で独自の BERT (nomic-bert-2048) をトレーニングすることにしました。

研究チームは、MosaicBERT に触発されて、BERT のトレーニングプロセスに次のような変更を加えました。

回転位置埋め込みを使用してコンテキストの長さの外挿を可能にします。
モデルのパフォーマンスを向上させることが示されているため、SwiGLU アクティベーションを使用します。
ドロップアウトを0に設定します。

次のトレーニング最適化が実行されました。

Deepspeed と FlashAttention を使用したトレーニング。
BF16 の精度でトレーニング済み。
語彙のサイズを 64 の倍数に増やします。
トレーニングのバッチサイズは 4096 です。
マスク言語モデリング中、マスキング率は 15% ではなく 30% になります。
次の文の予測目標は使用されません。

トレーニング中、この研究ではすべてのステージを最大シーケンス長 2048 でトレーニングし、推論中に動的 NTK 補間を使用してシーケンス長を 8192 に拡張しました。

実験

この研究では、標準の GLUE ベンチマークで nomic-bert-2048 の品質を評価し、他の BERT モデルと同等のパフォーマンスを発揮する一方で、コンテキストの長さが大幅に長いという利点があることがわかりました。

nomic-embedの比較トレーニング

この研究では、nomic-bert-2048 を使用して nomic-embed のトレーニングを初期化しました。比較データセットは約 2 億 3,500 万のテキストペアで構成されており、その品質は収集プロセス中に Nomic Atlas を使用して徹底的に検証されました。

MTEB ベンチマークでは、nomic-embed は text-embedding-ada-002 および jina-embeddings-v2-base-en よりも優れています。

ただし、MTEB では長いコンテキストのタスクを評価することはできません。したがって、この研究では、最近リリースされた LoCo ベンチマークと Jina Long Context ベンチマークで nomic-embed を評価します。

LoCo ベンチマークについては、この研究では、パラメータカテゴリ別、および評価が教師あり設定と教師なし設定のどちらで実行されるかによって個別に評価します。

下の表に示すように、Nomic Embed は 1 億パラメータの教師なしモデルの中で最もパフォーマンスに優れています。特に、Nomic Embed は、7B パラメータクラスで最高のパフォーマンスを発揮するモデルや、LoCo ベンチマーク専用の教師あり設定でトレーニングされたモデルに匹敵します。

Jina Long Context ベンチマークでは、Nomic Embed は jina-embeddings-v2-base-en よりも全体的に優れていますが、このベンチマークでは Nomic Embed は OpenAI ada-002 や text-embedding-3-small よりも優れていません。

全体的に、Nomic Embed は 2/3 のベンチマークで OpenAI Ada-002 および text-embedding-3-small を上回りました。

調査によると、Nomic Embed を使用するための最良の選択肢は Nomic Embedding API であり、API を取得する方法は次のとおりです。

最後に、データアクセス: 完全なデータにアクセスするために、調査ではユーザーに Cloudflare R2 (AWS S3 に似たオブジェクトストレージサービス) アクセスキーを提供しました。アクセスするには、ユーザーはまず Nomic Atlas アカウントを作成し、contrastors リポジトリの指示に従う必要があります。

Contrastors アドレス: https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access

<<: 「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

>>: グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

nomic-embedの構築方法

実験

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

画像やテキストが無限の3D世界を生み出します！スタンフォード大学の呉嘉軍氏のチームの新しい研究は、ネットユーザーから「信じられない」と評された。

カリフォルニア大学バークレー校の教授が驚くべき予測を発表: 2030年までにGPTは180万年分の人間の作業を実行し、2,500年分の知識を1日で学習できるようになる

自然特集：バイオニック群ロボットの登場、工学上の大きな進歩

人工知能技術が農業に革命を起こす

グラフィカル分散コンセンサスアルゴリズム

OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?

人工知能と5Gの完璧な組み合わせは人類に全く新しい体験をもたらすかもしれない

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

推薦する

AIはたった1語で手書きを真似できる、ディープフェイクテキスト版が登場、ネットユーザー「すごくリアル」

AIデータストレージデバイスを選択するための6つの重要な要素

警戒するのは困難：真剣な AI 研究がいかにしてコンピューター生成ポルノに変わったのか?

各行列乗算には1光子未満が使用され、手書き数字認識の精度は90％を超え、光ニューラルネットワークの効率は数桁向上します。

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

人工知能が人々を失業させるのは悪いことではありません。それどころか、それは良い役割を果たします。

ロボットが家事の仕事を代行：人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

IoTと機械学習がビジネスを加速させる5つの方法

Facebook エンジニアがまとめた 14 種類のアルゴリズム面接モード

2022年にエネルギー・公益事業分野で注目すべき4つの技術トレンド