組み込みおよびベクターデータベースの実践ガイド

翻訳者 |ブガッティ

レビュー | Chonglou

この革命の中心にあるのは、ベクターデータベースの概念であり、複雑なデータの処理方法を一変させる画期的な技術です。従来のリレーショナルデータベースとは異なり、このデータベースは、多くの AI および機械学習アプリケーションに固有の高次元ベクトルデータを管理および処理する独自の機能を備えています。高度なAIの時代が進むにつれて、ベクトルデータベースは重要なツールとして浮上し、生成AIモデルによって生成される大規模で複雑なデータセットの処理において比類のない効率と精度を提供します。

この記事では、生成AIの世界におけるベクトルライブラリの重要な役割を探り、その機能、仕組み、使用例、実践的なチュートリアルに焦点を当てます。

ベクターデータベースの定義

ベクターデータベースは、通常ベクターと呼ばれる多次元データポイントを保存、インデックス付け、および取得するために使用されるデータベースです。テーブルに整理されたデータ(数値や文字列など)を処理するデータベースとは異なり、ベクターデータベースは、多次元ベクター空間で表現されたデータを管理するために特別に設計されています。そのため、データが画像埋め込み、テキスト埋め込み、その他の種類の特徴ベクトルなどのベクトル形式であることが多いAIおよび機械学習アプリケーションに適しています。

これらのデータベースは、類似性検索にインデックス作成と検索アルゴリズムを利用して、データセット内で最も類似したベクトルを迅速に識別できるようにします。この機能は、高次元データを効果的に理解して処理することが重要な役割を果たす、推奨システム、画像および音声認識、自然言語処理などのタスクにとって非常に重要です。したがって、ベクターデータベースは、大量のデータに大きく依存するAIアプリケーションのニーズを満たすことができるデータベーステクノロジの進歩を表しています。

ベクトル埋め込み

ベクターデータベースについて話すとき、ベクター埋め込みとは何か、つまり、データが最終的にベクターデータベースにどのように保存されるかを知ることが重要です。ベクトル埋め込みは、音楽ストリーミングアプリの曲など、オブジェクトの主要な特性をカプセル化するデジタルコードとして機能します。テンポやジャンルなどの主要な特徴を分析・抽出し、埋め込みモデルを通じて各曲をベクトル埋め込みに変換します。

このプロセスにより、類似の属性を持つ曲には類似のベクトルコードが確実に割り当てられます。ベクトルデータベースはこれらの埋め込みを保存し、クエリ時にこれらのベクトルを比較して、最も一致する特徴を持つ曲を見つけて推奨し、ユーザーに効率的で関連性の高い検索エクスペリエンスを提供します。

ベクターデータベースの仕組み

ユーザークエリを実行する際には、画像、ドキュメント、ビデオ、オーディオなど、さまざまな種類の生データが関係します。このデータはすべて非構造化データまたは構造化データであり、最初に埋め込みモデルによって処理されます。モデルは通常、データを高次元の数値ベクトルに変換し、データの特徴をベクトル埋め込みに効率的にエンコードして、 SingleStoreDBなどのベクトルデータベースに保存する複雑なニューラルネットワークです。

検索が必要な場合、ベクターデータベースは、クエリに最も類似するベクターを検索して取得するための操作 (類似性検索など)を実行し、複雑なクエリを効率的に処理して、ユーザーに関連性の高い結果を提供します。このプロセス全体は、高速な検索および取得機能を必要とするアプリケーションで、さまざまな種類の大量のデータを迅速かつ正確に管理することをサポートします。

ベクターデータベースは従来のデータベースとどう違うのでしょうか?

ベクターデータベースと従来のデータベースの違いを見てみましょう。

ベクターデータベースは、データの構成と検索方法の点で従来のデータベースとは大きく異なります。従来のデータベースは、数値や文字列などの個別のスカラーデータ型を処理し、行と列に整理するように構造化されています。

この構造はトランザクションデータには理想的ですが、 AIや機械学習でよく使用される複雑で高次元のデータには非効率的です。対照的に、ベクターデータベースは、多次元空間内の点を表す数値の配列であるベクターデータを保存および管理するように設計されています。

そのため、高次元空間で最も近いデータポイントを見つけることを目的とする類似性検索を含むタスクに自然に適しています。これは、画像認識や音声認識、レコメンデーションシステム、自然言語処理などのAIアプリケーションに共通する要件です。ベクトルデータベースは、高次元ベクトル空間に最適化されたインデックス作成および検索アルゴリズムを活用することで、高度な AI と機械学習の時代にますます普及している種類のデータをより効率的かつ効果的に処理する方法を提供します。

ベクターデータベースの使用例

ベクターデータベースは、エンタープライズ推奨システムにおいて重要な役割を果たします。たとえば、ユーザーの閲覧や購入行動に基づいて製品を推奨することができます。これらは、不正行為検出システムでも効果を発揮し、トランザクションの埋め込みを不正行為の既知のプロファイルと比較することで異常なパターンを検出し、リアルタイムの不正検出を可能にします。顔認識は、ベクターデータベースに顔の特徴の埋め込みを保存して安全な監視を実現するもう 1 つのユースケースです。

同様の問い合わせに対して、事前に決められた応答や異なる応答を返すことで、組織の顧客サポートにも役立ちます。市場調査は、Vector Database が優れているもう 1 つの分野です。顧客からのフィードバックやソーシャルメディアの投稿を分析し、それらをテキスト埋め込みに変換して感情を分析し、傾向を把握することで、より強力なビジネス分析情報を得ることができます。

ベクターデータベースとしてのSingleStoreDB

SingleStoreDB の強力なベクターデータベース機能により、 AI駆動型アプリケーション、チャットボット、画像認識システムなどをスムーズに提供できます。 SingleStoreDBを使用すると、ベクトル集約型ワークロード専用のベクトルデータベースを維持する必要がなくなります。

従来のベクターデータベースアプローチとは異なり、 SingleStoreDB は、ベクターデータをさまざまな種類のデータタイプとともにリレーショナルテーブルに配置するという新しいアプローチを採用しています。この革新的な統合により、 SQLの広範なクエリ機能を活用しながら、ベクターデータに関連付けられた包括的なメタデータと追加のプロパティに簡単にアクセスできるようになります。

SingleStoreDBは、急速に増大するデータニーズを常にサポートできるように、拡張可能なフレームワークを使用して慎重に構築されています。制限に別れを告げ、データのニーズに合わせて進化するソリューションを導入しましょう。

SingleStoreDBを使用したベクターデータベースチュートリアル

前提条件

SnapStoreDB Cloudの無料トライアルにサインアップしてください。ベクターデータベースとしてSingleStoreを使用します。
埋め込みPostmanアカウントを作成します。
OpenAI APIキーを取得するためのOpenAIアカウント。

OpenAIアカウントにログインしたら、ここに示すようにAPIタブに移動します。

次に、「埋め込み」タブに移動します。

まず、 APIリクエストを埋め込みます。これを行うには、 API リファレンスページに移動する必要があります。埋め込みを作成する方法については、 API リファレンスページの[埋め込み]タブを参照してください。

それでは、埋め込み用の API リクエストを作成しましょう。このためには、Postman のようなツールが必要です。 Postman アカウントにサインアップしてワークスペースを作成できます。

次に、API URL「https://api.openai.com/v1/embeddings」を取得し、それをPostman URLセクションに貼り付けて、 OpenAI APIキーで認証します。

最初の埋め込みを作成しましょう。必要なのは、OpenAI のドキュメントページに示されているモデルと入力パラメータだけです。

このモデルでは、「 text-embedding-ada-002 」と任意のテキストを入力として使用します。

そうしたほうがいいかもしれません。 Postman ダッシュボードに移動し、「 body 」リクエストを作成します。「Body」の下で、 rawを選択し、 JSONを選択してJSONオブジェクトを渡します。

モデルと入力を記載します。

OpenAI に投稿リクエストを送信します。次のような応答が表示されます。

表示される数字は埋め込まれたベクトルです。これらのベクトル埋め込みを保存するには、堅牢なデータベースが必要です。ここで SingleStoreDB が活躍します。無料の SingleStoreDB Cloud アカウントを作成します。

次に、以下に示すようにワークスペースを作成します。

作成されたワークスペースとサンプル/デフォルトのデータベースがアタッチされていることがわかります。

データベースを作成しましょう。

新しく作成されたデータベースはダッシュボードに表示されます。

データベースにアクセスしてその内容を表示できます。この場合、まだデータが提供されていないため、何も表示されません。

データベースにいくつかのテーブルを作成しましょう。図のように「 SQLエディタ」に入ります。いくつかの簡単な SQL コマンドを実行してテーブルを作成できます。

「データベースの選択」タブでデータベースが選択されていることを確認します。先ほど作成したデータベースを選択します。

簡単な SQL クエリを記述して、テーブルとデータ型を作成します。

それでは、このデータベースにベクターデータを挿入してみましょう。ここで、Postman から受け取った埋め込みデータを入力します。 SQL エディターに戻り、次の SQL クエリを記述します。

使用する値は、 Postman からの「 Hello World 」入力を参照します。 Postman から受け取った膨大な数字のブロックを JSON_ARRAY_PACK に挿入します。

これらの番号を Postmanからコピーします。この巨大な数字のブロックを値に貼り付けて、コマンドを実行します。

結果がデータベースに入力されているのを確認できます。

このように、Postman を使用して、さまざまな入力からさまざまな埋め込みを作成し、結果のベクトル埋め込みを新しく作成されたデータベースに追加することができます。

以前と同じ方法でデータベースに保存します。独自の入力とコンテンツを追加して、ベクトルに変換します。ここでわかるように、さまざまな入力を追加し、結果のベクトル埋め込みをデータベースに保存しました。

ここで、特定の単語を検索し、データベースから関連データを取得して実験してみましょう。 Postmanダッシュボードに戻り、「 OpenAI 」という用語の埋め込みを作成しましょう。

次に、データベース内で既存の埋め込みを検索します。これにより結果が返され、最も近い類似性が上部にリストされます。 SQL エディターに移動して、以下に示すようにこのクエリを実行してみましょう。

埋め込み（巨大な数字のブロック）を JSON_ARRAY_PACK に貼り付けて、コマンドを実行します。

上記の画像では、キーワード「 OpenAI 」の類似度スコアとランキングを確認できます。同様に、任意のキーワードの類似度スコアも確認できます。このようにして、SingleStoreDB は企業にとって効果的なベクターデータベースとして使用できます。

原題:埋め込みとベクターデータベース: 実践ガイド! 、著者: Pavan Belagatti

<<: ウルトラマンの新技に開発者激怒！ ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。

>>: Microsoftの「ChatGPT Family Bucket」がAndroidで利用可能になりました。GPT-4はログインせずに無料でプレイでき、GPT-4V、Turbo、サードパーティのプラグインも組み込まれています。

2021年は新たなAIを形作る

ブログ

自動運転におけるBEVとSLAMをわかりやすく説明するにはどうすればいいでしょうか？

ブログ

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

組み込みおよびベクターデータベースの実践ガイド

ベクターデータベースの定義

ベクトル埋め込み

ベクターデータベースの仕組み

ベクターデータベースは従来のデータベースとどう違うのでしょうか?

ベクターデータベースの使用例

ベクターデータベースとしてのSingleStoreDB

SingleStoreDBを使用したベクターデータベースチュートリアル

2021年は新たなAIを形作る

自動運転におけるBEVとSLAMをわかりやすく説明するにはどうすればいいでしょうか？

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

HKU などが GraphGPT をリリース: パラメータを 1/50 に微調整し、精度を 10 倍向上! LLMは長いトークンなしでグラフ構造を理解できる

このロボットはバッテリーなしで「自走」でき、バッテリー寿命は無制限です | ワシントン大学

FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

最新レポート: 従業員の 25% が ChatGPT などの AI ツールに機密データをアップロードしている

GPT-4 の王冠は落ちていません!クロード3アリーナの人間投票結果が発表されました: 3位のみ

推薦する

自然言語処理技術はビジネス分野でどのようなアプリケーションをサポートできますか?

QQがスーパーQQショーを開始：3D HDモデルが顔認識AIフェイスピンチをサポート

2秒で2枚の画像を3D再構築！このAIツールはGitHubで人気です、ネットユーザー：Soraを忘れてください

2021年の3つの主要なAIトレンド：IoT、データ駆動型の意思決定、サイバーセキュリティ

ちょっとした会話の後に心を開いてみませんか?この世代の人工知能はあなたのプライバシーを会話の話題に変えました

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか？

将来は知能ロボットが農業を担う

アースデイ 2021: AI、ブロックチェーン、ライフスタイルの選択、IoT が地球を救う方法

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

AIを使えばITの運用と保守が簡単になる

ベクターデータベースの定義

ベクトル埋め込み

ベクターデータベースの仕組み

ベクターデータベースは従来のデータベースとどう違うのでしょうか?

ベクターデータベースの使用例

ベクターデータベースとしてのSingleStoreDB

SingleStoreDBを使用したベクター データベース チュートリアル

推薦する

SingleStoreDBを使用したベクターデータベースチュートリアル