生成型 AI が従来のデータベースを破壊する 10 の方法

ピーター・ウェイナー

ノアが編集

生成 AI の華やかさにもかかわらず、この新しい時代における最大の変化はソフトウェアスタックの奥深くに埋もれている可能性があります。 AI アルゴリズムはデータベースを次々と微妙に変更しています。彼らは、洗練され、適応性があり、一見より直感的な新しい AI 機能によって、従来のデータベースを破壊しています。

一方、データベースメーカーは、AI モデルとの連携を向上させるために情報の保存方法を変更しています。ここでは、人工知能が普及するにつれてデータベースが適応し、改善される 10 の方法を紹介します。

1. ベクトルと埋め込み

AI 開発者は、情報を長い数値ベクトルとして保存することを好みます。以前は、データベースはこれらの値を行として保存し、各数値を別々の列に保存していました。一部のデータベースでは純粋なベクトルがサポートされているため、情報を行と列に分割する必要はありません。代わりに、データベースはそれらを一緒に保存します。保存に使用されるベクトルの中には、数百または数千の数値が含まれるものもあります。

このようなベクトルは、複雑なデータを単一の数値リストに変換するパターンである埋め込みとペアになることがよくあります。埋め込みの設計は依然として芸術であり、多くの場合、基礎となるドメインの知識に依存します。適切に組み込まれたデータベースは、高速アクセスと複雑なクエリを提供できます。

Pinecone、Vespa、Milvus、Margo、Weaviate などの一部の企業は、キャリアを保存するための新しいデータベースを構築しています。 PostgreSQL などのデータベースは、現在のツールにベクトルを追加しています。

2. クエリモデル

データベースにベクトルを追加すると、利便性が向上するだけではありません。新しいクエリ機能では、完全一致以上のものを検索できます。「最も近い」値を見つけることができるため、推奨エンジンや異常検出などのシステムを実装するのに役立ちます。データをベクトル空間に埋め込むと、幾何学的距離のみへのマッチングと関連付けを伴う厄介な問題が簡素化されます。

Pinecone、Vespa、Milvus、Margo、Weaviate などのベクターデータベースは、ベクタークエリを提供します。 Lucene や Solr などの予想外のツールも類似性マッチングを提供し、構造化されていないテキストの大きなブロックで同様の結果を提供できます。

3. 提案

新しいベクターベースのクエリシステムは、私たちが慣れ親しんだ時代よりもさらに魔法のように感じられます。古いクエリでは一致するものが見つかりましたが、これらの新しい AI データベースは、ユーザーの心を読んでいるように感じられることがあります。類似性検索を使用して、「近い」、多くの場合はユーザーが望むものとほぼ一致するデータ項目を見つけます。その背後にある数学は、n 次元空間で距離を見つけるのと同じくらい単純かもしれませんが、どういうわけか、予期しない結果をもたらすほど強力です。これらのアルゴリズムは長い間、完全なアプリケーションとして独立して実行されてきましたが、徐々にデータベースに組み込まれ、より優れた複雑なクエリをサポートできるようになりました。

Oracle は、この市場をターゲットとするデータベースの一例にすぎません。 Oracle は長年にわたり、さまざまなあいまい一致および類似性検索機能を提供してきました。現在では、オンライン小売などの業界向けにカスタマイズされたツールを直接提供しています。

4. インデックスの例

以前は、データベースは特定の列による高速検索を可能にする単純なインデックスを構築していました。データベース管理者は、適切なインデックスを使用してより高速に実行される結合句とフィルター句を含むクエリを作成するのが得意です。現在、ベクターデータベースは、ベクター内のすべての値を効率的に網羅するインデックスを作成するように設計されています。私たちは、互いに「近い」ベクトルを見つけるすべての応用を理解し始めたばかりです。

しかし、これはほんの始まりに過ぎません。 AI がデータベースでトレーニングされると、データベース内のすべての情報が効果的に吸収されます。今では、簡単な言語で AI にクエリを送信でき、AI は複雑かつ適応的な方法で検索します。

5. データ分類

人工知能は、単にデータベースに新しい構造を追加するだけではありません。データ自体に新しい構造が追加されることもあります。注釈のない画像や、誰かがずっと前に書いた大きなテキストブロックなど、一部のデータは混乱した状態で届く場合があります。 AI アルゴリズムは、混乱を整理し、ノイズを除去し、混沌としたデータセットに秩序を与え始めます。フォームは自動的に入力されます。テキストブロックの感情的な調子を分類したり、写真に写っている顔の態度を推測したりすることができます。画像から細かい詳細を抽出し、アルゴリズムでパターンの検出を学習することができます。彼らはデータを分類し、重要な詳細を抽出し、情報の定期的で明確に説明された表形式のビューを作成しています。

Amazon Web Services は、SageMaker などの AI ツールと Aurora などのデータベースを接続するさまざまなデータクラスタリングサービスを提供しています。

6. パフォーマンスの向上

優れたデータベースは、データ保存の多くの詳細を処理します。これまで、プログラマーは、データベースを効率的に実行するために、データベースで使用されるさまざまなパラメーターとモードについて時間をかけて考える必要がありました。これらのタスクを処理するために、データベース管理者の役割が確立されました。

これらの高レベルのメタタスクは現在、クエリパターンとデータ構造を理解するために機械学習アルゴリズムを使用することで自動化されています。サーバー上のトラフィックを監視し、需要に対応するためのプランを作成できます。リアルタイムで適応し、ユーザーのニーズを予測することを学習できます。

Oracle は最も優れた例の 1 つを提供します。かつて、企業はデータベースを管理するデータベース管理者に高額の給与を支払っていました。現在、Oracle は、パフォーマンスを即座に調整できる高度な人工知能アルゴリズムを搭載しているため、自社のデータベースを自律型データベースと呼んでいます。

7. より明確なデータ

適切なデータベースを実行するには、ソフトウェアを実行し続けるだけでなく、データが可能な限りクリーンで不具合のない状態を保つことも必要です。 AI は、異常を検索し、フラグを立て、場合によっては修正を提案することで、この作業負荷を簡素化します。顧客の名前のスペルミスを見つけ、残りのデータを検索して正しいスペルを見つけることもできます。また、受信データの形式を学習し、データを取り込んで、すべての名前、日付、その他の詳細が可能な限り一貫して表示される単一の統合コーパスを作成することもできます。

Microsoft の SQL Server は、データ品質サービスと緊密に統合され、フィールドの欠落や日付の重複などの問題があるデータをクリーンアップするデータベースの例です。

8. 不正行為の検出

より安全なデータストレージを作成することは、機械学習の特定の応用です。データフィード内の異常は不正行為の良い指標となる可能性があるため、機械学習アルゴリズムを使用して異常を探す人もいます。初めて深夜に ATM に行った人はいますか?この人はこの大陸でクレジットカードを使ったことがありますか?人工知能アルゴリズムは危険な活動を嗅ぎ分け、データベースを不正検出システムに変えることができます。

たとえば、Google の Web サービスでは、不正検出をデータストレージスタックに統合するためのオプションがいくつか提供されています。

9. セキュリティ強化

一部の組織では、これらのアルゴリズムを社内で適用しています。 AI は使用パターンに合わせてデータベースを最適化しようとしているだけでなく、侵入の兆候となる可能性のある異常なケースも探しています。リモートユーザーがテーブル全体の完全なコピーを要求することは、毎日あるわけではありません。優れた AI は何か怪しいものを嗅ぎ分けることができます。

IBM の Guardium Security は、データストレージ層と統合してアクセスを制御し、異常を監視するツールの例です。

10. データベースと生成AIの統合

かつては、AIとデータベースは別々でした。モデルをトレーニングするときは、データがデータベースから抽出され、再フォーマットされてから AI に送られます。新しいシステムは既存のデータから直接モデルをトレーニングします。これにより、データの移動だけで数日または数週間かかる大規模なジョブの時間と労力を節約できます。また、AI モデルのトレーニングをコマンドの発行と同じくらい簡単にすることで、DevOps チームの作業も簡素化されます。

データベースを完全に置き換えるという話さえあります。クエリをリレーショナルデータベースに送信する代わりに、クエリを AI に直接送信し、AI が魔法のようにあらゆる形式でクエリに回答します。 Google は Bard を提供し、Microsoft は ChatGPT を推進しています。どちらも検索エンジンに代わる有力な候補です。従来のデータベースを置き換えることができない理由はありません。

このアプローチには欠点があります。場合によっては、AI が幻覚を起こして完全に間違った答えを出すこともあります。場合によっては、出力の形式を気まぐれに変更することもあります。

ただし、ドメインが十分に限定され、トレーニングセットが深く完全である場合、AI は満足のいく結果を提供できます。また、テーブル構造を定義したり、テーブル内のデータを検索するためのクエリをユーザーに強制的に記述させたりする必要もありません。生成 AI を使用してデータを保存および検索すると、ユーザーと作成者にとってより柔軟になります。

オリジナルリンク: https://www.infoworld.com/article/3703211/10-ways-generative-ai-upends-the-traditional-database.html

<<: AIがデータ侵害やデータ損失の防止にどのように役立つか

>>: ビッグモデルがAlibaba Cloudを救った！