生成型 AI が従来のデータベースを破壊する 10 の方法

生成型 AI が従来のデータベースを破壊する 10 の方法

ピーター・ウェイナー

ノアが編集

生成 AI の華やかさにもかかわらず、この新しい時代における最大の変化はソフトウェア スタックの奥深くに埋もれている可能性があります。 AI アルゴリズムはデータベースを次々と微妙に変更しています。彼らは、洗練され、適応性があり、一見より直感的な新しい AI 機能によって、従来のデータベースを破壊しています。

一方、データベースメーカーは、AI モデルとの連携を向上させるために情報の保存方法を変更しています。ここでは、人工知能が普及するにつれてデータベースが適応し、改善される 10 の方法を紹介します。

1. ベクトルと埋め込み

AI 開発者は、情報を長い数値ベクトルとして保存することを好みます。以前は、データベースはこれらの値を行として保存し、各数値を別々の列に保存していました。一部のデータベースでは純粋なベクトルがサポートされているため、情報を行と列に分割する必要はありません。代わりに、データベースはそれらを一緒に保存します。保存に使用されるベクトルの中には、数百または数千の数値が含まれるものもあります。

このようなベクトルは、複雑なデータを単一の数値リストに変換するパターンである埋め込みとペアになることがよくあります。埋め込みの設計は依然として芸術であり、多くの場合、基礎となるドメインの知識に依存します。適切に組み込まれたデータベースは、高速アクセスと複雑なクエリを提供できます。

Pinecone、Vespa、Milvus、Margo、Weaviate などの一部の企業は、キャリアを保存するための新しいデータベースを構築しています。 PostgreSQL などのデータベースは、現在のツールにベクトルを追加しています。

2. クエリモデル

データベースにベクトルを追加すると、利便性が向上するだけではありません。新しいクエリ機能では、完全一致以上のものを検索できます。 「最も近い」値を見つけることができるため、推奨エンジンや異常検出などのシステムを実装するのに役立ちます。データをベクトル空間に埋め込むと、幾何学的距離のみへのマッチングと関連付けを伴う厄介な問題が簡素化されます。

Pinecone、Vespa、Milvus、Margo、Weaviate などのベクター データベースは、ベクター クエリを提供します。 Lucene や Solr などの予想外のツールも類似性マッチングを提供し、構造化されていないテキストの大きなブロックで同様の結果を提供できます。

3. 提案

新しいベクターベースのクエリ システムは、私たちが慣れ親しんだ時代よりもさらに魔法のように感じられます。古いクエリでは一致するものが見つかりましたが、これらの新しい AI データベースは、ユーザーの心を読んでいるように感じられることがあります。類似性検索を使用して、「近い」、多くの場合はユーザーが望むものとほぼ一致するデータ項目を見つけます。その背後にある数学は、n 次元空間で距離を見つけるのと同じくらい単純かもしれませんが、どういうわけか、予期しない結果をもたらすほど強力です。これらのアルゴリズムは長い間、完全なアプリケーションとして独立して実行されてきましたが、徐々にデータベースに組み込まれ、より優れた複雑なクエリをサポートできるようになりました。

Oracle は、この市場をターゲットとするデータベースの一例にすぎません。 Oracle は長年にわたり、さまざまなあいまい一致および類似性検索機能を提供してきました。現在では、オンライン小売などの業界向けにカスタマイズされたツールを直接提供しています。

4. インデックスの例

以前は、データベースは特定の列による高速検索を可能にする単純なインデックスを構築していました。データベース管理者は、適切なインデックスを使用してより高速に実行される結合句とフィルター句を含むクエリを作成するのが得意です。現在、ベクター データベースは、ベクター内のすべての値を効率的に網羅するインデックスを作成するように設計されています。私たちは、互いに「近い」ベクトルを見つけるすべての応用を理解し始めたばかりです。

しかし、これはほんの始まりに過ぎません。 AI がデータベースでトレーニングされると、データベース内のすべての情報が効果的に吸収されます。今では、簡単な言語で AI にクエリを送信でき、AI は複雑かつ適応的な方法で検索します。

5. データ分類

人工知能は、単にデータベースに新しい構造を追加するだけではありません。データ自体に新しい構造が追加されることもあります。注釈のない画像や、誰かがずっと前に書いた大きなテキストブロックなど、一部のデータは混乱した状態で届く場合があります。 AI アルゴリズムは、混乱を整理し、ノイズを除去し、混沌としたデータ セットに秩序を与え始めます。フォームは自動的に入力されます。テキストブロックの感情的な調子を分類したり、写真に写っている顔の態度を推測したりすることができます。画像から細かい詳細を抽出し、アルゴリズムでパターンの検出を学習することができます。彼らはデータを分類し、重要な詳細を抽出し、情報の定期的で明確に説明された表形式のビューを作成しています。

Amazon Web Services は、SageMaker などの AI ツールと Aurora などのデータベースを接続するさまざまなデータ クラスタリング サービスを提供しています。

6. パフォーマンスの向上

優れたデータベースは、データ保存の多くの詳細を処理します。これまで、プログラマーは、データベースを効率的に実行するために、データベースで使用されるさまざまなパラメーターとモードについて時間をかけて考える必要がありました。これらのタスクを処理するために、データベース管理者の役割が確立されました。

これらの高レベルのメタタスクは現在、クエリ パターンとデータ構造を理解するために機械学習アルゴリズムを使用することで自動化されています。サーバー上のトラフィックを監視し、需要に対応するためのプランを作成できます。リアルタイムで適応し、ユーザーのニーズを予測することを学習できます。

Oracle は最も優れた例の 1 つを提供します。かつて、企業はデータベースを管理するデータベース管理者に高額の給与を支払っていました。現在、Oracle は、パフォーマンスを即座に調整できる高度な人工知能アルゴリズムを搭載しているため、自社のデータベースを自律型データベースと呼んでいます。

7. より明確なデータ

適切なデータベースを実行するには、ソフトウェアを実行し続けるだけでなく、データが可能な限りクリーンで不具合のない状態を保つことも必要です。 AI は、異常を検索し、フラグを立て、場合によっては修正を提案することで、この作業負荷を簡素化します。顧客の名前のスペルミスを見つけ、残りのデータを検索して正しいスペルを見つけることもできます。また、受信データの形式を学習し、データを取り込んで、すべての名前、日付、その他の詳細が可能な限り一貫して表示される単一の統合コーパスを作成することもできます。

Microsoft の SQL Server は、データ品質サービスと緊密に統合され、フィールドの欠落や日付の重複などの問題があるデータをクリーンアップするデータベースの例です。

8. 不正行為の検出

より安全なデータストレージを作成することは、機械学習の特定の応用です。データフィード内の異常は不正行為の良い指標となる可能性があるため、機械学習アルゴリズムを使用して異常を探す人もいます。初めて深夜に ATM に行った人はいますか?この人はこの大陸でクレジットカードを使ったことがありますか?人工知能アルゴリズムは危険な活動を嗅ぎ分け、データベースを不正検出システムに変えることができます。

たとえば、Google の Web サービスでは、不正検出をデータ ストレージ スタックに統合するためのオプションがいくつか提供されています。

9. セキュリティ強化

一部の組織では、これらのアルゴリズムを社内で適用しています。 AI は使用パターンに合わせてデータベースを最適化しようとしているだけでなく、侵入の兆候となる可能性のある異常なケースも探しています。リモート ユーザーがテーブル全体の完全なコピーを要求することは、毎日あるわけではありません。優れた AI は何か怪しいものを嗅ぎ分けることができます。

IBM の Guardium Security は、データ ストレージ層と統合してアクセスを制御し、異常を監視するツールの例です。

10. データベースと生成AIの統合

かつては、AIとデータベースは別々でした。モデルをトレーニングするときは、データがデータベースから抽出され、再フォーマットされてから AI に送られます。新しいシステムは既存のデータから直接モデルをトレーニングします。これにより、データの移動だけで数日または数週間かかる大規模なジョブの時間と労力を節約できます。また、AI モデルのトレーニングをコマンドの発行と同じくらい簡単にすることで、DevOps チームの作業も簡素化されます。

データベースを完全に置き換えるという話さえあります。クエリをリレーショナル データベースに送信する代わりに、クエリを AI に直接送信し、AI が魔法のようにあらゆる形式でクエリに回答します。 Google は Bard を提供し、Microsoft は ChatGPT を推進しています。どちらも検索エンジンに代わる有力な候補です。従来のデータベースを置き換えることができない理由はありません。

このアプローチには欠点があります。場合によっては、AI が幻覚を起こして完全に間違った答えを出すこともあります。場合によっては、出力の形式を気まぐれに変更することもあります。

ただし、ドメインが十分に限定され、トレーニング セットが深く完全である場合、AI は満足のいく結果を提供できます。また、テーブル構造を定義したり、テーブル内のデータを検索するためのクエリをユーザーに強制的に記述させたりする必要もありません。生成 AI を使用してデータを保存および検索すると、ユーザーと作成者にとってより柔軟になります。

オリジナルリンク: https://www.infoworld.com/article/3703211/10-ways-generative-ai-upends-the-traditional-database.html

<<:  AIがデータ侵害やデータ損失の防止にどのように役立つか

>>:  ビッグモデルがAlibaba Cloudを救った!

ブログ    

推薦する

Zhihu のホットトピック: 今後 3 ~ 5 年で、機械学習の人材が最も不足する分野はどれでしょうか?

[[328766]]今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?今日...

GACの第2世代Trumpchi GS4が発売され、WeChat車載バージョンは安全で効率的な車内通信を実現

11月15日、WeChat車載バージョンを搭載したGACの第2世代Trumpchi GS4が発売され...

人工知能とクラウドコンピューティングはアプリケーションエコシステムの形成を加速させている

現在、人工知能は生産性の向上を可能にし、さまざまな産業のインテリジェント化と新旧の運動エネルギーの変...

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...

農家は収穫を祝い、秋分の日にドローンがその技を披露するのを見てください!

黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...

...

AIの冬がまた来るのか?アメリカ人教授がarXivにAIを批判する記事を掲載し、Redditのネットユーザーから批判された

人工知能の発展の勢いは非常に強く、一般の人々や専門家は楽観的です。しかし、歴史的には、1950年代初...

人工知能が中国の医療サービスに力を与える

「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...

...

ドローンは電力網を守り、点検や障害物の除去も可能!

[[412066]]現在、全国的に気温が上昇し続けているため、私の国では電力消費のピークの新たな波...

AI導入の最大の障壁:熟練した専門家の不足

VentureBeat によると、人工知能 (AI) が革命的なメリットをもたらしたという点について...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...