生成型 AI が従来のデータベースを破壊する 10 の方法

生成型 AI が従来のデータベースを破壊する 10 の方法

ピーター・ウェイナー

ノアが編集

生成 AI の華やかさにもかかわらず、この新しい時代における最大の変化はソフトウェア スタックの奥深くに埋もれている可能性があります。 AI アルゴリズムはデータベースを次々と微妙に変更しています。彼らは、洗練され、適応性があり、一見より直感的な新しい AI 機能によって、従来のデータベースを破壊しています。

一方、データベースメーカーは、AI モデルとの連携を向上させるために情報の保存方法を変更しています。ここでは、人工知能が普及するにつれてデータベースが適応し、改善される 10 の方法を紹介します。

1. ベクトルと埋め込み

AI 開発者は、情報を長い数値ベクトルとして保存することを好みます。以前は、データベースはこれらの値を行として保存し、各数値を別々の列に保存していました。一部のデータベースでは純粋なベクトルがサポートされているため、情報を行と列に分割する必要はありません。代わりに、データベースはそれらを一緒に保存します。保存に使用されるベクトルの中には、数百または数千の数値が含まれるものもあります。

このようなベクトルは、複雑なデータを単一の数値リストに変換するパターンである埋め込みとペアになることがよくあります。埋め込みの設計は依然として芸術であり、多くの場合、基礎となるドメインの知識に依存します。適切に組み込まれたデータベースは、高速アクセスと複雑なクエリを提供できます。

Pinecone、Vespa、Milvus、Margo、Weaviate などの一部の企業は、キャリアを保存するための新しいデータベースを構築しています。 PostgreSQL などのデータベースは、現在のツールにベクトルを追加しています。

2. クエリモデル

データベースにベクトルを追加すると、利便性が向上するだけではありません。新しいクエリ機能では、完全一致以上のものを検索できます。 「最も近い」値を見つけることができるため、推奨エンジンや異常検出などのシステムを実装するのに役立ちます。データをベクトル空間に埋め込むと、幾何学的距離のみへのマッチングと関連付けを伴う厄介な問題が簡素化されます。

Pinecone、Vespa、Milvus、Margo、Weaviate などのベクター データベースは、ベクター クエリを提供します。 Lucene や Solr などの予想外のツールも類似性マッチングを提供し、構造化されていないテキストの大きなブロックで同様の結果を提供できます。

3. 提案

新しいベクターベースのクエリ システムは、私たちが慣れ親しんだ時代よりもさらに魔法のように感じられます。古いクエリでは一致するものが見つかりましたが、これらの新しい AI データベースは、ユーザーの心を読んでいるように感じられることがあります。類似性検索を使用して、「近い」、多くの場合はユーザーが望むものとほぼ一致するデータ項目を見つけます。その背後にある数学は、n 次元空間で距離を見つけるのと同じくらい単純かもしれませんが、どういうわけか、予期しない結果をもたらすほど強力です。これらのアルゴリズムは長い間、完全なアプリケーションとして独立して実行されてきましたが、徐々にデータベースに組み込まれ、より優れた複雑なクエリをサポートできるようになりました。

Oracle は、この市場をターゲットとするデータベースの一例にすぎません。 Oracle は長年にわたり、さまざまなあいまい一致および類似性検索機能を提供してきました。現在では、オンライン小売などの業界向けにカスタマイズされたツールを直接提供しています。

4. インデックスの例

以前は、データベースは特定の列による高速検索を可能にする単純なインデックスを構築していました。データベース管理者は、適切なインデックスを使用してより高速に実行される結合句とフィルター句を含むクエリを作成するのが得意です。現在、ベクター データベースは、ベクター内のすべての値を効率的に網羅するインデックスを作成するように設計されています。私たちは、互いに「近い」ベクトルを見つけるすべての応用を理解し始めたばかりです。

しかし、これはほんの始まりに過ぎません。 AI がデータベースでトレーニングされると、データベース内のすべての情報が効果的に吸収されます。今では、簡単な言語で AI にクエリを送信でき、AI は複雑かつ適応的な方法で検索します。

5. データ分類

人工知能は、単にデータベースに新しい構造を追加するだけではありません。データ自体に新しい構造が追加されることもあります。注釈のない画像や、誰かがずっと前に書いた大きなテキストブロックなど、一部のデータは混乱した状態で届く場合があります。 AI アルゴリズムは、混乱を整理し、ノイズを除去し、混沌としたデータ セットに秩序を与え始めます。フォームは自動的に入力されます。テキストブロックの感情的な調子を分類したり、写真に写っている顔の態度を推測したりすることができます。画像から細かい詳細を抽出し、アルゴリズムでパターンの検出を学習することができます。彼らはデータを分類し、重要な詳細を抽出し、情報の定期的で明確に説明された表形式のビューを作成しています。

Amazon Web Services は、SageMaker などの AI ツールと Aurora などのデータベースを接続するさまざまなデータ クラスタリング サービスを提供しています。

6. パフォーマンスの向上

優れたデータベースは、データ保存の多くの詳細を処理します。これまで、プログラマーは、データベースを効率的に実行するために、データベースで使用されるさまざまなパラメーターとモードについて時間をかけて考える必要がありました。これらのタスクを処理するために、データベース管理者の役割が確立されました。

これらの高レベルのメタタスクは現在、クエリ パターンとデータ構造を理解するために機械学習アルゴリズムを使用することで自動化されています。サーバー上のトラフィックを監視し、需要に対応するためのプランを作成できます。リアルタイムで適応し、ユーザーのニーズを予測することを学習できます。

Oracle は最も優れた例の 1 つを提供します。かつて、企業はデータベースを管理するデータベース管理者に高額の給与を支払っていました。現在、Oracle は、パフォーマンスを即座に調整できる高度な人工知能アルゴリズムを搭載しているため、自社のデータベースを自律型データベースと呼んでいます。

7. より明確なデータ

適切なデータベースを実行するには、ソフトウェアを実行し続けるだけでなく、データが可能な限りクリーンで不具合のない状態を保つことも必要です。 AI は、異常を検索し、フラグを立て、場合によっては修正を提案することで、この作業負荷を簡素化します。顧客の名前のスペルミスを見つけ、残りのデータを検索して正しいスペルを見つけることもできます。また、受信データの形式を学習し、データを取り込んで、すべての名前、日付、その他の詳細が可能な限り一貫して表示される単一の統合コーパスを作成することもできます。

Microsoft の SQL Server は、データ品質サービスと緊密に統合され、フィールドの欠落や日付の重複などの問題があるデータをクリーンアップするデータベースの例です。

8. 不正行為の検出

より安全なデータストレージを作成することは、機械学習の特定の応用です。データフィード内の異常は不正行為の良い指標となる可能性があるため、機械学習アルゴリズムを使用して異常を探す人もいます。初めて深夜に ATM に行った人はいますか?この人はこの大陸でクレジットカードを使ったことがありますか?人工知能アルゴリズムは危険な活動を嗅ぎ分け、データベースを不正検出システムに変えることができます。

たとえば、Google の Web サービスでは、不正検出をデータ ストレージ スタックに統合するためのオプションがいくつか提供されています。

9. セキュリティ強化

一部の組織では、これらのアルゴリズムを社内で適用しています。 AI は使用パターンに合わせてデータベースを最適化しようとしているだけでなく、侵入の兆候となる可能性のある異常なケースも探しています。リモート ユーザーがテーブル全体の完全なコピーを要求することは、毎日あるわけではありません。優れた AI は何か怪しいものを嗅ぎ分けることができます。

IBM の Guardium Security は、データ ストレージ層と統合してアクセスを制御し、異常を監視するツールの例です。

10. データベースと生成AIの統合

かつては、AIとデータベースは別々でした。モデルをトレーニングするときは、データがデータベースから抽出され、再フォーマットされてから AI に送られます。新しいシステムは既存のデータから直接モデルをトレーニングします。これにより、データの移動だけで数日または数週間かかる大規模なジョブの時間と労力を節約できます。また、AI モデルのトレーニングをコマンドの発行と同じくらい簡単にすることで、DevOps チームの作業も簡素化されます。

データベースを完全に置き換えるという話さえあります。クエリをリレーショナル データベースに送信する代わりに、クエリを AI に直接送信し、AI が魔法のようにあらゆる形式でクエリに回答します。 Google は Bard を提供し、Microsoft は ChatGPT を推進しています。どちらも検索エンジンに代わる有力な候補です。従来のデータベースを置き換えることができない理由はありません。

このアプローチには欠点があります。場合によっては、AI が幻覚を起こして完全に間違った答えを出すこともあります。場合によっては、出力の形式を気まぐれに変更することもあります。

ただし、ドメインが十分に限定され、トレーニング セットが深く完全である場合、AI は満足のいく結果を提供できます。また、テーブル構造を定義したり、テーブル内のデータを検索するためのクエリをユーザーに強制的に記述させたりする必要もありません。生成 AI を使用してデータを保存および検索すると、ユーザーと作成者にとってより柔軟になります。

オリジナルリンク: https://www.infoworld.com/article/3703211/10-ways-generative-ai-upends-the-traditional-database.html

<<:  AIがデータ侵害やデータ損失の防止にどのように役立つか

>>:  ビッグモデルがAlibaba Cloudを救った!

ブログ    
ブログ    

推薦する

3省庁:AI分野の大学院生の育成を加速し、世界の科学技術の最先端を掌握

教育部のウェブサイトによると、教育部、国家発展改革委員会、財政部はこのほど、「『双一流』建設大学にお...

5年後、農業ロボットの市場価値は引き続き増加し、約880億ドルに達するだろう。

農業用ロボットは、一般的に、農産物を操作対象とし、ある程度の人間の知覚と行動能力を持ち、さまざまな高...

AI はクラウド コンピューティングをどのように改善するのでしょうか?

今日、AI とクラウド コンピューティングを組み合わせることで、企業はデータを管理し、情報のパターン...

...

強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習

[[438887]]現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多...

NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

自然言語処理 (NLP) モデルは人間の言語を理解できず、テキストを反対の意味として解釈しますが、こ...

...

...

女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算

[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...

生成AIビッグモデルが人類の進化に与える影響

日々の仕事は ChatGPT などの言語生成モデルと切り離せないものだと思いますか? Midjour...

マスク氏に敵対的買収の疑い!ツイッター株を受け取ったが取締役会には参加せず、訴訟を起こされている

これはすべて悪意のある計画ですか? ツイッター株を7000万株以上購入した後、マスク氏は取締役会への...

人工知能が自動車業界に与える影響

自動運転車の発売が近づいており、消費者の期待は高まっており、人工知能技術は自動車業界にさらに大きな影...

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

オランダのラドバウド大学は8月2日、MetaやOpenAIなどの企業が「オープンソース」という用語を...

自然言語処理におけるディープラーニングの応用

自然言語処理とは、自然言語を使用して人間とコンピューターが効果的にコミュニケーションするためのさまざ...