ピーター・ウェイナー ノアが編集 生成 AI の華やかさにもかかわらず、この新しい時代における最大の変化はソフトウェア スタックの奥深くに埋もれている可能性があります。 AI アルゴリズムはデータベースを次々と微妙に変更しています。彼らは、洗練され、適応性があり、一見より直感的な新しい AI 機能によって、従来のデータベースを破壊しています。 一方、データベースメーカーは、AI モデルとの連携を向上させるために情報の保存方法を変更しています。ここでは、人工知能が普及するにつれてデータベースが適応し、改善される 10 の方法を紹介します。 1. ベクトルと埋め込みAI 開発者は、情報を長い数値ベクトルとして保存することを好みます。以前は、データベースはこれらの値を行として保存し、各数値を別々の列に保存していました。一部のデータベースでは純粋なベクトルがサポートされているため、情報を行と列に分割する必要はありません。代わりに、データベースはそれらを一緒に保存します。保存に使用されるベクトルの中には、数百または数千の数値が含まれるものもあります。 このようなベクトルは、複雑なデータを単一の数値リストに変換するパターンである埋め込みとペアになることがよくあります。埋め込みの設計は依然として芸術であり、多くの場合、基礎となるドメインの知識に依存します。適切に組み込まれたデータベースは、高速アクセスと複雑なクエリを提供できます。 Pinecone、Vespa、Milvus、Margo、Weaviate などの一部の企業は、キャリアを保存するための新しいデータベースを構築しています。 PostgreSQL などのデータベースは、現在のツールにベクトルを追加しています。 2. クエリモデルデータベースにベクトルを追加すると、利便性が向上するだけではありません。新しいクエリ機能では、完全一致以上のものを検索できます。 「最も近い」値を見つけることができるため、推奨エンジンや異常検出などのシステムを実装するのに役立ちます。データをベクトル空間に埋め込むと、幾何学的距離のみへのマッチングと関連付けを伴う厄介な問題が簡素化されます。 Pinecone、Vespa、Milvus、Margo、Weaviate などのベクター データベースは、ベクター クエリを提供します。 Lucene や Solr などの予想外のツールも類似性マッチングを提供し、構造化されていないテキストの大きなブロックで同様の結果を提供できます。 3. 提案新しいベクターベースのクエリ システムは、私たちが慣れ親しんだ時代よりもさらに魔法のように感じられます。古いクエリでは一致するものが見つかりましたが、これらの新しい AI データベースは、ユーザーの心を読んでいるように感じられることがあります。類似性検索を使用して、「近い」、多くの場合はユーザーが望むものとほぼ一致するデータ項目を見つけます。その背後にある数学は、n 次元空間で距離を見つけるのと同じくらい単純かもしれませんが、どういうわけか、予期しない結果をもたらすほど強力です。これらのアルゴリズムは長い間、完全なアプリケーションとして独立して実行されてきましたが、徐々にデータベースに組み込まれ、より優れた複雑なクエリをサポートできるようになりました。 Oracle は、この市場をターゲットとするデータベースの一例にすぎません。 Oracle は長年にわたり、さまざまなあいまい一致および類似性検索機能を提供してきました。現在では、オンライン小売などの業界向けにカスタマイズされたツールを直接提供しています。 4. インデックスの例以前は、データベースは特定の列による高速検索を可能にする単純なインデックスを構築していました。データベース管理者は、適切なインデックスを使用してより高速に実行される結合句とフィルター句を含むクエリを作成するのが得意です。現在、ベクター データベースは、ベクター内のすべての値を効率的に網羅するインデックスを作成するように設計されています。私たちは、互いに「近い」ベクトルを見つけるすべての応用を理解し始めたばかりです。 しかし、これはほんの始まりに過ぎません。 AI がデータベースでトレーニングされると、データベース内のすべての情報が効果的に吸収されます。今では、簡単な言語で AI にクエリを送信でき、AI は複雑かつ適応的な方法で検索します。 5. データ分類人工知能は、単にデータベースに新しい構造を追加するだけではありません。データ自体に新しい構造が追加されることもあります。注釈のない画像や、誰かがずっと前に書いた大きなテキストブロックなど、一部のデータは混乱した状態で届く場合があります。 AI アルゴリズムは、混乱を整理し、ノイズを除去し、混沌としたデータ セットに秩序を与え始めます。フォームは自動的に入力されます。テキストブロックの感情的な調子を分類したり、写真に写っている顔の態度を推測したりすることができます。画像から細かい詳細を抽出し、アルゴリズムでパターンの検出を学習することができます。彼らはデータを分類し、重要な詳細を抽出し、情報の定期的で明確に説明された表形式のビューを作成しています。 Amazon Web Services は、SageMaker などの AI ツールと Aurora などのデータベースを接続するさまざまなデータ クラスタリング サービスを提供しています。 6. パフォーマンスの向上優れたデータベースは、データ保存の多くの詳細を処理します。これまで、プログラマーは、データベースを効率的に実行するために、データベースで使用されるさまざまなパラメーターとモードについて時間をかけて考える必要がありました。これらのタスクを処理するために、データベース管理者の役割が確立されました。 これらの高レベルのメタタスクは現在、クエリ パターンとデータ構造を理解するために機械学習アルゴリズムを使用することで自動化されています。サーバー上のトラフィックを監視し、需要に対応するためのプランを作成できます。リアルタイムで適応し、ユーザーのニーズを予測することを学習できます。 Oracle は最も優れた例の 1 つを提供します。かつて、企業はデータベースを管理するデータベース管理者に高額の給与を支払っていました。現在、Oracle は、パフォーマンスを即座に調整できる高度な人工知能アルゴリズムを搭載しているため、自社のデータベースを自律型データベースと呼んでいます。 7. より明確なデータ適切なデータベースを実行するには、ソフトウェアを実行し続けるだけでなく、データが可能な限りクリーンで不具合のない状態を保つことも必要です。 AI は、異常を検索し、フラグを立て、場合によっては修正を提案することで、この作業負荷を簡素化します。顧客の名前のスペルミスを見つけ、残りのデータを検索して正しいスペルを見つけることもできます。また、受信データの形式を学習し、データを取り込んで、すべての名前、日付、その他の詳細が可能な限り一貫して表示される単一の統合コーパスを作成することもできます。 Microsoft の SQL Server は、データ品質サービスと緊密に統合され、フィールドの欠落や日付の重複などの問題があるデータをクリーンアップするデータベースの例です。 8. 不正行為の検出より安全なデータストレージを作成することは、機械学習の特定の応用です。データフィード内の異常は不正行為の良い指標となる可能性があるため、機械学習アルゴリズムを使用して異常を探す人もいます。初めて深夜に ATM に行った人はいますか?この人はこの大陸でクレジットカードを使ったことがありますか?人工知能アルゴリズムは危険な活動を嗅ぎ分け、データベースを不正検出システムに変えることができます。 たとえば、Google の Web サービスでは、不正検出をデータ ストレージ スタックに統合するためのオプションがいくつか提供されています。 9. セキュリティ強化一部の組織では、これらのアルゴリズムを社内で適用しています。 AI は使用パターンに合わせてデータベースを最適化しようとしているだけでなく、侵入の兆候となる可能性のある異常なケースも探しています。リモート ユーザーがテーブル全体の完全なコピーを要求することは、毎日あるわけではありません。優れた AI は何か怪しいものを嗅ぎ分けることができます。 IBM の Guardium Security は、データ ストレージ層と統合してアクセスを制御し、異常を監視するツールの例です。 10. データベースと生成AIの統合かつては、AIとデータベースは別々でした。モデルをトレーニングするときは、データがデータベースから抽出され、再フォーマットされてから AI に送られます。新しいシステムは既存のデータから直接モデルをトレーニングします。これにより、データの移動だけで数日または数週間かかる大規模なジョブの時間と労力を節約できます。また、AI モデルのトレーニングをコマンドの発行と同じくらい簡単にすることで、DevOps チームの作業も簡素化されます。 データベースを完全に置き換えるという話さえあります。クエリをリレーショナル データベースに送信する代わりに、クエリを AI に直接送信し、AI が魔法のようにあらゆる形式でクエリに回答します。 Google は Bard を提供し、Microsoft は ChatGPT を推進しています。どちらも検索エンジンに代わる有力な候補です。従来のデータベースを置き換えることができない理由はありません。 このアプローチには欠点があります。場合によっては、AI が幻覚を起こして完全に間違った答えを出すこともあります。場合によっては、出力の形式を気まぐれに変更することもあります。 ただし、ドメインが十分に限定され、トレーニング セットが深く完全である場合、AI は満足のいく結果を提供できます。また、テーブル構造を定義したり、テーブル内のデータを検索するためのクエリをユーザーに強制的に記述させたりする必要もありません。生成 AI を使用してデータを保存および検索すると、ユーザーと作成者にとってより柔軟になります。 オリジナルリンク: https://www.infoworld.com/article/3703211/10-ways-generative-ai-upends-the-traditional-database.html |
<<: AIがデータ侵害やデータ損失の防止にどのように役立つか
挑戦的なオープンソース機械学習プロジェクト 5 つで、2020 年を良いスタートを切りましょう。これ...
Titanium Media Note:先週日曜日、IEEE SMC 協会 (IEEE システム、人...
以前、「【インタビュー】 - 低速反応再帰」で 3 つの再帰アルゴリズムを読みました。フィボナッチ数...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローンhtt...
「携帯電話1台で世界中を旅する」というのは、ほぼすべての人の現状です。アクセスカード、バスカード、鍵...
先週、査読付き科学誌「ネイチャー」に掲載された論文で、Google Brain チームの科学者らは、...
[[412771]]それは正しい!またフェイフェイ・リーだよ!フェイフェイ・リーについて最後に報道...
私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため...
レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...
過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解...
3月11日、全国人民代表大会の2つの会議が閉会した。「人工知能」は引き続きホットな話題だが、今年の...
データが足りない場合はどうすればいいですか?学者たちは、ディープラーニングモデルにおけるデータ不足の...
アルゴリズムによる採用は珍しいことではありません。膨大な履歴書の審査を自動化するために AI アルゴ...