選択ガイド:機械学習をサポートする8つのデータベースの詳細解説

選択ガイド:機械学習をサポートする8つのデータベースの詳細解説

プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つことは、低レイテンシを維持するための必要条件です。

機械学習、特にディープラーニングでは、すべてのデータを複数回走査することがよくあります (1 回の走査はエポックと呼ばれます)。非常に大きなデータセットの場合、大量のデータを転送する必要がないように、データが格納されている場所にモデルを構築するのが理想的です。現在、一部のデータベースではこの機能をある程度サポートしています。当然の疑問は、オンプレミスでの機械学習をサポートするデータベースはどれで、どのようにそれを実現するのか、ということです。これらのデータベースについて説明しましょう。

[[412195]]

アマゾンレッドシフト

Amazon Redshift は、既存のビジネス インテリジェンス ツールを使用してデータをより簡単かつコスト効率よく分析できるように設計された、ペタバイト規模のマネージド データ ウェアハウス サービスです。これはデータ セットに特化して最適化されており、1 TB あたり年間 1,000 ドル未満のコストがかかります。

Amazon Redshift ML を使用すると、SQL ユーザーは SQL コマンドを使用して機械学習モデルを簡単に作成、トレーニング、デプロイできるようになります。 Redshift SQL の CREATE MODEL コマンドは、トレーニング列とターゲット列のデータを定義し、同じリージョン内の暗号化された Amazon S3 バケットを介してトレーニング用にデータを Amazon SageMaker Autopilot に転送します。

AutoML トレーニング後、Redshift ML は最適なモデルをコンパイルし、それを Redshift クラスターの予測関数として登録します。その後、ユーザーは SELECT ステートメントで予測関数を呼び出すことによってモデルを呼び出して推論を行うことができます。

概要: Redshift ML は SageMaker Autopilot を使用して、SQL ステートメントを通じて指定されたデータを使用して予測モデルを自動的に作成できます。このプロセス中に、SQL ステートメントが S3 バケットに抽出されます。最適な予測関数は Redshift クラスターに登録されます。

ブレイジングSQL

BlazingSQL は、RAPIDS エコシステム上に構築された GPU アクセラレーション SQL エンジンです。オープンソース プロジェクトですが、有料サービスも提供されています。 RAPIDS は、CUDA を使用し、Apache Arrow 列指向メモリ形式を採用した、Nvidia がサポートするオープンソース ソフトウェア ライブラリと API のセットです。 RAPIDS の一部である cuDF は、Pandas に似た GPU データ フレーム ライブラリであり、その主な目的は、データの読み込み、接続、集計、フィルタリングなどの操作を行うことです。

Dask は、Python スイートを複数のマシンに拡張できるオープン ソース ツールです。さらに、Dask は、同じシステム上またはマルチノード クラスター内の複数の GPU にデータと計算を分散できます。 RAPIDS cuDF、XGBoost、RAPIDS cuML を統合した Dask は、GPU アクセラレーションによるデータ分析や機械学習に使用できます。

概要: BlazingSQL は、Amazon S3 のデータレイクで GPU アクセラレーション クエリを実行し、結果のデータ フレームを cuDF に転送してデータ操作を行い、最後に RAPIDS XGBoost と cuML を使用して機械学習を実行したり、PyTorch と TensorFlow を使用してディープラーニングを実行したりできます。

Google Cloud BigQuery

BigQuery は、Google Cloud によって管理されるペタバイト規模のデータ ウェアハウスです。 BigQuery を使用すると、ユーザーは大量のデータに対してほぼリアルタイムの分析を実行できます。 BigQuery ML を使用すると、ユーザーは SQL クエリを使用して BigQuery で機械学習モデルを作成および実行できます。

BigQueryML は、予測のための線形回帰、分類のためのバイナリ多クラス ロジスティック回帰、データ セグメンテーションのための K 平均法クラスタリング、製品推奨システムを作成するための行列分解、時系列予測を実行するための時系列、XGBoost 分類および回帰モデル、分類および回帰モデルのための TensorFlow ベースのディープ ニューラル ネットワーク、AutoML Tables、および TensorFlow モデルのインポートをサポートしています。ユーザーは、複数の BigQuery データセットのデータを使用してモデルをトレーニングおよび予測できます。 BigQuery ML はデータ ウェアハウスからデータを抽出しませんが、ユーザーは CREATE MODEL ステートメントの TRANSFORM 句を使用して BigQuery ML で特徴エンジニアリングを実行できます。

概要: BigQuery ML は、データ ウェアハウスからデータを抽出することなく、SQL 構文を通じて Google Cloud 機械学習を BigQuery データ ウェアハウスに導入します。

IBM Db2 ウェアハウス

IBM Db2 Warehouse はホスト型パブリック クラウド サービスですが、ユーザーはオンプレミスまたはプライベート クラウドに導入できます。データ ウェアハウスとしての IBM Db2 Warehouse には、インメモリ データ処理やオンライン分析処理用の列テーブルなどの機能が含まれています。 Netezza テクノロジーは、データの効率的なクエリを実行するための強力な分析機能を提供します。さらに、IBM Db2 Warehouse の広範なライブラリと関数により、ユーザーは必要な正確な洞察を得ることができます。

Db2 Warehouse は、Python、R、SQL でのデータベース内機械学習をサポートしています。 IDAX モジュールには、分散分析、関連ルール、データ変換、決定木、診断、K 平均法クラスタリング、K 近傍法、線形回帰、メタデータ管理、単純ベイズ分類、主要素分析、確率分布、ランダム サンプリング、回帰木、シーケンス パターンとルール、パラメトリック統計とノンパラメトリック統計などの分析ストアド プロシージャが含まれています。

概要: IBM Db2 Warehouse には、基本的な機械学習機能など、さまざまなデータベース内 SQL 分析機能が含まれています。さらに、IBM Db2 Warehouse は、R と Python のデータベース内サポートを提供します。

キネティカ

Kinetica ストリーミング データ ウェアハウスは、従来のストリーミング データ分析とローカル インテリジェンスおよび AI を単一のプラットフォームに統合し、すべて API と SQL 経由でアクセスできるようにします。 Kinetica は、高速、分散、列指向、メモリファーストであるだけでなく、フィルタリング、視覚化、集計機能も統合した GPU アクセラレーション データベースです。

大規模なリアルタイム予測分析を可能にするために、Kinetica は機械学習モデルとアルゴリズムをユーザーのデータと統合し、ユーザーが分析データ パイプライン、機械学習モデル、データ エンジニアリングのライフサイクル、ストリーム コンピューティング機能を最適化できるようにします。 Kinetica は、Jupyter ノートブックの管理、RAPIDS によるモデル トレーニング、Kinetica プラットフォームでの自動モデル展開と推論など、GPU アクセラレーション 機械学習の完全なライフサイクル ソリューションを提供します。

概要: Kinetica は、GPU アクセラレーションによる機械学習のための完全なデータベース ライフサイクル ソリューションを提供し、ストリーミング データを予測に活用できます。

マイクロソフトSQLサーバー

Microsoft SQL Server Machine Learning Services は、SQL Server RDBMS の R、Python、Java、PREDICT T-SQL コマンド、rx_Predict ストアド プロシージャ、および SQL Server ビッグ データ クラスターの SparkML をサポートしています。 Microsoft は、R および Python での機械学習用に複数のパッケージとライブラリを提供しています。ユーザーはトレーニング済みのモデルをデータベース内またはデータベース外に保存できます。 Azure SQL Managed Instance は、プレビューで Python および R 固有の Machine Learning Services をサポートしています。

R はディスクとメモリ内のデータを処理できます。 SQL Server は、R、Python、Java コードが SQL Server のデータと関数を使用できるように拡張フレームワークを提供します。 SQL Server ビッグ データ クラスターは、Kubernetes で SQL Server、Spark、および HDFS を実行します。 SQL Server が Python コードを呼び出すと、Azure Machine Learning も呼び出され、生成されたモデルが予測のためにデータベースに保存されます。

概要: 現在のバージョンの SQL Server では、複数のプログラミング言語を使用して機械学習モデルをトレーニングおよび推論できます。

Oracle データベース

Oracle Cloud Infrastructure (OCI) Data Science は、データ サイエンス チームが Oracle Autonomous Database や Oracle Autonomous Data Warehouse などの OCI を使用して機械学習モデルを構築、トレーニング、管理できるようにする、管理されたサーバーレス プラットフォームです。このプラットフォームには、オープンソース コミュニティによって開発された Python 中心のツール、ライブラリ、スイート、および Oracle Accelerated Data Science (ADS) ライブラリが含まれており、予測モデルのエンドツーエンドのライフサイクルをサポートします。

  • データの取得、分析、準備、視覚化
  • 機能エンジニアリング
  • モデルトレーニング(Oracle AutoMLを含む)
  • モデルの評価、解釈、説明(Oracle MLXを含む)
  • Oracle Functionsでのモデルのデプロイメント

OCI データ サイエンスは、関数、データ フロー、自律型データ ウェアハウス、オブジェクト ストレージなどの OCI スタックとも統合されています。

現在サポートされているモデルは次のとおりです:

  • オラクルの自動ML
  • ケラス
  • Scikit-learn 機械学習ライブラリ
  • XGBoost
  • ADSTuner (ハイパーパラメータ最適化)

さらに、ADS は MLX (機械学習の説明可能性) もサポートしています。

概要: Oracle Cloud Infrastructure (OCI) は、データ ウェアハウス、オブジェクト ストレージ、関数と統合されたデータ サイエンス リソースをホストし、完全なモデル開発ライフサイクルを実現できます。

ヴェルティカ

Vertica 分析プラットフォームは、スケーラブルな列ベースのデータ ウェアハウスであり、Enterprise と EON の 2 つの動作モードがあります。前者のモードでは、データベースを構成するローカル ノード内のファイル システムにデータが保存され、後者のモードでは、パブリック コンピューティング ノードにデータが保存されます。

Vertica は、超並列コンピューティングを使用してペタバイト単位のデータを処理し、データの並列処理を通じて内部機械学習を実行します。この製品には、データ準備用の 8 つのアルゴリズム、3 つの回帰アルゴリズム、4 つの分類アルゴリズム、2 つのクラスタリング アルゴリズム、および複数のモデル管理機能が組み込まれており、トレーニング済みの TensorFlow モデルと PMML モデルを他の場所にインポートする機能があります。モデルをインポートした後、ユーザーはそれを使用して予測を行うことができます。 Vertica では、C++、Java、Python、R などの言語でコンパイルされたカスタム拡張機能も使用できます。さらに、ユーザーはトレーニングと推論に SQL 構文を使用できます。

概要: Vertica には優れた機械学習アルゴリズムのセットが組み込まれており、TensorFlow および PMML モデルをインポートできます。ユーザーは、予測のためにインポートされたモデルを使用することも、独自のトレーニング済みモデルを使用することもできます。

その他のオプション: MindsDB

ユーザーのデータベースが組み込みの機械学習をサポートしていない場合は、MindsDB を使用できます。この製品は、6 つのデータベースと 5 つのビジネス インテリジェンス ツールと統合されます。サポートされているデータベースには、MariaDB、MySQL、PostgreSQL、ClickHouse、Microsoft SQL Server、Snowflake などがあります。 MindsDB は現在 MongoDB との統合にも取り組んでおり、2021 年後半には StreamDB との統合も予定しています。 MindsDB がサポートするビジネス インテリジェンス ツールには、SAS、Qlik Sense、Microsoft Power BI、Looker、Domo などがあります。

MindsDB の機能には、AutoML、AI テーブル、説明可能な人工知能 (XAI) も含まれます。ユーザーは、MindsDB Studio、SQL INSERT ステートメント、または Python API 呼び出しから AutoML トレーニングを呼び出すことができます。ユーザーは、トレーニングに GPU を使用するか、時系列モデルを作成するかを選択できます。

ユーザーはモデルをデータベース テーブルとして保存し、保存したモデルに固有の SQL SELECT ステートメント、MindsDB Studio、または Python API 呼び出しから呼び出すことができます。さらに、ユーザーは MindsDB Studio を通じてモデルの品質を評価、説明、視覚化できます。

同時に、ユーザーは MindsDB Studio と Python API をローカルおよびリモートのデータ ソースに接続することもできます。 MindsDB は、PyTorch 上で実行できる簡素化されたディープラーニング フレームワーク Lightwood も提供しています。

概要: MindsDB は、組み込みの機械学習をサポートしていない多くのデータベースに機械学習機能をもたらします。

機械学習をネイティブにサポートし始めるデータベースが増えています。メカニズムはさまざまですが、一部のメカニズムは他のメカニズムよりも優れたパフォーマンスを発揮します。大量のデータがあり、サンプリングされたサブセットに適切なモデルを選択する必要がある場合、上記の 8 つのデータベース、および MindsDB をサポートするその他のデータベースを使用すると、データのエクスポートによる大幅な過剰支出を心配することなく、完全なデータセットのモデルを構築できます。

<<:  Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。

>>:  人工知能の革新はいかにしてより賢いロボットの進化につながるのか

ブログ    
ブログ    

推薦する

Goの暗号化と復号化アルゴリズムの概要

[[343693]]序文実際の開発では、暗号化と復号化が広く使用されています。一般的に使用される暗号...

EUがAIを活用して社会イノベーションを推進する方法

2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となることは間違いないだろう。...

...

...

グーグルは、人工知能の進歩により飛行機による地球温暖化への影響を大幅に軽減できると主張

グーグルは8月14日、飛行機による気候への影響を大幅に軽減できる人工知能の分野で大きな進歩を遂げたと...

...

2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された

2020年12月2日午前9時、知恵とリソースを集めることを目的とした2日間のOpenI/O 2020...

すべてのAI公開コースが無料でご利用いただけます! 14 のカテゴリ、230 のコース、6,000 以上の GitHub スター

十分に読書をして直感を養い、直感を信じて挑戦してみましょう。たくさんの読書を通して直感を養い、自分の...

...

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは?

​最近、浙江省の高温が話題になっています。継続的な高温と干ばつの悪影響を緩和するために、浙江省の多く...

AIGCとアップグレードにより、PC販売は2024年に8%回復する可能性がある

Canalysのアナリスト、ベン・キャディ氏とキーレン・ジェソップ氏は最近、一部の消費者が新世代のP...

「怠け者の経済」は、消費者向け家電製品のインテリジェント制御を主流に促進するでしょうか?

 新たな住宅消費トレンドが出現[[342344]] 90年代以降の世代である荘さんは、仕事から帰宅...

...

2021年に最も役立つ顔認識ソフトウェア9選をチェック

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...