プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つことは、低レイテンシを維持するための必要条件です。 機械学習、特にディープラーニングでは、すべてのデータを複数回走査することがよくあります (1 回の走査はエポックと呼ばれます)。非常に大きなデータセットの場合、大量のデータを転送する必要がないように、データが格納されている場所にモデルを構築するのが理想的です。現在、一部のデータベースではこの機能をある程度サポートしています。当然の疑問は、オンプレミスでの機械学習をサポートするデータベースはどれで、どのようにそれを実現するのか、ということです。これらのデータベースについて説明しましょう。
アマゾンレッドシフトAmazon Redshift は、既存のビジネス インテリジェンス ツールを使用してデータをより簡単かつコスト効率よく分析できるように設計された、ペタバイト規模のマネージド データ ウェアハウス サービスです。これはデータ セットに特化して最適化されており、1 TB あたり年間 1,000 ドル未満のコストがかかります。 Amazon Redshift ML を使用すると、SQL ユーザーは SQL コマンドを使用して機械学習モデルを簡単に作成、トレーニング、デプロイできるようになります。 Redshift SQL の CREATE MODEL コマンドは、トレーニング列とターゲット列のデータを定義し、同じリージョン内の暗号化された Amazon S3 バケットを介してトレーニング用にデータを Amazon SageMaker Autopilot に転送します。 AutoML トレーニング後、Redshift ML は最適なモデルをコンパイルし、それを Redshift クラスターの予測関数として登録します。その後、ユーザーは SELECT ステートメントで予測関数を呼び出すことによってモデルを呼び出して推論を行うことができます。 概要: Redshift ML は SageMaker Autopilot を使用して、SQL ステートメントを通じて指定されたデータを使用して予測モデルを自動的に作成できます。このプロセス中に、SQL ステートメントが S3 バケットに抽出されます。最適な予測関数は Redshift クラスターに登録されます。 ブレイジングSQLBlazingSQL は、RAPIDS エコシステム上に構築された GPU アクセラレーション SQL エンジンです。オープンソース プロジェクトですが、有料サービスも提供されています。 RAPIDS は、CUDA を使用し、Apache Arrow 列指向メモリ形式を採用した、Nvidia がサポートするオープンソース ソフトウェア ライブラリと API のセットです。 RAPIDS の一部である cuDF は、Pandas に似た GPU データ フレーム ライブラリであり、その主な目的は、データの読み込み、接続、集計、フィルタリングなどの操作を行うことです。 Dask は、Python スイートを複数のマシンに拡張できるオープン ソース ツールです。さらに、Dask は、同じシステム上またはマルチノード クラスター内の複数の GPU にデータと計算を分散できます。 RAPIDS cuDF、XGBoost、RAPIDS cuML を統合した Dask は、GPU アクセラレーションによるデータ分析や機械学習に使用できます。 概要: BlazingSQL は、Amazon S3 のデータレイクで GPU アクセラレーション クエリを実行し、結果のデータ フレームを cuDF に転送してデータ操作を行い、最後に RAPIDS XGBoost と cuML を使用して機械学習を実行したり、PyTorch と TensorFlow を使用してディープラーニングを実行したりできます。 Google Cloud BigQueryBigQuery は、Google Cloud によって管理されるペタバイト規模のデータ ウェアハウスです。 BigQuery を使用すると、ユーザーは大量のデータに対してほぼリアルタイムの分析を実行できます。 BigQuery ML を使用すると、ユーザーは SQL クエリを使用して BigQuery で機械学習モデルを作成および実行できます。 BigQueryML は、予測のための線形回帰、分類のためのバイナリ多クラス ロジスティック回帰、データ セグメンテーションのための K 平均法クラスタリング、製品推奨システムを作成するための行列分解、時系列予測を実行するための時系列、XGBoost 分類および回帰モデル、分類および回帰モデルのための TensorFlow ベースのディープ ニューラル ネットワーク、AutoML Tables、および TensorFlow モデルのインポートをサポートしています。ユーザーは、複数の BigQuery データセットのデータを使用してモデルをトレーニングおよび予測できます。 BigQuery ML はデータ ウェアハウスからデータを抽出しませんが、ユーザーは CREATE MODEL ステートメントの TRANSFORM 句を使用して BigQuery ML で特徴エンジニアリングを実行できます。 概要: BigQuery ML は、データ ウェアハウスからデータを抽出することなく、SQL 構文を通じて Google Cloud 機械学習を BigQuery データ ウェアハウスに導入します。 IBM Db2 ウェアハウスIBM Db2 Warehouse はホスト型パブリック クラウド サービスですが、ユーザーはオンプレミスまたはプライベート クラウドに導入できます。データ ウェアハウスとしての IBM Db2 Warehouse には、インメモリ データ処理やオンライン分析処理用の列テーブルなどの機能が含まれています。 Netezza テクノロジーは、データの効率的なクエリを実行するための強力な分析機能を提供します。さらに、IBM Db2 Warehouse の広範なライブラリと関数により、ユーザーは必要な正確な洞察を得ることができます。 Db2 Warehouse は、Python、R、SQL でのデータベース内機械学習をサポートしています。 IDAX モジュールには、分散分析、関連ルール、データ変換、決定木、診断、K 平均法クラスタリング、K 近傍法、線形回帰、メタデータ管理、単純ベイズ分類、主要素分析、確率分布、ランダム サンプリング、回帰木、シーケンス パターンとルール、パラメトリック統計とノンパラメトリック統計などの分析ストアド プロシージャが含まれています。 概要: IBM Db2 Warehouse には、基本的な機械学習機能など、さまざまなデータベース内 SQL 分析機能が含まれています。さらに、IBM Db2 Warehouse は、R と Python のデータベース内サポートを提供します。 キネティカKinetica ストリーミング データ ウェアハウスは、従来のストリーミング データ分析とローカル インテリジェンスおよび AI を単一のプラットフォームに統合し、すべて API と SQL 経由でアクセスできるようにします。 Kinetica は、高速、分散、列指向、メモリファーストであるだけでなく、フィルタリング、視覚化、集計機能も統合した GPU アクセラレーション データベースです。 大規模なリアルタイム予測分析を可能にするために、Kinetica は機械学習モデルとアルゴリズムをユーザーのデータと統合し、ユーザーが分析データ パイプライン、機械学習モデル、データ エンジニアリングのライフサイクル、ストリーム コンピューティング機能を最適化できるようにします。 Kinetica は、Jupyter ノートブックの管理、RAPIDS によるモデル トレーニング、Kinetica プラットフォームでの自動モデル展開と推論など、GPU アクセラレーション 機械学習の完全なライフサイクル ソリューションを提供します。 概要: Kinetica は、GPU アクセラレーションによる機械学習のための完全なデータベース ライフサイクル ソリューションを提供し、ストリーミング データを予測に活用できます。 マイクロソフトSQLサーバーMicrosoft SQL Server Machine Learning Services は、SQL Server RDBMS の R、Python、Java、PREDICT T-SQL コマンド、rx_Predict ストアド プロシージャ、および SQL Server ビッグ データ クラスターの SparkML をサポートしています。 Microsoft は、R および Python での機械学習用に複数のパッケージとライブラリを提供しています。ユーザーはトレーニング済みのモデルをデータベース内またはデータベース外に保存できます。 Azure SQL Managed Instance は、プレビューで Python および R 固有の Machine Learning Services をサポートしています。 R はディスクとメモリ内のデータを処理できます。 SQL Server は、R、Python、Java コードが SQL Server のデータと関数を使用できるように拡張フレームワークを提供します。 SQL Server ビッグ データ クラスターは、Kubernetes で SQL Server、Spark、および HDFS を実行します。 SQL Server が Python コードを呼び出すと、Azure Machine Learning も呼び出され、生成されたモデルが予測のためにデータベースに保存されます。 概要: 現在のバージョンの SQL Server では、複数のプログラミング言語を使用して機械学習モデルをトレーニングおよび推論できます。 Oracle データベースOracle Cloud Infrastructure (OCI) Data Science は、データ サイエンス チームが Oracle Autonomous Database や Oracle Autonomous Data Warehouse などの OCI を使用して機械学習モデルを構築、トレーニング、管理できるようにする、管理されたサーバーレス プラットフォームです。このプラットフォームには、オープンソース コミュニティによって開発された Python 中心のツール、ライブラリ、スイート、および Oracle Accelerated Data Science (ADS) ライブラリが含まれており、予測モデルのエンドツーエンドのライフサイクルをサポートします。
OCI データ サイエンスは、関数、データ フロー、自律型データ ウェアハウス、オブジェクト ストレージなどの OCI スタックとも統合されています。 現在サポートされているモデルは次のとおりです:
さらに、ADS は MLX (機械学習の説明可能性) もサポートしています。 概要: Oracle Cloud Infrastructure (OCI) は、データ ウェアハウス、オブジェクト ストレージ、関数と統合されたデータ サイエンス リソースをホストし、完全なモデル開発ライフサイクルを実現できます。 ヴェルティカVertica 分析プラットフォームは、スケーラブルな列ベースのデータ ウェアハウスであり、Enterprise と EON の 2 つの動作モードがあります。前者のモードでは、データベースを構成するローカル ノード内のファイル システムにデータが保存され、後者のモードでは、パブリック コンピューティング ノードにデータが保存されます。 Vertica は、超並列コンピューティングを使用してペタバイト単位のデータを処理し、データの並列処理を通じて内部機械学習を実行します。この製品には、データ準備用の 8 つのアルゴリズム、3 つの回帰アルゴリズム、4 つの分類アルゴリズム、2 つのクラスタリング アルゴリズム、および複数のモデル管理機能が組み込まれており、トレーニング済みの TensorFlow モデルと PMML モデルを他の場所にインポートする機能があります。モデルをインポートした後、ユーザーはそれを使用して予測を行うことができます。 Vertica では、C++、Java、Python、R などの言語でコンパイルされたカスタム拡張機能も使用できます。さらに、ユーザーはトレーニングと推論に SQL 構文を使用できます。 概要: Vertica には優れた機械学習アルゴリズムのセットが組み込まれており、TensorFlow および PMML モデルをインポートできます。ユーザーは、予測のためにインポートされたモデルを使用することも、独自のトレーニング済みモデルを使用することもできます。 その他のオプション: MindsDBユーザーのデータベースが組み込みの機械学習をサポートしていない場合は、MindsDB を使用できます。この製品は、6 つのデータベースと 5 つのビジネス インテリジェンス ツールと統合されます。サポートされているデータベースには、MariaDB、MySQL、PostgreSQL、ClickHouse、Microsoft SQL Server、Snowflake などがあります。 MindsDB は現在 MongoDB との統合にも取り組んでおり、2021 年後半には StreamDB との統合も予定しています。 MindsDB がサポートするビジネス インテリジェンス ツールには、SAS、Qlik Sense、Microsoft Power BI、Looker、Domo などがあります。 MindsDB の機能には、AutoML、AI テーブル、説明可能な人工知能 (XAI) も含まれます。ユーザーは、MindsDB Studio、SQL INSERT ステートメント、または Python API 呼び出しから AutoML トレーニングを呼び出すことができます。ユーザーは、トレーニングに GPU を使用するか、時系列モデルを作成するかを選択できます。 ユーザーはモデルをデータベース テーブルとして保存し、保存したモデルに固有の SQL SELECT ステートメント、MindsDB Studio、または Python API 呼び出しから呼び出すことができます。さらに、ユーザーは MindsDB Studio を通じてモデルの品質を評価、説明、視覚化できます。 同時に、ユーザーは MindsDB Studio と Python API をローカルおよびリモートのデータ ソースに接続することもできます。 MindsDB は、PyTorch 上で実行できる簡素化されたディープラーニング フレームワーク Lightwood も提供しています。 概要: MindsDB は、組み込みの機械学習をサポートしていない多くのデータベースに機械学習機能をもたらします。 機械学習をネイティブにサポートし始めるデータベースが増えています。メカニズムはさまざまですが、一部のメカニズムは他のメカニズムよりも優れたパフォーマンスを発揮します。大量のデータがあり、サンプリングされたサブセットに適切なモデルを選択する必要がある場合、上記の 8 つのデータベース、および MindsDB をサポートするその他のデータベースを使用すると、データのエクスポートによる大幅な過剰支出を心配することなく、完全なデータセットのモデルを構築できます。 |
<<: Transformerは画像を生成することも可能で、新しいViTGANのパフォーマンスはCNNベースのGANに匹敵する。
>>: 人工知能の革新はいかにしてより賢いロボットの進化につながるのか
絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感...
[[202723]] AWS 上で大規模なディープラーニング処理を実行することは、学習と開発を行うた...
[この一連のブログ投稿では、一般的なデータ構造と対応するアルゴリズムを分析および要約し、各ブログ投稿...
トップレベルの設計を継続的に改善し、コンピュータービジョン、音声認識、機械学習、ナレッジグラフなどの...
新小売、新金融、新エンターテインメントなどの新しい業態の台頭により、ビッグデータの驚異的な力がインタ...
サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...
最近、GPT-4 と Copilot を研究に積極的に使用している数学の専門家 Terence Ta...
先週、私たちは、Float、Rai、Fei、Gyroscope などの人気のアルゴリズム ステーブル...
海外メディアの報道によると、7月21日、OpenAIはユーザーにChatGPTの応答に対する強化され...
[[323304]] [51CTO.com クイック翻訳] 疫病の影響により、多くの企業従業員がリモ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...