[51CTO.com クイック翻訳]非常に大きなデータセットの場合、理想的な状況は、データがすでに存在する場所にモデルを構築することです。そのため、大量のデータをエクスポートする必要はありません。これをある程度サポートするデータ ウェアハウスがいくつかあります。次に、どのデータ ウェアハウスが機械学習をサポートしているか、また、どのようにそれを実現するかという疑問が浮かびます。次のデータ ウェアハウスは、アルファベット順に分析され、説明されています。 1. アマゾンレッドシフトAmazon Redshift は、既存のビジネス インテリジェンス ツールを使用してユーザーがすべてのデータを簡単かつ効率的に分析できるように設計された、ペタバイト規模のマネージド データ ウェアハウスです。数百 GB から数ペタバイト、あるいはそれ以上の規模のデータ セットに最適化でき、ストレージ コストは 1 TB あたり年間 1,000 ドル未満です。 Amazon Redshift-ML は、ユーザーが SQL コマンドを使用して機械学習モデルを簡単に作成、トレーニング、デプロイできるように設計されています。 Redshift SQL の CREATE MODEL コマンドは、トレーニング用のデータとターゲット列を定義し、同じリージョン内の暗号化された Amazon S3 バケットを介してトレーニング用にデータを Amazon SageMaker Autopilot に渡します。 AutoML トレーニング後、Redshift-ML は最適なモデルをコンパイルし、それを Redshift クラスターに予測 SQL 関数として登録します。次に、SELECT ステートメントで予測関数を呼び出すことによって、モデルを呼び出して推論を行うことができます。 概要: Redshift-ML は SageMaker Autopilot を使用して、S3 バケットに抽出された SQL ステートメントを使用して指定されたデータから予測モデルを自動的に作成します。その最良の予測関数は Redshift クラスターに登録されています。 2. ブレイジングSQLBlazingSQL は、RAPIDS データ サイエンス エコシステム上に構築された GPU アクセラレーション SQL エンジンであり、オープン ソース プロジェクトおよび有料サービスとして利用できます。 RAPIDS は、Nvidia が開発したオープンソース ソフトウェア リポジトリと API のセットであり、Compute Unified Device Architecture (CUDA) を使用し、Apache Arrow 列指向メモリ形式に基づいています。 RAPIDS の一部である CuDF は、データの読み込み、結合、集計、フィルタリング、その他の操作を行うための Pandas のような GPU DataFrame ライブラリです。 Dask は、Python パッケージを複数のコンピューターに拡張できるようにするオープン ソース ツールです。 Dask は、同じシステム上またはマルチノード クラスター内の複数の GPU にデータと計算を分散できます。 Dask は、GPU アクセラレーションによるデータ分析と機械学習のために、RAPIDS cuDF、XGBoost、RAPIDS cuML と統合されています。 概要: BlazingSQL は、Amazon S3 のデータレイクで GPU アクセラレーションクエリを実行し、結果の DataFrame をデータ処理のために cuDF に渡し、最後に RAPIDS XGBoost と cuML を使用して機械学習を実行し、PyTorch と TensorFlow を使用してディープラーニングを実行できます。 3. Google Cloud BigQueryBigQuery は、Google Cloud がホストするペタバイト規模のデータ ウェアハウスであり、ユーザーは大量のデータをほぼリアルタイムで分析できます。 BigQuery ML を使用すると、ユーザーは SQL クエリを使用して BigQuery で機械学習モデルを作成および実行できます。 BigQuery ML は、予測のための線形回帰、分類のためのバイナリおよびマルチクラス ロジスティック回帰、データ セグメンテーションのための K 平均法クラスタリング、製品推奨システムを作成するための行列分解、異常や季節性を含む時系列予測を実行するための時系列、XGBoost 分類および回帰モデル、分類および回帰モデルのための TensorFlow ベースのディープ ニューラル ネットワーク、AutoML テーブル、および TensorFlow モデルをサポートしています。ユーザーは、トレーニングと予測の両方に、複数の BigQuery データセットのデータを使用してモデルを使用できます。 BigQuery ML はデータ ウェアハウスからデータを抽出しません。ユーザーは、CREATE MODEL ステートメントの TRANSFORM 句を使用して、BigQuery ML で特徴エンジニアリングを実行できます。 概要: BigQuery ML は、データ ウェアハウスからデータを抽出することなく、SQL 構文を通じて Google Cloud Machine Learning のパワーのほとんどを BigQuery データ ウェアハウスに導入します。 4. IBM Db2ウェアハウスIBM Db2 Warehouse は、マネージド パブリック クラウド サービスです。ユーザーは、独自のハードウェアを使用してオンプレミスで、またはプライベート クラウドで IBM Db2 Warehouse をセットアップすることもできます。データ ウェアハウスとしては、インメモリ データ処理やオンライン分析処理用の列テーブルなどの機能を備えています。使用される Netezza テクノロジーは、データに効率的にクエリを実行するように設計された強力な分析ツール セットを提供します。また、ユーザーが必要とする正確な洞察を得るのに役立つさまざまなリポジトリと機能もあります。 Db2 Warehouse は、Python、R、SQL を使用してデータ ウェアハウス内で機械学習をサポートします。 IDAX モジュールには、分散分析、関連ルール、データ変換、決定木、診断尺度、離散化とモーメント、K 平均法クラスタリング、K 近傍法、線形回帰、メタデータ管理、単純ベイズ分類、主成分分析、確率分布、ランダム サンプリング、回帰木、シーケンシャル パターンとルール、パラメトリック統計とノンパラメトリック統計などの分析ストアド プロシージャが含まれています。 概要: IBM DB2 Data Warehouse には、基本的な機械学習機能や、R および Python のデータベース内サポートなど、データ ウェアハウス向けの幅広い SQL 分析機能が含まれています。 5. キネティカKinetica ストリーミング データ ウェアハウスは、履歴データとストリーミング データ分析を、位置情報インテリジェンスと人工知能と単一のプラットフォームに統合し、すべて API と SQL 経由でアクセスできます。 Kinetica は、フィルタリング、視覚化、集約機能を備えた、非常に高速で分散型の列指向型メモリファーストの GPU アクセラレーション データ ウェアハウスです。 Kinetica は、機械学習モデルとアルゴリズムをデータに統合し、大規模なリアルタイム予測分析を可能にします。これにより、ユーザーはデータ パイプラインと分析、機械学習モデル、データ エンジニアリングのライフサイクルを簡素化し、ストリーミング コンピューティング機能を使用できるようになります。 Kinetica は、Jupyter ノートブックの管理、RAPIDS によるモデル トレーニング、Kinetica プラットフォームでの自動モデル展開と推論など、GPU アクセラレーション 機械学習のための完全なライフサイクル ソリューションを提供します。 概要: Kinetica は、GPU アクセラレーションによる機械学習のための完全なデータ ウェアハウス ライフサイクル ソリューションを提供し、ストリーミング データから関数を計算できます。 6. Microsoft SQL ServerMicrosoft SQL Server Machine Learning Services は、SQL Server RDBMS の R、Python、Java、PREDICT T-SQL コマンド、rx_PREDICT ストアド プロシージャ、および SQL Server Big Data クラスターの SparkML をサポートしています。 Microsoft は、R および Python での機械学習用のパッケージとデータ リポジトリをいくつか提供しています。ユーザーはトレーニング済みのモデルをデータ ウェアハウスまたは外部に保存できます。 Azure SQL Managed Instance は、プレビューとして Python および R の Machine Learning サービスをサポートしています。 Microsoft R には、ディスク上とメモリ内の両方のデータを処理できるようにする拡張機能があります。 SQL Server は、R、Python、Java コードが SQL Server のデータと機能を使用できるようにする拡張フレームワークを提供します。 Kubernetes で SQL Server、Spark、HDFS を実行する SQL Server ビッグ データ クラスター。 SQL Server が Python コードを呼び出すと、Azure Machine Learning が呼び出され、結果のモデルがデータ ウェアハウスに保存され、予測に使用できるようになります。 結論: 現在のバージョンの SQL Server では、複数のプログラミング言語で機械学習モデルのトレーニングと推論を実行できます。 7. Oracle データベースOracle Cloud Infrastructure (OCI) Data Science は、データ サイエンス チームが Oracle Autonomous Database や Oracle Autonomous Data Warehouse などの Oracle Cloud Infrastructure を使用して機械学習モデルを構築、トレーニング、管理するためのマネージド サーバーレス プラットフォームです。これには、オープン ソース コミュニティと Oracle Accelerated Data Science (ADS) リポジトリによって開発された Python 中心のツール、リポジトリ、パッケージが含まれます。 ADS は予測モデルのエンドツーエンドのライフサイクルをサポートします。
OCI Data Science は、Function、Data Flow、Autonomous Data Warehouse、Object Storage などの Oracle Cloud Infrastructure スタックの残りの部分と統合されます。 現在サポートされているモデルは次のとおりです:
ADS は機械学習の説明可能性 (MLX) もサポートしています。 結論: Oracle Cloud Infrastructure は、データ ウェアハウス、オブジェクト ストレージ、および完全なモデル開発ライフサイクルを実現する機能と統合されたデータ サイエンス リソースをホストできます。 8. ヴェルティカVertica 分析プラットフォームは、スケーラブルな列指向データ ウェアハウスです。 2 つのモードで実行されます。エンタープライズ モードでは、データ ウェアハウスを構成するノードのファイル システムにデータがローカルに保存されます。EON モードでは、すべてのコンピューティング ノードからのデータが公開されて保存されます。 Vertica は、超並列処理を使用してペタバイト規模のデータを処理し、内部の機械学習にデータ並列処理を使用します。データ準備用の 8 つの組み込みアルゴリズム、3 つの回帰アルゴリズム、4 つの分類アルゴリズム、2 つのクラスタリング アルゴリズム、いくつかのモデル管理機能、および他の場所でトレーニングされた TensorFlow および PMML モデルをインポートする機能があります。モデルを適合またはインポートしたら、それを使用して予測を行うことができます。 Vista では、C++、Java、Python、または R でプログラムされたユーザー定義の拡張機能も使用できます。ユーザーはトレーニングと推論に SQL 構文を使用できます。 概要: Vertica には優れた機械学習アルゴリズムが組み込まれており、TensorFlow および PMML モデルをインポートできます。独自のモデルだけでなく、インポートしたモデルに基づいて予測を行うことができます。 マインドDBMindsDB は、Pytorch 上に構築された開発者向けの説明可能な AutoML フレームワークです。データ ウェアハウスが社内で機械学習をサポートしていない場合は、6 つのデータ ウェアハウスと 5 つの BI ツールと統合する MindsDB を使用してその機能を追加できます。サポートされているデータ ウェアハウスには、MariaDB、MySQL、PostgreSQL、ClickHouse、Microsoft SQL Server、Snowflake が含まれ、MongoDB との統合が現在進行中で、ストリーミング データ ウェアハウスとの統合は 2021 年後半に予定されています。現在サポートされている BI ツールには、SAS、Qlik Sense、Microsoft Power BI、Looker、Domo が含まれます。 MindsDB には、AutoML、AI テーブル、Explainable AI (XAI) が搭載されています。ユーザーは、MindsDB Studio、SQL INSERT ステートメント、または Python API 呼び出しから AutoML トレーニングを呼び出すことができます。トレーニングでは GPU の使用を選択でき、時系列モデルの作成も選択できます。 ユーザーはモデルをデータ ウェアハウス テーブルとして保存し、保存したモデルに対して SQL SELECT ステートメント、MindsDB Studio、または Python API 呼び出しを通じて呼び出すことができます。モデルの品質は、MindsDB Studio 内から評価、説明、視覚化できます。 ユーザーは、MindsDB Studio と Python API をローカルおよびリモートのデータ ソースに接続することもできます。 MindsDB は、PyTorch 上で実行される簡素化されたディープラーニング フレームワーク Lightwood も提供しています。 概要: MindsDB は、機械学習の組み込みサポートがない多くのデータ ウェアハウスに便利な機械学習機能をもたらします。 社内で機械学習をサポートするデータ ウェアハウスが増えています。それらの正確なメカニズムは様々であり、あるものは他のものよりも優れています。ただし、大量のデータがあり、サンプリングされたサブセットにモデルを適合させる必要がある場合は、上記の 8 つのデータ ウェアハウスのいずれか、および MindsDB の助けを借りたその他のデータ ウェアハウスを使用すると、データのエクスポートに追加料金を支払うことなく、完全なデータセットからモデルを構築できます。 原題: データベース内機械学習をサポートする 8 つのデータベース、著者: Martin Heller [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 15年以内に恐竜を繁殖させる、マスクは恐竜を月に送りたいのか?
>>: アルゴリズム技術の向上とアルゴリズムの適用の標準化(デジタル時代の文化生活)
ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...
C# DES アルゴリズムの暗号化と復号化は、開発のセキュリティ部分として、その使用方法を理解する必...
この記事を読んでいるということは、おそらくすでにディープラーニングの旅を始めているということでしょう...
昨日、北京冬季オリンピックはブラックテクノロジーでいっぱいだとネットユーザーが言っているのを見ました...
スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...
[[393929]]この記事はWeChatの公開アカウント「プログラマー李小冰」から転載したもので...
AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...
人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...
[[333631]] [51CTO.comからのオリジナル記事] 2020年7月13日の午後、Hua...
ステージ上の1分、ステージ外の10年間の努力。ボストン・ダイナミクスのロボット「アトラス」は新たなス...