Microsoft、Spark 向けディープラーニング ライブラリ MMLSpark をオープンソース化

Microsoft、Spark 向けディープラーニング ライブラリ MMLSpark をオープンソース化

[[207730]]

Microsoft は、Apache Spark 用のディープラーニング ライブラリである MMLSpark をオープンソース化しました。 MMLSpark は、Microsoft Cognitive Toolkit および OpenCV と完全に統合できます。

Microsoft は、SparkML はスケーラブルな機械学習プラットフォームを構築できるものの、ほとんどの開発者が基盤となる API の呼び出しに労力を費やしていることを発見しました。 MMLSpark は、PySpark での反復タスクを簡素化することを目的としています。

UCI 成人所得国勢調査データセットを例に、他の項目を使用して所得を予測できます。

SparkML を直接使用する場合は、各列を個別に処理し、正しいデータ型に整理する必要があります。MMLSpark では、これには 2 行のコードのみが必要です。

  1. モデル = mmlspark.TrainClassifier(モデル=LogisticRegression(), ラベルCol=”income”).fit(trainData)
  2.  
  3. 予測 = model.transform(テストデータ)

ディープニューラルネットワーク(DNN)は、画像認識や音声認識などの分野では人間と同等の能力を持っていますが、DNNモデルのトレーニングには専門家が必要であり、SparkMLとの統合も非常に困難です。 MMLSpark は、DNN アルゴリズムの簡単なトレーニングに便利な Python API を提供します。 MMLSpark は、分類タスクに既存のモデルを簡単に使用し、分散 GPU ノードでトレーニングし、OpenCV を使用してスケーラブルな画像処理パイプラインを構築できます。

次の 3 行のコードで、Microsoft Cognitive Toolset の DNN モデルを初期化し、画像から特徴を抽出できます。

  1. cntkModel = CNTKModel().setInputCol("images").setOutputCol("features").setModelLocation(resnetModel).setOutputNode("zx")
  2.  
  3. featureizedImages = cntkModel.transform(imagesWithLabels) .select (['labels','features'])
  4.  
  5. モデル = TrainClassifier(モデル = LogisticRegression(),labelCol="labels").fit(featurizedImages)

MMLSpark は Docker Hub にリリースされており、次のコマンドを使用して単一のマシンにデプロイできます。

  1. docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark は MIT ライセンスに基づいてライセンスされています。

<<:  AI に「大きな力と小さな心」を与える - ユニバーサル CNN アクセラレーション設計

>>:  新しいAIシステムが地震を正確に予測できるようになりました

ブログ    
ブログ    
ブログ    

推薦する

生成 AI は岐路に立っています。次の波はどこから来るのでしょうか?

生成 AI は、特にビジネスの世界でますます人気が高まっています。ウォルマートはつい最近、店舗外の従...

...

ついに!ファーウェイの次世代カメラはカメラには見えない

最近、セキュリティ業界で2つの大きな出来事が起こりました。大手証券会社にとって、これはブラックマンデ...

Java でよく使われる 7 つのソート アルゴリズムの概要

しばらく時間が空いたので、Java でよく使われる 7 つのソート アルゴリズムをまとめてみました。...

...

自動化とエンタープライズAIは2021年に大きく成長する

最近のガートナーの調査によると、労働力の自動化とエンタープライズ人工知能が 2021 年の主要なトレ...

...

...

...

初心者必読: 5 つの反復レベルから機械学習を理解する

このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...

10億件の速達配送のピークを迎える中、Baidu OCRが物流企業のスピードアップにどのように貢献しているかをご覧ください。

ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...

機械学習を使うべきタイミング

著者 | 杜家平なぜこのトピックを議論するのですか?このトピックを議論する本質的な理由は、顧客にデー...

ChatGPTは時間管理の達人になるお手伝いをします

時間管理は、働く人にとって非常に重要です。適切な管理は、仕事の効率と生活の質を大幅に向上させます。タ...

検索アルゴリズムはあなたの指先にあります: GitHubには最大のオープンソースアルゴリズムライブラリがあります

[[433085]]アルゴリズムは本質的に、1 つ以上の入力を受け入れ、内部計算とデータ操作を実行...

...