ローコード機械学習ツール

ローコード機械学習ツール

機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開発し、そのモデルを運用可能な状態に展開するには、プログラミングに関する深い理解とその背後にあるアルゴリズムに関する十分な理解が必要です。

[[346868]]

これにより、機械学習の使用が少人数のグループに限定され、解決できる問題の数も制限されます。

幸いなことに、ここ数年で、モデル開発に必要なコードの量を削減したり、場合によっては完全に排除したりするライブラリやツールが数多く登場しました。 これにより、アナリストなどのデータ サイエンティスト以外の人が機械学習のパワーを活用できるようになり、データ サイエンティストはより迅速にモデルのプロトタイプを作成できるようになります。

ここでは、機械学習用の私のお気に入りのローコード ツールをいくつか紹介します。

ピカレット

PyCaret は、Scikit-learn や XGBoost などの一般的な機械学習ライブラリ用の Python ラッパーです。 わずか数行のコードでモデルを展開可能な状態に開発できます。

Pycaret は pip 経由でインストールできます。 より詳細なインストール手順については、PyCaret のドキュメントを参照してください。

  1. pip インストール pycaret

PyCaret には、pycaret.datasets モジュールを使用して直接インストールできるパブリック データセットのリポジトリがあります。 完全なリストはここにありますが、このチュートリアルでは、「ワイン」データセットと呼ばれる分類タスクを解決するために非常に単純なデータセットを使用します。

PyCaret ライブラリには、次のような一般的な機械学習の問題をすべて解決するためのモジュールのセットが含まれています。

  • 分類。
  • 戻る。
  • クラスタリング。
  • 自然言語処理。
  • 関連ルールのマイニング。
  • 異常検出。

分類モデルを作成するには、pycaret.classification モジュールを使用する必要があります。 モデルの作成は非常に簡単です。 モデル ID をパラメータとして受け取り、create_model() 関数を呼び出すだけです。 サポートされているモデルとそれに対応する ID の完全なリストは、こちらで確認できます。 または、適切なモジュールをインポートした後、次のコードを実行して、使用可能なモデルのリストを表示することもできます。

  1. pycaret.classification からインポート *
  2.  
  3. モデル()

> 分類に使用できるモデルのスナップショット。画像は著者によるものです。

create_model() を呼び出す前に、まず setup() 関数を呼び出して、機械学習実験に適切なパラメータを指定する必要があります。 ここでは、テストシーケンスの分割のサイズや、実験でクロス検証を実装するかどうかなどを指定できます。

  1. pycaret.classification からインポート *  
  2. rf =セットアップ(データデータ= データ、  
  3. ターゲット= 'タイプ'  
  4. トレインサイズ= 0.8 )  
  5. rf_model = create_model ('rf')

create_model() 関数は、データ型を自動的に推測し、デフォルトのメソッドを使用してそれらのデータ型を処理します。 create_model() を実行すると、推論されたデータ型を示す次の出力が表示されます。

> 画像は著者によるものです。

PyCaret は、カテゴリ変数や欠損値の補完などの処理に、デフォルトの前処理手法セットを使用します。 ただし、データに対してよりカスタマイズされたソリューションが必要な場合は、モデル設定でパラメーターとして指定できます。 以下の例では、numeric_imputation パラメータを変更して中央値を使用しました。

  1. pycaret.classification からインポート *
  2. rf =セットアップ(データデータ= データ、
  3. ターゲット= 'タイプ'
  4. numeric_imputation = '中央値' )
  5. rf_model = create_model ('rf')

パラメータに満足したら、Enter キーを押すとモデルが完成し、パフォーマンス結果のグリッドが表示されます。

> 画像は著者によるものです。

PyCaret には、モデルのパフォーマンスをグラフィカルに表示する plot_model() 関数もあります。

  1. プロットモデル(rf_model)

> 画像は著者によるものです。

このチュートリアルでは、PyCaret ライブラリを使用したモデル トレーニングの基本について説明しました。 機能エンジニアリング、モデルチューニング、永続性、デプロイメントなど、完全なローコード機械学習ソリューションを提供する機能とモジュールは他にも多数あります。

BigQuery ML

2018 年に、Google は BigQuery ML という新しいツールをリリースしました。 BigQuery は、データ アナリストやデータ サイエンティストが大量のデータに高速にアクセスできるように設計された、Google のクラウド データ ウェアハウス ソリューションです。 BigQuery ML は、SQL のみを使用して BigQuery データ ウェアハウスから直接機械学習モデルを開発できるツールです。

BigQueryML はリリース以来、分類、回帰、クラスタリングなど、最も一般的な機械学習タスクをサポートするまで成長しました。 独自の Tensforflow モデルをインポートしてツールで使用することもできます。

私の経験から言うと、BigQueryML はモデルのプロトタイピングを加速するのに非常に便利なツールであり、単純な問題を解決するための本番環境ベースのシステムとしても使用できます。

このツールを簡単に紹介するために、Adult Income Dataset というデータセットを使用して、BigQuery ML でロジスティック回帰分類モデルを構築および評価する方法を説明します。

データセットは UCI 機械学習リポジトリで入手でき、次の Python コードを使用して CSV ファイルとしてダウンロードします。

  1. url_data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'  
  2.  
  3. column_names = ['年齢', '職業', '職位', '教育', '教育番号', '婚姻状況',
  4.  
  5. 「職業」、「関係」、「人種」、「性別」、「資本利得」、「資本損失」、
  6.  
  7. [「週あたりの労働時間」、「出身国」、「収入」]
  8.  
  9. 大人のデータ= pd .read_csv(url_data、名前=列名)
  10.  
  11. 成人データ.to_csv('成人データ.csv')

以下は、データをダウンロードして CSV ファイルとしてエクスポートするスクリプトです。

Google Cloud Platform (GCP) アカウントをお持ちでない場合は、ここで作成できます。 最初にサインアップすると、以下の例を試すのに十分な 300 ドルの無料クレジットが付与されます。

GCP に入ったら、ドロップダウン メニューから BigQuery Web UI に移動します。 GCP を初めて使用する場合は、プロジェクトを作成し、BigQuery で設定する必要があります。ここでは、Google クイック スタート ガイドに概要が詳しく記載されています。

先ほどダウンロードした CSV ファイルを GCP に直接アップロードしてテーブルを作成できます。

> 画像は著者によるものです。

サイドバーのテーブル名をクリックし、「プレビュー」を選択すると、テーブル内のデータを検査できます。 現在、成人向けのデータは BigQuery にあります。

> 画像は著者によるものです。

このデータでモデルをトレーニングするには、テーブルからすべて (*) を選択し、ターゲット変数 (収入) の名前を label に変更し、ロジックを追加して「adults_log_reg」という名前のロジスティック回帰モデルを作成する SQL クエリを記述するだけです。

すべてのモデル オプションについては、こちらのドキュメントを参照してください。

  1. モデル「mydata.adults_log_reg」を作成する
  2. オプション(モデルタイプ= 'logistic_reg' ) AS
  3. *を選択、
  4. ad.income AS ラベル
  5. から
  6. `mydata.adults_data` 広告

データ テーブルの横のサイドバーに表示されるモデルをクリックすると、トレーニングのパフォーマンスの評価を確認できます。

> 画像は著者によるものです。

これで、モデルを使用して ML.PREDICT 関数で予測を行うことができます。

ファスタイ

Tensorflow などの人気のディープラーニング フレームワークは学習曲線が急峻で、初心者やデータ サイエンティスト以外の人が使いこなすのは難しいことがよく知られています。 fastai ライブラリは、わずか数行のコードでニューラル ネットワークをトレーニングできる高レベル API を提供します。

Fastai は Pytorch と連携して動作するため、使用する前に両方のライブラリをインストールする必要があります。

  1. pip pytorch をインストールする
  2. pip インストール fastai

fastai ライブラリには、テキストや画像などの構造化データと非構造化データの両方を処理するためのモジュールがあります。 このチュートリアルでは、fastai.tabular.all モジュールを使用して、以前に使用したワイン データセットの分類タスクを解決します。

PyCaret と同様に、fastai は埋め込みレイヤーを通じて非数値データ型の前処理を実行します。 データを準備するには、TabularDataLoaders ヘルパー関数を使用します。 ここでは、データ フレームの名前、列のデータ型、およびモデルで実行する前処理手順を指定します。

ニューラル ネットワークをトレーニングするには、以下に示すように tabular_learner() 関数を使用するだけです。

  1. dl = TabularDataLoaders.from_df (データ、 y_names = "type"
  2. cat_names = ['品質'],
  3. cont_names = ['固定酸度', '揮発酸度',
  4. 「クエン酸」、「残留糖分」、
  5. 「塩化物」、「遊離二酸化硫黄」、
  6. 「総二酸化硫黄」、「密度」、
  7. [[pH]、[硫酸塩]、[アルコール]]
  8. procs = [分類、不足部分を充填、正規化])

このコードを実行すると、パフォーマンス メトリックが表示されます。

> 画像は著者によるものです。

モデルを使用して予測を行うには、learning.predict(df.iloc[0]) を使用するだけです。

<<:  時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化

>>:  Pythonで完全な異常検出アルゴリズムをゼロから実装する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

CommScope Insights: データセンターが AI をより迅速かつコスト効率よく活用する方法

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発などのシーンが伴います。それほ...

...

アダムとイブ: ディープラーニングの問題を解決するための強力なツール

[[242433]] [51CTO.com クイック翻訳] 近年、ディープラーニングの波がインターネ...

新参者と大企業が直接会うとき、研究室なしではやっていけないことがよくある | T Guanhai

インタビューゲスト | アンジー・チュー、ロージー・チャン編集者 | ユン・チャオ海を観察する人は、...

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...

一般的な機械学習アルゴリズム11種の紹介

近年、需要の高さと技術の進歩により、機械学習の人気は大幅に高まっています。 データから価値を生み出す...

...

人工知能とはいったい何でしょうか?たぶん多くの人がこれを知らないでしょう!

今後10年間で、翻訳者、ジャーナリスト、アシスタント、警備員、運転手、販売員、カスタマーサービス、ト...

AIと機械学習プロジェクトのセキュリティを確保する方法

人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企...

AIは自動車でも加速しており、メルセデス・ベンツは車載音声アシスタントをChatGPTチャットボットに接続すると発表した。

6月16日のニュースによると、メルセデス・ベンツは木曜日、6月16日にテストプログラムを開始し、ア...

ビッグモデルの「錯覚」、この記事を読んでください

ビッグモデルの「幻想」がついに体系的にレビューされました! 49 ページの記事では、幻覚の定義、分類...

産業用ロボットは2021年に44.9%成長し、2022年の成長率は低下すると予想されている

産業用ロボットの年間成長率は44.9%でしたが、累積成長率は月ごとに低下しました。 Windのデータ...

...