機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開発し、そのモデルを運用可能な状態に展開するには、プログラミングに関する深い理解とその背後にあるアルゴリズムに関する十分な理解が必要です。
これにより、機械学習の使用が少人数のグループに限定され、解決できる問題の数も制限されます。 幸いなことに、ここ数年で、モデル開発に必要なコードの量を削減したり、場合によっては完全に排除したりするライブラリやツールが数多く登場しました。 これにより、アナリストなどのデータ サイエンティスト以外の人が機械学習のパワーを活用できるようになり、データ サイエンティストはより迅速にモデルのプロトタイプを作成できるようになります。 ここでは、機械学習用の私のお気に入りのローコード ツールをいくつか紹介します。 ピカレット PyCaret は、Scikit-learn や XGBoost などの一般的な機械学習ライブラリ用の Python ラッパーです。 わずか数行のコードでモデルを展開可能な状態に開発できます。 Pycaret は pip 経由でインストールできます。 より詳細なインストール手順については、PyCaret のドキュメントを参照してください。
PyCaret には、pycaret.datasets モジュールを使用して直接インストールできるパブリック データセットのリポジトリがあります。 完全なリストはここにありますが、このチュートリアルでは、「ワイン」データセットと呼ばれる分類タスクを解決するために非常に単純なデータセットを使用します。 PyCaret ライブラリには、次のような一般的な機械学習の問題をすべて解決するためのモジュールのセットが含まれています。
分類モデルを作成するには、pycaret.classification モジュールを使用する必要があります。 モデルの作成は非常に簡単です。 モデル ID をパラメータとして受け取り、create_model() 関数を呼び出すだけです。 サポートされているモデルとそれに対応する ID の完全なリストは、こちらで確認できます。 または、適切なモジュールをインポートした後、次のコードを実行して、使用可能なモデルのリストを表示することもできます。
> 分類に使用できるモデルのスナップショット。画像は著者によるものです。 create_model() を呼び出す前に、まず setup() 関数を呼び出して、機械学習実験に適切なパラメータを指定する必要があります。 ここでは、テストシーケンスの分割のサイズや、実験でクロス検証を実装するかどうかなどを指定できます。
create_model() 関数は、データ型を自動的に推測し、デフォルトのメソッドを使用してそれらのデータ型を処理します。 create_model() を実行すると、推論されたデータ型を示す次の出力が表示されます。 > 画像は著者によるものです。 PyCaret は、カテゴリ変数や欠損値の補完などの処理に、デフォルトの前処理手法セットを使用します。 ただし、データに対してよりカスタマイズされたソリューションが必要な場合は、モデル設定でパラメーターとして指定できます。 以下の例では、numeric_imputation パラメータを変更して中央値を使用しました。
パラメータに満足したら、Enter キーを押すとモデルが完成し、パフォーマンス結果のグリッドが表示されます。 > 画像は著者によるものです。 PyCaret には、モデルのパフォーマンスをグラフィカルに表示する plot_model() 関数もあります。
> 画像は著者によるものです。 このチュートリアルでは、PyCaret ライブラリを使用したモデル トレーニングの基本について説明しました。 機能エンジニアリング、モデルチューニング、永続性、デプロイメントなど、完全なローコード機械学習ソリューションを提供する機能とモジュールは他にも多数あります。 BigQuery ML 2018 年に、Google は BigQuery ML という新しいツールをリリースしました。 BigQuery は、データ アナリストやデータ サイエンティストが大量のデータに高速にアクセスできるように設計された、Google のクラウド データ ウェアハウス ソリューションです。 BigQuery ML は、SQL のみを使用して BigQuery データ ウェアハウスから直接機械学習モデルを開発できるツールです。 BigQueryML はリリース以来、分類、回帰、クラスタリングなど、最も一般的な機械学習タスクをサポートするまで成長しました。 独自の Tensforflow モデルをインポートしてツールで使用することもできます。 私の経験から言うと、BigQueryML はモデルのプロトタイピングを加速するのに非常に便利なツールであり、単純な問題を解決するための本番環境ベースのシステムとしても使用できます。 このツールを簡単に紹介するために、Adult Income Dataset というデータセットを使用して、BigQuery ML でロジスティック回帰分類モデルを構築および評価する方法を説明します。 データセットは UCI 機械学習リポジトリで入手でき、次の Python コードを使用して CSV ファイルとしてダウンロードします。
以下は、データをダウンロードして CSV ファイルとしてエクスポートするスクリプトです。 Google Cloud Platform (GCP) アカウントをお持ちでない場合は、ここで作成できます。 最初にサインアップすると、以下の例を試すのに十分な 300 ドルの無料クレジットが付与されます。 GCP に入ったら、ドロップダウン メニューから BigQuery Web UI に移動します。 GCP を初めて使用する場合は、プロジェクトを作成し、BigQuery で設定する必要があります。ここでは、Google クイック スタート ガイドに概要が詳しく記載されています。 先ほどダウンロードした CSV ファイルを GCP に直接アップロードしてテーブルを作成できます。 > 画像は著者によるものです。 サイドバーのテーブル名をクリックし、「プレビュー」を選択すると、テーブル内のデータを検査できます。 現在、成人向けのデータは BigQuery にあります。 > 画像は著者によるものです。 このデータでモデルをトレーニングするには、テーブルからすべて (*) を選択し、ターゲット変数 (収入) の名前を label に変更し、ロジックを追加して「adults_log_reg」という名前のロジスティック回帰モデルを作成する SQL クエリを記述するだけです。 すべてのモデル オプションについては、こちらのドキュメントを参照してください。
データ テーブルの横のサイドバーに表示されるモデルをクリックすると、トレーニングのパフォーマンスの評価を確認できます。 > 画像は著者によるものです。 これで、モデルを使用して ML.PREDICT 関数で予測を行うことができます。 ファスタイ Tensorflow などの人気のディープラーニング フレームワークは学習曲線が急峻で、初心者やデータ サイエンティスト以外の人が使いこなすのは難しいことがよく知られています。 fastai ライブラリは、わずか数行のコードでニューラル ネットワークをトレーニングできる高レベル API を提供します。 Fastai は Pytorch と連携して動作するため、使用する前に両方のライブラリをインストールする必要があります。
fastai ライブラリには、テキストや画像などの構造化データと非構造化データの両方を処理するためのモジュールがあります。 このチュートリアルでは、fastai.tabular.all モジュールを使用して、以前に使用したワイン データセットの分類タスクを解決します。 PyCaret と同様に、fastai は埋め込みレイヤーを通じて非数値データ型の前処理を実行します。 データを準備するには、TabularDataLoaders ヘルパー関数を使用します。 ここでは、データ フレームの名前、列のデータ型、およびモデルで実行する前処理手順を指定します。 ニューラル ネットワークをトレーニングするには、以下に示すように tabular_learner() 関数を使用するだけです。
このコードを実行すると、パフォーマンス メトリックが表示されます。 > 画像は著者によるものです。 モデルを使用して予測を行うには、learning.predict(df.iloc[0]) を使用するだけです。 |
<<: 時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化
>>: Pythonで完全な異常検出アルゴリズムをゼロから実装する
OpenCV と Python を使用してライブ ビデオ ストリームでディープラーニング オブジェク...
半導体メーカーのインテルは本日第3四半期の業績を発表し、同社の株価は時間外取引で約8%上昇した。一方...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[248243]]北京時間31日、マイクロソフトが英国のビジネスリーダーと従業員5,000人を対象...
サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...
[51CTO.com からのオリジナル記事]現在、ますます多くの企業が機械学習や人工知能に多額の資金...
大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...
私は51CTOアカデミー講師の唐玉迪です。51CTOアカデミーの「4.20 ITリチャージフェスティ...
Language I/O のプロダクト担当副社長である Chris Jacob が、進化する AI ...
[[411126]]この記事はWeChatの公開アカウント「Python Chinese Commu...
[[110550]]夏休みの間、シャオ・ヘンはいくつかの都市を旅行する予定です。下の図に示すように、...
最近、アリババDAMOアカデミーは、2022年に最も注目に値する最先端技術トップ10をまとめました。...