機械学習プロジェクトに必須: エンドツーエンドの機械学習プロジェクト開発プロセスのタスクリスト

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

重要なプロジェクトを作成するときは、他の人から学んだことや仕事で気づいたことすべてを文書化します。これは私にとって必須です。プロジェクトでは処理すべきことが非常に多く（議論、準備、質問、モックアップ、微調整など）、忘れてしまいやすいからです。

タスクリストは、開発者が次のステップを完了できるようにガイドし、各タスクが正常に実行されたかどうかを確認するように促します。出発点を見つけるのが難しい場合もありますが、タスクリストは開発者が適切なソースから適切な情報 (データ) を取得し、関係を構築して関連する洞察を明らかにするのに役立ちます。

ベストプラクティスは、プロジェクトのあらゆる部分をチェックすることです。アトゥル・ガワンデは『チェックリスト宣言』の中でこう述べています。「私たちが知っていることの量と複雑さは、そのメリットを正確に、安全に、そして確実に伝える私たちの能力を上回っています。」

したがって、この簡潔で明確なプロジェクトタスクリストを確認してください。作業負荷を軽減し、成果を向上させるのに役立ちます。

機械学習プロジェクトのチェックリスト

ほぼすべての機械学習プロジェクトで実行する必要がある 8 ～ 10 のステップがあり、そのうちのいくつかは順番に交互に実行できます。

1. 問題を大まかに定義する

問題のビジネスロジックを理解して明確にするには、タスクリストで次の情報を提供する必要があります。

2. データソースを特定し、データを取得する

ほとんどの場合、データがあり、受信したデータをより有効に活用するために関連する質問を定義する場合は、最初のステップの前にこのステップを実行できます。

問題の定義に基づいて、データベース、データリポジトリ、センサーなどのデータのソースを決定する必要があります。アプリケーションを本番環境にデプロイするには、受信データがシステムに流れ続けるようにデータパイプラインを開発して、この手順を自動化する必要があります。

[[336009]]

画像ソース: unsplash

3. データの初期調査

このステップでは、研究結果、予測、目標に影響を与えるすべてのデータ機能が検出されます。膨大なデータブロックがある場合は、この手順でサンプリングして、分析をより管理しやすくします。以下の手順に従ってください。

4. データを準備するための探索的データ分析

次は、データ変換、クリーニング、機能選択/設計、スケーリングの機能を定義して、前のステップで得られた結果を実装します。

画像ソース: unsplash

5. ベースラインモデルを開発し、他のモデルを検討して最適なモデルを選択する

他のすべての複雑な機械学習モデルのベースラインとして機能する非常に基本的なモデルを作成します。次の手順に従ってください。

デフォルトのパラメータを使用して、Naive Bayes、線形回帰、サポートベクターマシン (SVM) などの一般的に使用される機械学習モデルをトレーニングします。
ベースラインと他のモデルを使用して各モデルのパフォーマンスを測定し、比較します。
各モデルは N 分割交差検証を使用して展開され、N 分割のパフォーマンス指標の平均と標準偏差が計算されます。
ターゲットに最も大きな影響を与える特性を研究します。
モデルが予測する際に発生するエラーの種類を分析します。
さまざまな方法で機能を設計します。
上記の手順を数回繰り返して（試行錯誤して）、正しい機能を正しい形式で使用していることを確認します。
パフォーマンス測定に基づいて最適なモデルをリストします。

6. 選ばれたモデルを微調整し、アンサンブル法をチェックする

これは、最終的な解決策に近づくための重要なステップの 1 つです。主な手順は次のとおりです。