新人機械学習エンジニアが犯しがちな6つの間違い

機械学習やデータサイエンスのプロジェクトに取り組む際に、初心者がよく犯す間違いにはどのようなものがあるでしょうか? ここでは、最も一般的な間違いをリストします。

[[225258]]

機械学習では、製品やソリューションを構築する方法が多数あり、それぞれに異なる前提があります。多くの場合、どの仮定が合理的であるかを判断して特定するのは簡単ではありません。機械学習を初めて使用する人は、後から考えれば間違っていたと思われるような間違いを犯すことがよくあります。この記事では、新しい機械学習エンジニアが犯しがちな間違いのリストを作成します。これらのよくある間違いから学び、真の価値をもたらすより堅実なソリューションを作成できるようになることを願っています。

デフォルトの損失関数を当然のこととして受け入れる

始めたばかりのときは、平均二乗誤差は優れており、素晴らしいデフォルトになる可能性がありますが、実際のアプリケーションでは、この設計されていない損失関数が最適なソリューションを提供することはほとんどありません。

不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、報告不足にペナルティを課すことです。一方、平均二乗誤差を使用すると良い結果が得られるかもしれませんが、最も高度な結果は得られません。

機械学習エンジニアになる | ステップ 3: ツールを選択する使用できるさまざまな ML ツールについて詳しくは、この記事をご覧ください。

要点: 常に、ソリューションの目標にぴったり一致するカスタム損失関数を構築してください。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は最初のチュートリアルを完了すると、すぐに、想像できるあらゆるユースケースで、学んだのと同じアルゴリズムを使い始めます。それは馴染み深いものであり、他のアルゴリズムと同じように機能するだろうと彼らは考えました。これは誤った仮定であり、悪い結果につながる可能性があります。

データによってモデルが選択されます。データが前処理されたら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがあまり効果的でないかについて、適切なアイデアが得られます。

[[225259]]

機械学習エンジニアになる | ステップ 2: プロセスを選択するこの投稿をチェックして、プロセスを習得してください。

重要: 同じアルゴリズムを何度も使用している場合は、最良の結果が得られていない可能性があります。

外れ値を無視する

コンテキストに応じて、外れ値は重要になるか、完全に無視される可能性があります。たとえば、汚染予測では、大気汚染が急激に増加する可能性があり、それを把握して、なぜ発生するかを理解することが重要です。何らかのセンサーエラーによって異常が発生した場合は、それを無視してデータから削除しても安全です。

モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost は外れ値に大きな重みを置きますが、決定木は各外れ値を単純に誤った分類として扱う場合があります。

機械学習エンジニアになる | ステップ 2: プロセスを選択し、ベストプラクティスでこの間違いを回避する

要点: 作業を開始する前に、常にデータを注意深く調べ、外れ値を無視するか、注意深く調べるかを決定します。

周期的な特徴を正しく処理していない

一日の時間、曜日、月、風向きなどはすべて周期的な特徴の例です。多くの新人機械学習エンジニアは、これらの特徴を、23 時間と 0 時間が互いに近く、離れていないなどの情報を保持できる表現に変換できるとは考えていません。

時間を例に挙げると、これを処理する最善の方法は、周期的な特徴を円の (x,y) 座標として表すために、sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 の時間が、当然ながら数字的に隣り合っています。

多くの人がコード例を求めています。ここにあります

重要なポイント: 周期的な特徴があり、それを変換しない場合は、ジャンクデータをモデル化します。

標準化なしのL1/L2正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法ですが、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することが重要であることを認識していません。

トランザクションが特徴である線形回帰モデルがあるとします。すべての関数を標準化し、それらを同等の立場に置くことで、すべての関数にわたって正規化が同じになります。

まとめ: 正規化は素晴らしいが、標準化された関数がない場合には問題になることがある

線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する

線形回帰関数は通常、各係数の p 値を返します。多くの場合、これらの係数により、初心者の機械学習エンジニアは、線形モデルの場合、係数値が大きいほど、機能が重要になると考えます。変数のサイズによって係数の絶対値が変わるため、このようなケースはめったに発生しません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴の共線性の可能性が高くなり、特徴の重要性の単純な解釈の信頼性が低下します。

要点: どの機能が結果に大きな影響を与えるかを知ることは重要ですが、係数を見ることができると想定しないでください。彼らは多くの場合、「物語」の全体を語っていません。

いくつかのプロジェクトを実行して良い結果を得ることができれば、100万ドルを獲得できる可能性があります。一生懸命働いて、結果的に素晴らしい仕事をしていることが判明しますが、どんな職業でもそうですが、細部にこそ悪魔が潜んでおり、空想的な筋書きの中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、単に読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうことを目的としています。良い結果を得るには、プロセスに従い、よくある間違いをしていないことを常に再確認することが重要です。

[[225260]]

この記事が役に立った場合は、私の「機械学習エンジニア | ステップ 2: 選択プロセス」の記事から多くのことを学ぶことができます。プロセスのトラブルシューティングに役立ち、より単純な間違いを検出してより良い結果を得ることができます。

<<: Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。

>>: 機械学習に関する9つの誤解