初心者の機械学習エンジニアが犯しがちな6つの間違い

機械学習では、製品やソリューションを構築する方法が多数あり、それぞれが異なることを前提としています。多くの場合、どの仮定が合理的であるかを識別する方法が明らかではありません。機械学習を初めて学ぶ人は、後から考えれば愚かな間違いを犯してしまうことがよくあります。新人機械学習エンジニアが犯しがちな最も一般的な間違いのリストをまとめました。これらのよくある間違いから学び、真の価値をもたらすより堅牢なソリューションを作成できるようになることを願っています。

[[285872]]

デフォルトの損失関数

平均二乗誤差は非常に大きいです。これは確かに驚くべきデフォルトですが、実際には、このような既製の損失関数は、解決しようとしているビジネス上の問題にはほとんど適していません。

不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、偽陰性にペナルティを課すことです。平均二乗誤差を使用すると適切な結果が得られるかもしれませんが、最良の結果は決して得られません。

要点: 常に、ソリューションの目的に厳密に一致するカスタム損失関数を構築します。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は最初のチュートリアルを完了すると、すぐに各ユースケースで学んだのと同じアルゴリズムを使い始めます。これはよく知られたものであり、他のアルゴリズムと同じくらい効果的だと彼らは考えています。これは悪い結果につながる誤った仮定です。

データによってモデルが選択されます。データを前処理したら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがそれほど効果的でないかについて、よく理解できるようになります。

要点: 同じアルゴリズムを何度も使用している場合は、おそらく最良の結果が得られていないことを意味します。

外れ値を無視する

外れ値は、状況に応じて重要になる場合もあれば、完全に無視される場合もあります。汚染予測を例に挙げてみましょう。大気汚染は急激に増加することがあるため、それを観察してその原因を理解することは良い考えです。特定の種類のセンサーエラーによって発生した外れ値の場合は、それを無視してデータから削除しても問題ありません。

モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost はこれらの外れ値を「難しい」ケースとして扱い、それらに不釣り合いな重み付けをしますが、決定木は各外れ値を単純に誤分類として扱う場合があります。

重要: 作業を開始する前に、必ずデータを注意深く調べて、外れ値を無視するか、さらに詳しく調べるかを判断してください。

適切な処理サイクル特性がない

一日の時間、曜日、月、風向きはすべて周期的です。多くの新しい機械学習エンジニアは、これらの特徴は、互いに近くて遠くない 23 時間や 0 時間などの情報を保持できる表現に変換することはできないと考えています。

前の例に従って、この問題を処理する最善の方法は、周期的な特徴を (x,y) の円形座標で表せるように sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 は当然ながら数値的に隣接しています。

重要なポイント: 循環的な特徴があり、それを変換しない場合は、モデルにガベージデータを入力することになります。

L1/L2 正規化を行うが標準化は行わない

L1 および L2 正則化は大きな係数には適しておらず、線形回帰またはロジスティック回帰を正則化するための一般的な方法です。ただし、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することの重要性を認識していません。

トランザクションを特徴とする線形回帰モデルがあるとします。すべての機能を正規化し、それらを同等の立場に置いて、すべての機能にわたって正規化が同じになるようにします。一部の特性をセントで表現し、他の特性をドルで表現しないでください。

まとめ: 正規化は素晴らしいが、特徴を正規化しないと頭痛の種になる可能性がある

線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する

線形回帰では通常、各係数の p 値が返されます。これらの係数により、機械学習の初心者は、線形モデルの場合、係数の値が大きいほど、特徴が重要になると考えがちです。変数のスケーリングによって係数の絶対値が変化するため、これは正しくありません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性の単純な解釈の信頼性は低くなります。

要点: 結果にとって最も重要な特徴を理解することは重要ですが、係数を見るだけでわかるとは思わないでください。係数だけでは全体像がわからないことがよくあります。

いくつかのプロジェクトを実行して良い結果を得ると、100万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしているということを証明できる結果が出ていますが、他の業界と同様に、細部にこそ問題があり、手の込んだ計画の中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうためのものです。良い結果を得るには、プロセスに従い、よくある間違いをしていないか再確認することが重要です。

<<: 機械学習のユニットテスト方法

>>: データサイエンスの面接で必ず知っておくべき 5 つの質問