機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]

デフォルトの損失関数は当然使用される

始めたばかりのときは、損失関数として平均二乗誤差がデフォルトの選択肢として適しています。しかし、現実世界の問題に対処する場合、そのような設計されていない損失関数が最適な解決策を与えることはほとんどありません。

たとえば、不正行為の検出を考えてみましょう。真のビジネス目標に合わせるには、不正行為による損失額に比例して、偽陰性にペナルティを課す必要があります。平均二乗誤差を使用すると適切な結果が得られますが、現時点では最良の結果にはなりません。

要点: 損失関数を毎回カスタマイズして、目的に厳密に一致するようにします。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は、入門チュートリアルを完了すると、すべてのケースで同じアルゴリズムを使い始めます。これはよくあることであり、彼らはこのアルゴリズムが他のアルゴリズムと同じように機能すると考えています。これは誤った仮定であり、最終的には悪い結果につながります。

解決策は、データにモデルを選択させることです。データを前処理したら、それを複数の異なるモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルが効果的でないかを学びます。

重要なポイント: 同じアルゴリズムを使い続けると、結果が最善ではなくなる可能性があります。

外れ値を無視する

状況に応じて、外れ値は重要になる場合もあれば、無視される場合もあります。収益予測を例にとると、収益は突然劇的に変化することがあります。この現象を観察し、その理由を理解することは役に立ちます。場合によっては、何らかのエラーによって外れ値が発生することがあります。その場合は、その外れ値を安全に無視してデータから削除できます。

モデルの観点から見ると、一部のモデルは外れ値に対してより敏感です。 Adaboost を例にとると、Adaboost は外れ値を重要な例として扱い、大きな重み付けを行いますが、決定木は外れ値を単純に誤った分類として扱う場合があります。

重要なポイント: 各作業を開始する前に、データを注意深く調べて、外れ値を無視するかどうかを決定します。決定できない場合は、さらに注意深く調べます。

周期的な特徴が正しく処理されていない

1 日の 24 時間、1 週間の 7 日間、1 年の 12 か月、風向きはすべて周期的な特徴です。機械学習に不慣れなエンジニアの多くは、これらの特徴を表現に変換することで、23:00 と 0:00 の近さなどの情報を保持できることを知りません。

時間を例にとると、それを処理する最善の方法は、その sin と cos を計算して、周期的な特徴を円の (x,y) 座標として表すことです。このように表現される時間では、23:00 と 0:00 は単に数字的に隣り合っている 2 つの数字であり、それだけです。

重要なポイント: 研究中に周期的な特徴に遭遇しても、それを表現に変換しないと、モデルにジャンクデータが追加されることになります。

標準化されていない L1/L2 正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法です。しかし、多くの機械学習エンジニアは、正規化を使用する前に特徴を正規化することの重要性を認識していません。

特徴の 1 つが「取引金額」である線形回帰モデルがあるとします。取引金額が米ドルの場合、その係数はセント単位の係数の 100 倍になります。これによりバイアスが生じ、モデルが実際には小さい特徴にペナルティを課す可能性があります。この問題を回避するには、すべての特徴に対して正規化が等しくなるように特徴を正規化する必要があります。

重要なポイント: 正規化は便利ですが、特徴を正規化しないと、非常に厄介な問題が発生します。

線形回帰またはロジスティック回帰の係数の絶対値を特徴の重要性を判断する基準として使用する

多くの既製の線形回帰モデルは各係数の p 値を返しますが、初心者の機械学習エンジニアの中には、線形モデルの場合、係数の値が大きいほど、特徴の重要性が高くなると考える人もいます。変数のサイズによって係数の絶対値が変わるため、これは正確ではありません。特徴が共線的である場合、係数は 1 つの特徴から別の特徴にシフトできます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性に関するこの単純な解釈の信頼性は低くなります。

重要なポイント: どの機能が結果に最も大きな影響を与えるかを知ることは重要ですが、係数だけではそれを判断することはできません。

いくつかのプロジェクトを実行して良い結果を得ると、100 万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしたという結果が示されますが、どの業界でもそうですが、細部にこそ問題があり、最も洗練されたチャートでも偏差やエラーが隠れている場合があります。この記事のエラーのリストは網羅的ではありませんが、読者にソリューションに潜む微妙な問題を考えるよう促すことを目的としています。良い結果を得るためには、プロセスに従って作業し、よくある間違いが起こらないように注意深くチェックすることが重要です。

<<: アクセンチュア：AIが新しいUIとなり、7年後にはスクリーンレス時代が到来

>>: GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました