機械学習におけるよくある間違い

序文

エンジニアリングでは、キーバリューストアを構築する方法が複数あり、それぞれの設計では使用パターンについて異なる仮定が立てられます。統計モデリングでは、分類を構築するためのさまざまなアルゴリズムがあり、それぞれがデータセットについて異なる仮定を立てます。

少量のデータを扱う場合は、できるだけ多くのアルゴリズムを試し、実験コストが低いときに最適なアルゴリズムを選択するのが合理的です。しかし、「ビッグデータ」に遭遇した場合、データの予備分析を実施し、それに応じてモデリングプロセスを設計する必要があります。（例：前処理、モデリング、最適化アルゴリズム、評価、製品化）

世の中には数多くのアルゴリズムが存在し、特定のモデリング問題を解決する方法も数十通りあります。各モデルは異なることを前提としており、それをどのように使用し、どの前提が妥当であるかを検証するかは明らかではありません。業界では、ほとんどの実務者は、データに最適なモデリングアルゴリズムを選択するのではなく、最も使い慣れたモデリングアルゴリズムを選択します。次に、私たちがよく見落としたり、間違えたりする点についていくつか共有します。コメントをよろしくお願いします！（注：タイトルは英語ですが、機械学習アルゴリズムの本来の意味に近い気がします）

1. デフォルトの損失関数を当然のこととして受け入れる

損失関数は機械学習アルゴリズムの中核です。損失関数によって、最終的に最適化されたパラメータとモデル自体が決定されます。ビジネスシナリオが異なれば、最適化の目標も異なります。多くの実践者は、デフォルトの損失関数 (平均二乗誤差など) を使用してトレーニングし、最適なモデルを選択します。実際には、既製の損失関数がビジネス目標と一致することはほとんどありません。不正行為検出を例に挙げてみましょう。不正な取引を検出しようとする場合、ビジネス目標は不正による損失を最小限に抑えることです。バイナリ分類器の既存の損失関数は、偽陽性と偽陰性も測定します。ビジネス目標に合わせるために、損失関数は、偽陽性よりも偽陰性に多くのペナルティを課すだけでなく、金額に比例して偽陰性ごとにペナルティを課す必要があります。

さらに、不正検出のデータセットには、非常に不均衡なラベルが含まれていることがよくあります。この場合、バイアス損失関数はまれなケースを優先します (たとえば、アップ/ダウンサンプリングによる)。

2. 非線形相互作用には単純な線形モデルを使用する

これもよくある間違いです。バイナリ分類問題を構築するとき、多くの人はロジスティック回帰をすぐに思い浮かべるでしょう。その理由は単純で、ロジスティック回帰は効率的で実装が簡単だからです。ただし、見落とされがちな点の 1 つは、ロジスティック回帰自体が線形モデルであり、非線形相互作用間の予測は手動でコーディングする必要があることです。ただし、実際のデータが線形に分離可能かどうかはわかりません。高次元データではデータが線形に分離可能かどうかを判断するのはほとんど非現実的な作業であるため、私の個人的な経験では、最初にロジスティック回帰を使用して分類を行うことがよくありますが、同時に、決定木、または SVM などの非線形モデルを使用してデータを再分類して比較します。

不正検出に戻ると、「請求先住所 = 配送先住所、取引金額 < 50 ドル」などの高次のインタラクティブ機能には、優れたモデルパフォーマンスが必要です。したがって、高次のインタラクティブ機能のメリットを享受できる SVM カーネル関数やツリーベースの分類などの非線形モデルを優先する必要があります。

3. 外れ値を忘れる

外れ値というのは面白いもので、好きになったり嫌いになったりします。状況に応じて、特別な注意を払う必要がある場合もあれば、完全に無視できる場合もあります。収益予測を例に挙げてみましょう。異常な収益の急増に気付いた場合は、特に注意して急増の原因を突き止めることをお勧めします。異常が機械的エラー、測定エラー、またはその他の原因によるものである場合には、これは当てはまりません。データをモデリングアルゴリズムに入力する前に、これらの外れ値を除外することをお勧めします。

一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、AdaBoost はこれらの外れ値を「ハードサンプル」として扱い、外れ値に大きな重みを付けることができますが、決定木は各外れ値を単純に誤分類として計算できます。データセットに多数の外れ値が含まれている場合は、堅牢なモデルアルゴリズムを使用して外れ値をターゲットにするか、外れ値をフィルターで除外することが重要です。

注: 他の人の言葉を参照してください。

統計の首都で、私に大きな刺激を与えた記事を読んだことを覚えています。その記事には、以前は外れ値を直接破棄することに積極的だったが、外れ値はエラー値ではなく、実際の状況の現れでもあることを忘れていたと書かれていました。外れ値を異常だと考えてしまうのは、単にデータ量が十分でないからです。記事では、コンピュータを使用してガウス分布をシミュレートする場合、N 標準偏差から外れるデータポイントもいくつかシミュレートされるが、これらのポイントを削除するとガウス分布ではなくなるため、これらが外れ値であるとは言えないという例も示されています。したがって、多くの場合、外れ値は破棄するだけでなく、十分な注意と分析が必要になります。

ただし、外れ値がエラー値であるかどうかにも注意する必要があります。エラー値である場合は、これらのエラーが実際のモデル効果に影響を与えることが多いため、それを除去する方法を見つける必要があります。トレーニングデータに外れ値が含まれている場合は、モデルの感度を考慮する必要があります。たとえば、AdaBoost と Kmeans は外れ値に対して非常に敏感な機械学習モデルです。

4. n<<pの場合は高分散モデルを使用する（高分散モデルの使用）

サポートベクターマシンは、最も高度な既存のモデリングアルゴリズムの 1 つであり、その最大の特徴の 1 つは、さまざまなカーネル関数を持つモデルに適応できることです。 SVM カーネル関数は、既存の特徴を自動的に組み合わせて、より豊富な特徴空間を形成する方法と考えることができます。この単純さのため、ほとんどの人は SVM モデルをトレーニングするときにデフォルトでカーネル関数を使用します。ただし、医療データなどの業界ではよくあるデータ n<<p (サンプル数 << 特徴数) の場合、特徴空間が豊富になると、データが過剰適合するリスクが高くなります。実際、高分散モデルは完全に避けるべきです (n<<p)。

注: SVM カーネル関数の重要な概念は次元の拡張です。n << p の場合でも SVM を使用してモデルを選択すると、p は必然的にさらに増加し、特徴パラメータの自由変数が増加し、分類効果に大きな影響を与えることになります。

5. 標準化なしの L1/L2/… 正則化 (正則化前に標準化なし)

L1 または L2 を適用して大きな係数にペナルティを課すことは、線形回帰またはロジスティック回帰を正規化する一般的な方法です。しかし、多くの人は、これらの正規化を適用する前に特徴を正規化することの重要性を認識していません。

不正検出に戻って、取引量を特徴とする線形回帰モデルを想像してください。正規化を行わない場合、取引金額がドル単位の場合、適合係数は単位がセントの場合よりも約 100 倍大きくなります。正規化では、L1/L2 はより大きな係数をペナルティするため、単位が USD 取引額の場合はペナルティが課せられます。したがって、正規化は偏りがあり、小規模な特徴にペナルティを課す傾向があります。この問題を緩和するために、すべての特徴は前処理ステップとして正規化されます。

6. 多重共線予測変数を考慮せずに線形モデルを使用する

真のモデルが y = X1+X2 であると仮定して、2 つの変数 X1 と X2 を持つ線形モデルを構築することを想像してください。理想的には、観測データに少量のノイズがある場合、線形回帰ソリューションによって真のモデルが回復されます。ただし、X1 と X2 が同一線上にある場合、y=2*X1、y=3*X1-X2、または y=100*X1-99*X2 という関係は、ほとんどの最適化アルゴリズムに適しています。

この問題は推定値に偏りを生じさせないため、おそらく有害ではないでしょう。しかし、これによって問題が悪条件になり、係数の重みが解釈できなくなります。

7. 線形回帰またはロジスティック回帰からの係数の絶対値を特徴の重要度として解釈する

既存の線形回帰分析の多くはp値を返すため

係数のP値はそれぞれ返されます。

多くの人は、線形モデルでは、係数の絶対値が大きいほど、対応する特徴が重要になると信じています。これは、次の理由により、ほとんど当てはまりません。

変数のスケールを変更すると、係数の絶対値が変わります。

特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。

さらに、データセットにはより多くの特徴があり、特徴の共線性の可能性が高くなり、係数を使用して特徴の重要性を解釈する信頼性は低くなります。

<<: 機械学習初心者からマスターまで

>>: ディープラーニングの「ディープ」とはどういう意味ですか?