機械学習におけるよくある間違い

機械学習におけるよくある間違い

序文

エンジニアリングでは、キーバリューストアを構築する方法が複数あり、それぞれの設計では使用パターンについて異なる仮定が立てられます。統計モデリングでは、分類を構築するためのさまざまなアルゴリズムがあり、それぞれがデータセットについて異なる仮定を立てます。

少量のデータを扱う場合は、できるだけ多くのアルゴリズムを試し、実験コストが低いときに最適なアルゴリズムを選択するのが合理的です。しかし、「ビッグデータ」に遭遇した場合、データの予備分析を実施し、それに応じてモデリングプロセスを設計する必要があります。 (例:前処理、モデリング、最適化アルゴリズム、評価、製品化)

世の中には数多くのアルゴリズムが存在し、特定のモデリング問題を解決する方法も数十通りあります。各モデルは異なることを前提としており、それをどのように使用し、どの前提が妥当であるかを検証するかは明らかではありません。業界では、ほとんどの実務者は、データに最適なモデリング アルゴリズムを選択するのではなく、最も使い慣れたモデリング アルゴリズムを選択します。次に、私たちがよく見落としたり、間違えたりする点についていくつか共有します。コメントをよろしくお願いします!(注:タイトルは英語ですが、機械学習アルゴリズムの本来の意味に近い気がします)

1. デフォルトの損失関数を当然のこととして受け入れる

損失関数は機械学習アルゴリズムの中核です。損失関数によって、最終的に最適化されたパラメータとモデル自体が決定されます。ビジネス シナリオが異なれば、最適化の目標も異なります。多くの実践者は、デフォルトの損失関数 (平均二乗誤差など) を使用してトレーニングし、最適なモデルを選択します。実際には、既製の損失関数がビジネス目標と一致することはほとんどありません。不正行為検出を例に挙げてみましょう。不正な取引を検出しようとする場合、ビジネス目標は不正による損失を最小限に抑えることです。バイナリ分類器の既存の損失関数は、偽陽性と偽陰性も測定します。ビジネス目標に合わせるために、損失関数は、偽陽性よりも偽陰性に多くのペナルティを課すだけでなく、金額に比例して偽陰性ごとにペナルティを課す必要があります。

さらに、不正検出のデータセットには、非常に不均衡なラベルが含まれていることがよくあります。この場合、バイアス損失関数はまれなケースを優先します (たとえば、アップ/ダウン サンプリングによる)。

2. 非線形相互作用には単純な線形モデルを使用する

これもよくある間違いです。バイナリ分類問題を構築するとき、多くの人はロジスティック回帰をすぐに思い浮かべるでしょう。その理由は単純で、ロジスティック回帰は効率的で実装が簡単だからです。ただし、見落とされがちな点の 1 つは、ロジスティック回帰自体が線形モデルであり、非線形相互作用間の予測は手動でコーディングする必要があることです。ただし、実際のデータが線形に分離可能かどうかはわかりません。高次元データではデータが線形に分離可能かどうかを判断するのはほとんど非現実的な作業であるため、私の個人的な経験では、最初にロジスティック回帰を使用して分類を行うことがよくありますが、同時に、決定木、または SVM などの非線形モデルを使用してデータを再分類して比較します。

不正検出に戻ると、「請求先住所 = 配送先住所、取引金額 < 50 ドル」などの高次のインタラクティブ機能には、優れたモデル パフォーマンスが必要です。したがって、高次のインタラクティブ機能のメリットを享受できる SVM カーネル関数やツリーベースの分類などの非線形モデルを優先する必要があります。

3. 外れ値を忘れる

外れ値というのは面白いもので、好きになったり嫌いになったりします。状況に応じて、特別な注意を払う必要がある場合もあれば、完全に無視できる場合もあります。収益予測を例に挙げてみましょう。異常な収益の急増に気付いた場合は、特に注意して急増の原因を突き止めることをお勧めします。異常が機械的エラー、測定エラー、またはその他の原因によるものである場合には、これは当てはまりません。データをモデリング アルゴリズムに入力する前に、これらの外れ値を除外することをお勧めします。

一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、AdaBoost はこれらの外れ値を「ハード サンプル」として扱い、外れ値に大きな重みを付けることができますが、決定木は各外れ値を単純に誤分類として計算できます。データ セットに多数の外れ値が含まれている場合は、堅牢なモデル アルゴリズムを使用して外れ値をターゲットにするか、外れ値をフィルターで除外することが重要です。

注: 他の人の言葉を参照してください。

統計の首都で、私に大きな刺激を与えた記事を読んだことを覚えています。その記事には、以前は外れ値を直接破棄することに積極的だったが、外れ値はエラー値ではなく、実際の状況の現れでもあることを忘れていたと書かれていました。外れ値を異常だと考えてしまうのは、単にデータ量が十分でないからです。記事では、コンピュータを使用してガウス分布をシミュレートする場合、N 標準偏差から外れるデータ ポイントもいくつかシミュレートされるが、これらのポイントを削除するとガウス分布ではなくなるため、これらが外れ値であるとは言えないという例も示されています。したがって、多くの場合、外れ値は破棄するだけでなく、十分な注意と分析が必要になります。

ただし、外れ値がエラー値であるかどうかにも注意する必要があります。エラー値である場合は、これらのエラーが実際のモデル効果に影響を与えることが多いため、それを除去する方法を見つける必要があります。トレーニング データに外れ値が含まれている場合は、モデルの感度を考慮する必要があります。たとえば、AdaBoost と Kmeans は外れ値に対して非常に敏感な機械学習モデルです。

4. n<<pの場合は高分散モデルを使用する(高分散モデルの使用)

サポート ベクター マシンは、最も高度な既存のモデリング アルゴリズムの 1 つであり、その最大の特徴の 1 つは、さまざまなカーネル関数を持つモデルに適応できることです。 SVM カーネル関数は、既存の特徴を自動的に組み合わせて、より豊富な特徴空間を形成する方法と考えることができます。この単純さのため、ほとんどの人は SVM モデルをトレーニングするときにデフォルトでカーネル関数を使用します。ただし、医療データなどの業界ではよくあるデータ n<<p (サンプル数 << 特徴数) の場合、特徴空間が豊富になると、データが過剰適合するリスクが高くなります。実際、高分散モデルは完全に避けるべきです (n<<p)。

注: SVM カーネル関数の重要な概念は次元の拡張です。n << p の場合でも SVM を使用してモデルを選択すると、p は必然的にさらに増加し​​、特徴パラメータの自由変数が増加し、分類効果に大きな影響を与えることになります。

5. 標準化なしの L1/L2/… 正則化 (正則化前に標準化なし)

L1 または L2 を適用して大きな係数にペナルティを課すことは、線形回帰またはロジスティック回帰を正規化する一般的な方法です。しかし、多くの人は、これらの正規化を適用する前に特徴を正規化することの重要性を認識していません。

不正検出に戻って、取引量を特徴とする線形回帰モデルを想像してください。正規化を行わない場合、取引金額がドル単位の場合、適合係数は単位がセントの場合よりも約 100 倍大きくなります。正規化では、L1/L2 はより大きな係数をペナルティするため、単位が USD 取引額の場合はペナルティが課せられます。したがって、正規化は偏りがあり、小規模な特徴にペナルティを課す傾向があります。この問題を緩和するために、すべての特徴は前処理ステップとして正規化されます。

6. 多重共線予測変数を考慮せずに線形モデルを使用する

真のモデルが y = X1+X2 であると仮定して、2 つの変数 X1 と X2 を持つ線形モデルを構築することを想像してください。理想的には、観測データに少量のノイズがある場合、線形回帰ソリューションによって真のモデルが回復されます。ただし、X1 と X2 が同一線上にある場合、y=2*X1、y=3*X1-X2、または y=100*X1-99*X2 という関係は、ほとんどの最適化アルゴリズムに適しています。

この問題は推定値に偏りを生じさせないため、おそらく有害ではないでしょう。しかし、これによって問題が悪条件になり、係数の重みが解釈できなくなります。

7. 線形回帰またはロジスティック回帰からの係数の絶対値を特徴の重要度として解釈する

既存の線形回帰分析の多くはp値を返すため

係数のP値はそれぞれ返されます。

多くの人は、線形モデルでは、係数の絶対値が大きいほど、対応する特徴が重要になると信じています。これは、次の理由により、ほとんど当てはまりません。

変数のスケールを変更すると、係数の絶対値が変わります。

特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。

さらに、データセットにはより多くの特徴があり、特徴の共線性の可能性が高くなり、係数を使用して特徴の重要性を解釈する信頼性は低くなります。

<<:  機械学習初心者からマスターまで

>>:  ディープラーニングの「ディープ」とはどういう意味ですか?

ブログ    
ブログ    
ブログ    

推薦する

Kindred AIは、ロボットをより賢くするために、人々にVRメガネをかけて訓練することを望んでいる

(原題: Kindred AI は強化学習を利用して、人間やサルに VR メガネをかけてロボットを訓...

2020 年の予測: AI セキュリティの 10 のトレンド

2020 年のサイバーセキュリティは転換点を迎えています。人工知能と機械学習の進歩はサイバーセキュリ...

人工知能は希少疾患を患う4億人の患者がより効果的な診断を受けるのに役立っている

[[284630]] ▲人工知能は数百万の遺伝子変異を高速で検索し、希少疾患の原因を特定することがで...

CCTV:AI修復により、生産ラインから出荷された国産車の最初のバッチを再現

IT Homeは7月4日、解放CA10トラックが1956年7月に生産ラインから出荷されたと報じた。こ...

GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります

GPT-4V はすでに、Web サイトのコード設計やブラウザの制御に役立っています。これらのアプリケ...

FudanNLPチームの最新の成果、RLHFと人間のアラインメントのためのMOSS-RLHFがここにあります

ChatGPT に代表される大規模言語モデル (LLM) がさまざまなタスクで効率的にパフォーマンス...

人工知能が下水道を清掃、清掃員はようやく休憩できる

2016年以来、人工知能は研究室から出て正式に人々の生活に入りました。これは人工知能技術の発展におけ...

Ele.meにおける人工知能の応用

[[212221]] Ele.meについてほとんどの人がテイクアウトを注文したことがあるでしょう。テ...

人工知能に関する12の有名な引用

[[321443]]アラン・チューリング(1912-1954)は、人工知能の概念を真剣に受け止めた最...

産業用AIoTが「新たな人気」となった4つの主な要因

最近発表された産業用人工知能および人工知能市場レポート 2021-2026 のデータによると、わずか...

カメラのようにズームして、写真の細部を塗りつぶし、スタイルをカスタマイズ。AIペイントツールMidjourneyが再びアップデート

有名な AI ペイントツール Midjourney が再びユーザーに衝撃を与えました。先月バージョン...

...