新人機械学習エンジニアが犯しがちな6つの間違い

機械学習やデータサイエンスのプロジェクトに取り組む際に、初心者がよく犯す間違いにはどのようなものがあるでしょうか? ここでは、最も一般的な間違いをリストします。

[[225258]]

機械学習では、製品やソリューションを構築する方法が多数あり、それぞれに異なる前提があります。多くの場合、どの仮定が合理的であるかを判断して特定するのは簡単ではありません。機械学習を初めて使用する人は、後から考えれば間違っていたと思われるような間違いを犯すことがよくあります。この記事では、新しい機械学習エンジニアが犯しがちな間違いのリストを作成します。これらのよくある間違いから学び、真の価値をもたらすより堅実なソリューションを作成できるようになることを願っています。

デフォルトの損失関数を当然のこととして受け入れる

始めたばかりのときは、平均二乗誤差は優れており、素晴らしいデフォルトになる可能性がありますが、実際のアプリケーションでは、この設計されていない損失関数が最適なソリューションを提供することはほとんどありません。

不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、報告不足にペナルティを課すことです。一方、平均二乗誤差を使用すると良い結果が得られるかもしれませんが、最も高度な結果は得られません。

機械学習エンジニアになる | ステップ 3: ツールを選択する使用できるさまざまな ML ツールについて詳しくは、この記事をご覧ください。

要点: 常に、ソリューションの目標にぴったり一致するカスタム損失関数を構築してください。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は最初のチュートリアルを完了すると、すぐに、想像できるあらゆるユースケースで、学んだのと同じアルゴリズムを使い始めます。それは馴染み深いものであり、他のアルゴリズムと同じように機能するだろうと彼らは考えました。これは誤った仮定であり、悪い結果につながる可能性があります。

データによってモデルが選択されます。データが前処理されたら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがあまり効果的でないかについて、適切なアイデアが得られます。

[[225259]]

機械学習エンジニアになる | ステップ 2: プロセスを選択するこの投稿をチェックして、プロセスを習得してください。

重要: 同じアルゴリズムを何度も使用している場合は、最良の結果が得られていない可能性があります。

外れ値を無視する

コンテキストに応じて、外れ値は重要になるか、完全に無視される可能性があります。たとえば、汚染予測では、大気汚染が急激に増加する可能性があり、それを把握して、なぜ発生するかを理解することが重要です。何らかのセンサーエラーによって異常が発生した場合は、それを無視してデータから削除しても安全です。

モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost は外れ値に大きな重みを置きますが、決定木は各外れ値を単純に誤った分類として扱う場合があります。

機械学習エンジニアになる | ステップ 2: プロセスを選択し、ベストプラクティスでこの間違いを回避する

要点: 作業を開始する前に、常にデータを注意深く調べ、外れ値を無視するか、注意深く調べるかを決定します。

周期的な特徴を正しく処理していない

一日の時間、曜日、月、風向きなどはすべて周期的な特徴の例です。多くの新人機械学習エンジニアは、これらの特徴を、23 時間と 0 時間が互いに近く、離れていないなどの情報を保持できる表現に変換できるとは考えていません。

時間を例に挙げると、これを処理する最善の方法は、周期的な特徴を円の (x,y) 座標として表すために、sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 の時間が、当然ながら数字的に隣り合っています。

多くの人がコード例を求めています。ここにあります

重要なポイント: 周期的な特徴があり、それを変換しない場合は、ジャンクデータをモデル化します。

標準化なしのL1/L2正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法ですが、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することが重要であることを認識していません。

トランザクションが特徴である線形回帰モデルがあるとします。すべての関数を標準化し、それらを同等の立場に置くことで、すべての関数にわたって正規化が同じになります。

まとめ: 正規化は素晴らしいが、標準化された関数がない場合には問題になることがある

線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する

線形回帰関数は通常、各係数の p 値を返します。多くの場合、これらの係数により、初心者の機械学習エンジニアは、線形モデルの場合、係数値が大きいほど、機能が重要になると考えます。変数のサイズによって係数の絶対値が変わるため、このようなケースはめったに発生しません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴の共線性の可能性が高くなり、特徴の重要性の単純な解釈の信頼性が低下します。

要点: どの機能が結果に大きな影響を与えるかを知ることは重要ですが、係数を見ることができると想定しないでください。彼らは多くの場合、「物語」の全体を語っていません。

いくつかのプロジェクトを実行して良い結果を得ることができれば、100万ドルを獲得できる可能性があります。一生懸命働いて、結果的に素晴らしい仕事をしていることが判明しますが、どんな職業でもそうですが、細部にこそ悪魔が潜んでおり、空想的な筋書きの中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、単に読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうことを目的としています。良い結果を得るには、プロセスに従い、よくある間違いをしていないことを常に再確認することが重要です。

[[225260]]

この記事が役に立った場合は、私の「機械学習エンジニア | ステップ 2: 選択プロセス」の記事から多くのことを学ぶことができます。プロセスのトラブルシューティングに役立ち、より単純な間違いを検出してより良い結果を得ることができます。

<<: Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。

>>: 機械学習に関する9つの誤解

大連理工大学は、小規模サンプル認識にDeepBDCを提案し、6つのベンチマークで最高のパフォーマンスを達成した。

新人機械学習エンジニアが犯しがちな6つの間違い

大連理工大学は、小規模サンプル認識にDeepBDCを提案し、6つのベンチマークで最高のパフォーマンスを達成した。

「機械学習には数学は必要なく、多くのアルゴリズムがパッケージ化されており、パッケージを調整するだけでよい」という主張についてどう思いますか?

Nvidiaの自動運転チップOrinはどれほど強力か：CEOのHuang RenxunはL2をデモンストレーションするためにメルセデスベンツを発見し、都市のシーンを簡単に処理できる

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

2030年「メタバース」就職ガイド！ CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

人工知能技術はビッグデータに基づいていますか?

米軍はU2に人工知能副操縦士を装備した。世界で最も操縦が難しい航空機は将来ドローンになるかもしれない

ChatGPT を使用して Web アプリケーションを構築する方法は?

推薦する

未来の超人工知能はどれほど恐ろしいものになるのでしょうか？この記事を読んだら黙ってしまうかもしれません！

人工知能画像生成技術：わずか5年でなぜ急速な発展を遂げたのか？

手動設計は不要、検索損失関数をゼロから作成

企業の78%が2022年までにAIを主要な収益源と見なしている

データ汚染を防ぐのは困難です。機械学習モデルに「悪いことを学習」させないでください

移動ロボットの分野に新たな大手企業が参入し、業界の人気は高まり続けている。

ビッグデータの本当の問題と、なぜ機械学習だけがそれを解決できるのか

ディープニューラルネットワークのトレーニングが難しいのはなぜですか?

これは機械学習ツールに関する最も包括的なハンドブックかもしれません。

表の数学的推論の正解率は98.78%です！ UCLA が新しい「カメレオン推論フレームワーク」を発表

グラフディープラーニングで複雑な研究タイプのタスクを実装するのは、あまりにも面倒ですか?この新しいツールキットは、