機械学習に関して新人エンジニアが犯しがちな6つの間違い

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]

デフォルトの損失関数は当然使用される

始めたばかりのときは、損失関数として平均二乗誤差がデフォルトの選択肢として適しています。しかし、現実世界の問題に対処する場合、そのような設計されていない損失関数が最適な解決策を与えることはほとんどありません。

たとえば、不正行為の検出を考えてみましょう。真のビジネス目標に合わせるには、不正行為による損失額に比例して、偽陰性にペナルティを課す必要があります。平均二乗誤差を使用すると適切な結果が得られますが、現時点では最良の結果にはなりません。

要点: 損失関数を毎回カスタマイズして、目的に厳密に一致するようにします。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は、入門チュートリアルを完了すると、すべてのケースで同じアルゴリズムを使い始めます。これはよくあることであり、彼らはこのアルゴリズムが他のアルゴリズムと同じように機能すると考えています。これは誤った仮定であり、最終的には悪い結果につながります。

解決策は、データにモデルを選択させることです。データを前処理したら、それを複数の異なるモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルが効果的でないかを学びます。

重要なポイント: 同じアルゴリズムを使い続けると、結果が最善ではなくなる可能性があります。

外れ値を無視する

状況に応じて、外れ値は重要になる場合もあれば、無視される場合もあります。収益予測を例にとると、収益は突然劇的に変化することがあります。この現象を観察し、その理由を理解することは役に立ちます。場合によっては、何らかのエラーによって外れ値が発生することがあります。その場合は、その外れ値を安全に無視してデータから削除できます。

モデルの観点から見ると、一部のモデルは外れ値に対してより敏感です。 Adaboost を例にとると、Adaboost は外れ値を重要な例として扱い、大きな重み付けを行いますが、決定木は外れ値を単純に誤った分類として扱う場合があります。

重要なポイント: 各作業を開始する前に、データを注意深く調べて、外れ値を無視するかどうかを決定します。 決定できない場合は、さらに注意深く調べます。

周期的な特徴が正しく処理されていない

1 日の 24 時間、1 週間の 7 日間、1 年の 12 か月、風向きはすべて周期的な特徴です。機械学習に不慣れなエンジニアの多くは、これらの特徴を表現に変換することで、23:00 と 0:00 の近さなどの情報を保持できることを知りません。

時間を例にとると、それを処理する最善の方法は、その sin と cos を計算して、周期的な特徴を円の (x,y) 座標として表すことです。このように表現される時間では、23:00 と 0:00 は単に数字的に隣り合っている 2 つの数字であり、それだけです。

重要なポイント: 研究中に周期的な特徴に遭遇しても、それを表現に変換しないと、モデルにジャンク データが追加されることになります。

標準化されていない L1/L2 正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法です。しかし、多くの機械学習エンジニアは、正規化を使用する前に特徴を正規化することの重要性を認識していません。

特徴の 1 つが「取引金額」である線形回帰モデルがあるとします。取引金額が米ドルの場合、その係数はセント単位の係数の 100 倍になります。これによりバイアスが生じ、モデルが実際には小さい特徴にペナルティを課す可能性があります。この問題を回避するには、すべての特徴に対して正規化が等しくなるように特徴を正規化する必要があります。

重要なポイント: 正規化は便利ですが、特徴を正規化しないと、非常に厄介な問題が発生します。

線形回帰またはロジスティック回帰の係数の絶対値を特徴の重要性を判断する基準として使用する

多くの既製の線形回帰モデルは各係数の p 値を返しますが、初心者の機械学習エンジニアの中には、線形モデルの場合、係数の値が大きいほど、特徴の重要性が高くなると考える人もいます。変数のサイズによって係数の絶対値が変わるため、これは正確ではありません。特徴が共線的である場合、係数は 1 つの特徴から別の特徴にシフトできます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性に関するこの単純な解釈の信頼性は低くなります。

重要なポイント: どの機能が結果に最も大きな影響を与えるかを知ることは重要ですが、係数だけではそれを判断することはできません。

いくつかのプロジェクトを実行して良い結果を得ると、100 万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしたという結果が示されますが、どの業界でもそうですが、細部にこそ問題があり、最も洗練されたチャートでも偏差やエラーが隠れている場合があります。この記事のエラーのリストは網羅的ではありませんが、読者にソリューションに潜む微妙な問題を考えるよう促すことを目的としています。良い結果を得るためには、プロセスに従って作業し、よくある間違いが起こらないように注意深くチェックすることが重要です。

<<:  アクセンチュア:AIが新しいUIとなり、7年後にはスクリーンレス時代が到来

>>:  GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

ブログ    
ブログ    
ブログ    

推薦する

清華大学唐傑チーム: NLP事前トレーニングモデルの歴史の簡単な紹介

[[422829]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT を企業の神経系と考えてください。これは、生産工場のあらゆる場所から貴重な情報を収集し...

Huaweiの大型モデルがNature誌に掲載されました!評論家:予測モデルの将来を再検討する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIIA2020人工知能開発者会議が成功裏に開催され、オープンソースを採用してAIの新たな勢いが生まれました。

【51CTO.comオリジナル記事】 9月28日、「オープンソース開発とオープン性」をテーマにした...

将来は知能ロボットが農業を担う

果物の収穫から雑草の除去まで、ロボットは精密農業で大きな成果を上げています。農家は常に熱心なデータ収...

AIもボトルネックに遭遇。人工知能技術のストレージ性能要件の分析

2020年は多くの人々にとって忘れられない年です。新型コロナウイルス感染症の突然の発生は、ほぼすべて...

ディープラーニングでは音声認識の問題を解決できない

[[212222]]音声認識にディープラーニングが導入されて以来、単語の誤り率は急速に低下しました。...

米国が新たなオープンソースAIアルゴリズムを開発:モザイクの美しさを自動修復

ぼやけた写真を見ると、本来の姿を復元したいという衝動にかられることはありませんか?以前の技術ではこれ...

顔認識、マルチターゲット追跡…Suningのスマートストアのその他のブラックテクノロジーを公開!

[51CTO.comからのオリジナル記事] インターネット+の急速な発展に伴い、オフライン小売業界...

デジタル変革の3つの大きな落とし穴に注意: インテルがPing An Healthcare Technologyに「エンドツーエンド」のAI機能を提供

[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...

ビッグデータを使用してSalesforce Einstein分析の価値を理解する

ビッグデータを活用する方法を学ぶには、新しく開発されたソフトウェアである Salesforce Ei...

独自の顔ぼかしツールを構築する方法

OpenCVを使用して顔認識をカスタマイズする方法[[412851]]匿名化とは、データを匿名化する...

1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。たとえば、人が階段を...

...

データ汚染を防ぐのは困難です。機械学習モデルに「悪いことを学習」させないでください

過去 10 年間、クラウド コンピューティングの普及により、多くの企業に高性能コンピューティングおよ...