機械学習に関して新人エンジニアが犯しがちな6つの間違い

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]

デフォルトの損失関数は当然使用される

始めたばかりのときは、損失関数として平均二乗誤差がデフォルトの選択肢として適しています。しかし、現実世界の問題に対処する場合、そのような設計されていない損失関数が最適な解決策を与えることはほとんどありません。

たとえば、不正行為の検出を考えてみましょう。真のビジネス目標に合わせるには、不正行為による損失額に比例して、偽陰性にペナルティを課す必要があります。平均二乗誤差を使用すると適切な結果が得られますが、現時点では最良の結果にはなりません。

要点: 損失関数を毎回カスタマイズして、目的に厳密に一致するようにします。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は、入門チュートリアルを完了すると、すべてのケースで同じアルゴリズムを使い始めます。これはよくあることであり、彼らはこのアルゴリズムが他のアルゴリズムと同じように機能すると考えています。これは誤った仮定であり、最終的には悪い結果につながります。

解決策は、データにモデルを選択させることです。データを前処理したら、それを複数の異なるモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルが効果的でないかを学びます。

重要なポイント: 同じアルゴリズムを使い続けると、結果が最善ではなくなる可能性があります。

外れ値を無視する

状況に応じて、外れ値は重要になる場合もあれば、無視される場合もあります。収益予測を例にとると、収益は突然劇的に変化することがあります。この現象を観察し、その理由を理解することは役に立ちます。場合によっては、何らかのエラーによって外れ値が発生することがあります。その場合は、その外れ値を安全に無視してデータから削除できます。

モデルの観点から見ると、一部のモデルは外れ値に対してより敏感です。 Adaboost を例にとると、Adaboost は外れ値を重要な例として扱い、大きな重み付けを行いますが、決定木は外れ値を単純に誤った分類として扱う場合があります。

重要なポイント: 各作業を開始する前に、データを注意深く調べて、外れ値を無視するかどうかを決定します。 決定できない場合は、さらに注意深く調べます。

周期的な特徴が正しく処理されていない

1 日の 24 時間、1 週間の 7 日間、1 年の 12 か月、風向きはすべて周期的な特徴です。機械学習に不慣れなエンジニアの多くは、これらの特徴を表現に変換することで、23:00 と 0:00 の近さなどの情報を保持できることを知りません。

時間を例にとると、それを処理する最善の方法は、その sin と cos を計算して、周期的な特徴を円の (x,y) 座標として表すことです。このように表現される時間では、23:00 と 0:00 は単に数字的に隣り合っている 2 つの数字であり、それだけです。

重要なポイント: 研究中に周期的な特徴に遭遇しても、それを表現に変換しないと、モデルにジャンク データが追加されることになります。

標準化されていない L1/L2 正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法です。しかし、多くの機械学習エンジニアは、正規化を使用する前に特徴を正規化することの重要性を認識していません。

特徴の 1 つが「取引金額」である線形回帰モデルがあるとします。取引金額が米ドルの場合、その係数はセント単位の係数の 100 倍になります。これによりバイアスが生じ、モデルが実際には小さい特徴にペナルティを課す可能性があります。この問題を回避するには、すべての特徴に対して正規化が等しくなるように特徴を正規化する必要があります。

重要なポイント: 正規化は便利ですが、特徴を正規化しないと、非常に厄介な問題が発生します。

線形回帰またはロジスティック回帰の係数の絶対値を特徴の重要性を判断する基準として使用する

多くの既製の線形回帰モデルは各係数の p 値を返しますが、初心者の機械学習エンジニアの中には、線形モデルの場合、係数の値が大きいほど、特徴の重要性が高くなると考える人もいます。変数のサイズによって係数の絶対値が変わるため、これは正確ではありません。特徴が共線的である場合、係数は 1 つの特徴から別の特徴にシフトできます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性に関するこの単純な解釈の信頼性は低くなります。

重要なポイント: どの機能が結果に最も大きな影響を与えるかを知ることは重要ですが、係数だけではそれを判断することはできません。

いくつかのプロジェクトを実行して良い結果を得ると、100 万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしたという結果が示されますが、どの業界でもそうですが、細部にこそ問題があり、最も洗練されたチャートでも偏差やエラーが隠れている場合があります。この記事のエラーのリストは網羅的ではありませんが、読者にソリューションに潜む微妙な問題を考えるよう促すことを目的としています。良い結果を得るためには、プロセスに従って作業し、よくある間違いが起こらないように注意深くチェックすることが重要です。

<<:  アクセンチュア:AIが新しいUIとなり、7年後にはスクリーンレス時代が到来

>>:  GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

ブログ    
ブログ    
ブログ    

推薦する

Ruijie NetworksとMidea Smartは戦略的提携を結び、スマート小売端末の商業化と普及に取り組んでいます。

6月30日、瑞傑ネットワークス株式会社(以下、瑞傑ネットワークス)と合肥美的智能科技有限公司(以下...

AI モデルの 3 種類のバイアスとその修正方法

自動化された意思決定ツールは組織内でますます一般的になりつつあります。しかし、顔認識システムからオン...

マスク氏が「アイアンマン」のようなロボットを発売!テスラが世界最速のAIコンピューターを発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...

ジェネレーティブ AI でデータ エンジニアリングを変革する方法

企業が生産性を高め、顧客体験を強化する方法を模索する中、生成 AI は今後 10 年間であらゆる業界...

Midjourney はテキストを生成できます。 V6バージョンの5つの主要なアップグレードがネットユーザーを驚かせる

Midjourney がメジャーアップデートされ、バージョン V6 がリリースされました!アップデー...

人工知能は投資家に好まれているが、投資家は市場に参入する際には注意する必要がある

人工知能の分野で大きな影響力を持つ企業は、金融市場においても並外れた成長と強さを見せています。 AI...

知っておくべき人工知能アルゴリズム トップ 10

人工知能 (AI) 技術の人気が高まるにつれ、さまざまなアルゴリズムがこの分野の発展を促進する上で重...

ロボットとIoTがサプライチェーンに与える影響

過去1年ほど、COVID-19パンデミックの影響により、効率的なサプライチェーンの重要性が特に顕著に...

ヘルスケアにおける GenAI の利点

ビッグデータと AI の活用により、患者が生成する膨大な量の情報の処理と分析が大幅に容易になりました...

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算

[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...

2021年の人工知能業界の予測

[[375635]] 2020 年は激動の年であり、組織は数多くの課題に直面しました。 2021年に...

...