機械学習モデルをトレーニングする際に避けるべき 6 つの間違い

機械学習モデルをトレーニングする際に避けるべき 6 つの間違い

[51CTO.com クイック翻訳] AI や機械学習モデルの開発は簡単ではありません。さまざまなシナリオでモデルを効果的にするには、多くの知識とスキル、そして豊富な経験が必要です。

特に、視覚認識に基づいて AI モデルをトレーニングするには、高品質のコンピューター ビジョン トレーニング データが必要です。 AI 開発における重要な段階は、トレーニング データを取得して収集し、そのデータをモデルのトレーニングに使用することです。

モデルのトレーニング中にエラーが発生すると、モデルが適切に機能しないだけでなく、特に医療や自動運転車などの特定の分野では、重要なビジネス上の意思決定を行う際に壊滅的な結果を招く可能性があります。

AI モデルをトレーニングする場合、トレーニング データを可能な限り最適に使用して満足のいく結果を得るために、複数の段階のアクティビティが実行されます。 AI モデルを成功させるために知っておく必要がある 6 つの一般的な間違いを紹介します。

1. 検証されていない非構造化データの使用

検証されていない非構造化データを使用することは、機械学習エンジニアが AI 開発で犯す最も一般的な間違いの 1 つです。検証されていないデータには、重複、データの競合、分類の欠落、エラー、トレーニング中に異常を引き起こす可能性のあるその他のデータの問題などのエラーが含まれている可能性があります。

したがって、機械学習のトレーニングにデータを使用する前に、元のデータセットを慎重に調べ、不要なデータや無関係なデータを排除して、AI モデルがより高い精度で機能できるようにします。

2. すでに使用しているデータでモデルをテストする

モデルのテストにすでに使用されたデータの再利用は避けるべきです。したがって、このような間違いは避けるべきです。たとえば、誰かが知識を学んでそれを自分の仕事の分野に応用した場合、学んだ同じ知識を別の仕事の分野に適用すると、推論に偏りや重複が生じる可能性があります。

機械学習でも同じことが言え、AI は大規模なデータセットから学習して、正しい答えを予測することができます。モデルや AI ベースのアプリケーションに同じトレーニング データを使用すると、モデルに偏りが生じ、生成される結果が以前の学習の結果になってしまう可能性があります。したがって、AI モデルの機能をテストするときは、これまで機械学習のトレーニングに使用されたことのない新しいデータセットを使用してテストすることが重要です。

3. 不十分なトレーニングデータセットの使用

AI モデルを成功させるには、適切なトレーニング データを使用して、可能な限り最高の精度で予測できるようにする必要があります。十分なトレーニング データの不足は、モデルが失敗する主な理由の 1 つです。

ただし、トレーニング データ要件の範囲は、AI モデルの種類や業界によって異なります。ディープラーニングでは、モデルを高い精度で実行できるようにするために、定性的データセットと定量的データセットの両方が必要です。

4. AIモデルが偏りのないものであることを確認する

あらゆるシナリオで 100% 正確な結果を出すことができる AI モデルを開発することは不可能です。人間と同様に、機械も年齢、性別、志向、収入レベルなどのさまざまな要因に基づいて偏りが生じ、結果に何らかの影響を与える可能性があります。したがって、統計分析を使用して、個々の要因が処理されたデータと AI トレーニング データにどのように影響するかを調べ、この現象を最小限に抑える必要があります。

5. AIモデルの学習のみに頼る

ただし、大規模なトレーニング データ セットを使用して AI モデルをトレーニングするには専門家が必要です。しかし、AI が反復的な機械学習プロセスを使用する場合、そのようなモデルをトレーニングするときにこれを考慮する必要があります。

ここで、機械学習エンジニアとして、AI モデルが適切な戦略で学習するようにする必要があります。これを確実にするために、AI トレーニング プロセスとその結果を定期的に確認し、最良の結果を達成する必要があります。

ただし、機械学習 AI を開発する際には、データが信頼できるソースから取得されているか、AI は幅広い人々をカバーしているか、結果に影響を与える可能性のある他の要因はあるかなど、いくつかの重要な質問を常に自問する必要があります。

6. 適切にラベル付けされたデータセットを使用していない

機械学習を通じて AI モデルを開発して成功するには、明確に定義された戦略が必要です。これにより、最良の結果を達成できるだけでなく、エンドユーザーにとって機械学習モデルの信頼性も高まります。

ただし、上記はモデルをトレーニングする際に留意すべき重要なポイントをいくつか示したものです。しかし、AI を成功させ、さまざまなシナリオで可能な限り最高の精度で機能させるには、可能な限り最高の精度を備えた正確なトレーニング データが不可欠です。データが正しくラベル付けされていない場合、モデルのパフォーマンスに影響します。

機械学習モデルがコンピュータービジョン向けである場合、適切なトレーニングデータを取得するために、画像注釈はそのようなデータセットを作成するのに適した手法です。モデルをトレーニングする際に適切なラベル付きデータを取得することは、AI 企業が直面するもう 1 つの課題です。しかし、機械学習やAI向けのデータラベリングサービスを提供する企業は数多くあります。

元のタイトル: 機械学習モデルのトレーニング中に避けるべき 6 つの間違い

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  市場規模が100億ドルに迫る中、外科用ロボットはどのように発展していくのでしょうか?

>>:  シェフとAIが協力してあなたの味覚を刺激します

推薦する

...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

2018 年に最も価値のあるオープンソース機械学習プロジェクト 6 つ

2018 年は人工知能と機械学習にとって「収穫」の年でした。特にヘルスケア、金融、音声認識、拡張現実...

年収100万のAI関連職種4つ

ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...

人工知能はより安全で環境に優しい交通システムの構築に役立つ

人工知能は、運輸業界が直面している多くの複雑な課題を解決するための最適なテクノロジーとなっています。...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...

...

...

フランシス・バーガーは分析をよりスマートにし、難しくしない

[[386714]]北東部に拠点を置くエネルギー会社 Eversource で財務計画および分析 (...

...

「今日の簡単な歴史」:今後 15 年間でほとんどの人が失業することになるのでしょうか?

ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...

プログラマーアルゴリズムの基礎 - 貪欲アルゴリズム

序文貪欲は人間が本来持つ能力であり、貪欲アルゴリズムとは貪欲な意思決定に基づいた全体計画の総称です。...

アルゴリズムの品質を評価するにはどうすればよいでしょうか?

序文アルゴリズムの品質を評価するには、そのアルゴリズムが問題を解決できるかどうかを確認することが重要...

間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による...

モデルのトレーニングをアウトソーシングするのは本当に安全ですか?新しい研究:アウトソーサーが銀行融資を制御するためにバックドアを挿入する可能性がある

ディープラーニングにはビッグデータと大規模な計算能力に対する厳しい要件があるため、モデルトレーニング...