[51CTO.com クイック翻訳] AI や機械学習モデルの開発は簡単ではありません。さまざまなシナリオでモデルを効果的にするには、多くの知識とスキル、そして豊富な経験が必要です。 特に、視覚認識に基づいて AI モデルをトレーニングするには、高品質のコンピューター ビジョン トレーニング データが必要です。 AI 開発における重要な段階は、トレーニング データを取得して収集し、そのデータをモデルのトレーニングに使用することです。 モデルのトレーニング中にエラーが発生すると、モデルが適切に機能しないだけでなく、特に医療や自動運転車などの特定の分野では、重要なビジネス上の意思決定を行う際に壊滅的な結果を招く可能性があります。 AI モデルをトレーニングする場合、トレーニング データを可能な限り最適に使用して満足のいく結果を得るために、複数の段階のアクティビティが実行されます。 AI モデルを成功させるために知っておく必要がある 6 つの一般的な間違いを紹介します。 1. 検証されていない非構造化データの使用検証されていない非構造化データを使用することは、機械学習エンジニアが AI 開発で犯す最も一般的な間違いの 1 つです。検証されていないデータには、重複、データの競合、分類の欠落、エラー、トレーニング中に異常を引き起こす可能性のあるその他のデータの問題などのエラーが含まれている可能性があります。 したがって、機械学習のトレーニングにデータを使用する前に、元のデータセットを慎重に調べ、不要なデータや無関係なデータを排除して、AI モデルがより高い精度で機能できるようにします。 2. すでに使用しているデータでモデルをテストするモデルのテストにすでに使用されたデータの再利用は避けるべきです。したがって、このような間違いは避けるべきです。たとえば、誰かが知識を学んでそれを自分の仕事の分野に応用した場合、学んだ同じ知識を別の仕事の分野に適用すると、推論に偏りや重複が生じる可能性があります。 機械学習でも同じことが言え、AI は大規模なデータセットから学習して、正しい答えを予測することができます。モデルや AI ベースのアプリケーションに同じトレーニング データを使用すると、モデルに偏りが生じ、生成される結果が以前の学習の結果になってしまう可能性があります。したがって、AI モデルの機能をテストするときは、これまで機械学習のトレーニングに使用されたことのない新しいデータセットを使用してテストすることが重要です。 3. 不十分なトレーニングデータセットの使用AI モデルを成功させるには、適切なトレーニング データを使用して、可能な限り最高の精度で予測できるようにする必要があります。十分なトレーニング データの不足は、モデルが失敗する主な理由の 1 つです。 ただし、トレーニング データ要件の範囲は、AI モデルの種類や業界によって異なります。ディープラーニングでは、モデルを高い精度で実行できるようにするために、定性的データセットと定量的データセットの両方が必要です。 4. AIモデルが偏りのないものであることを確認するあらゆるシナリオで 100% 正確な結果を出すことができる AI モデルを開発することは不可能です。人間と同様に、機械も年齢、性別、志向、収入レベルなどのさまざまな要因に基づいて偏りが生じ、結果に何らかの影響を与える可能性があります。したがって、統計分析を使用して、個々の要因が処理されたデータと AI トレーニング データにどのように影響するかを調べ、この現象を最小限に抑える必要があります。 5. AIモデルの学習のみに頼るただし、大規模なトレーニング データ セットを使用して AI モデルをトレーニングするには専門家が必要です。しかし、AI が反復的な機械学習プロセスを使用する場合、そのようなモデルをトレーニングするときにこれを考慮する必要があります。 ここで、機械学習エンジニアとして、AI モデルが適切な戦略で学習するようにする必要があります。これを確実にするために、AI トレーニング プロセスとその結果を定期的に確認し、最良の結果を達成する必要があります。 ただし、機械学習 AI を開発する際には、データが信頼できるソースから取得されているか、AI は幅広い人々をカバーしているか、結果に影響を与える可能性のある他の要因はあるかなど、いくつかの重要な質問を常に自問する必要があります。 6. 適切にラベル付けされたデータセットを使用していない機械学習を通じて AI モデルを開発して成功するには、明確に定義された戦略が必要です。これにより、最良の結果を達成できるだけでなく、エンドユーザーにとって機械学習モデルの信頼性も高まります。 ただし、上記はモデルをトレーニングする際に留意すべき重要なポイントをいくつか示したものです。しかし、AI を成功させ、さまざまなシナリオで可能な限り最高の精度で機能させるには、可能な限り最高の精度を備えた正確なトレーニング データが不可欠です。データが正しくラベル付けされていない場合、モデルのパフォーマンスに影響します。 機械学習モデルがコンピュータービジョン向けである場合、適切なトレーニングデータを取得するために、画像注釈はそのようなデータセットを作成するのに適した手法です。モデルをトレーニングする際に適切なラベル付きデータを取得することは、AI 企業が直面するもう 1 つの課題です。しかし、機械学習やAI向けのデータラベリングサービスを提供する企業は数多くあります。 元のタイトル: 機械学習モデルのトレーニング中に避けるべき 6 つの間違い [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 市場規模が100億ドルに迫る中、外科用ロボットはどのように発展していくのでしょうか?
スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...
2018 年は人工知能と機械学習にとって「収穫」の年でした。特にヘルスケア、金融、音声認識、拡張現実...
ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...
人工知能は、運輸業界が直面している多くの複雑な課題を解決するための最適なテクノロジーとなっています。...
3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...
[[386714]]北東部に拠点を置くエネルギー会社 Eversource で財務計画および分析 (...
ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...
序文貪欲は人間が本来持つ能力であり、貪欲アルゴリズムとは貪欲な意思決定に基づいた全体計画の総称です。...
序文アルゴリズムの品質を評価するには、そのアルゴリズムが問題を解決できるかどうかを確認することが重要...
最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による...
ディープラーニングにはビッグデータと大規模な計算能力に対する厳しい要件があるため、モデルトレーニング...