AIと機械学習モデルをトレーニング、テスト、維持する方法

AIと機械学習モデルをトレーニング、テスト、維持する方法

AI および機械学習モデルの作成に必要なスキルセットをより深く理解するには、機械学習ソフトウェアによって段階的に実行されるモデル作成プロセスと、事前に定義された成功基準を満たすモデルを作成する際の課題を理解する必要があります。

機械学習ソフトウェアはデータを使用してモデルをトレーニングします。このモデルは AI 製品を構成し、AI 入力データを定期的に更新することで時間の経過とともに再利用できます。機械学習ソフトウェアには、次の 4 つの基本的な学習タイプがあります。

  • 監督: データのラベルを使用して正しい答えを提供しながら、アルゴリズムにデータから学習させます。これは本質的に、予測されるクラスまたは値が最初からわかっており、アルゴリズムが適切に定義されていることを意味します。
  • 教師なし: 教師あり方式とは異なり、アルゴリズムは正しい答えや答えをまったく提供しませんが、類似のデータを収集して理解するのはアルゴリズム次第です。
  • 半教師あり学習: 教師あり学習と教師なし学習のハイブリッド。
  • 強化: 強化学習では、アルゴリズムは正しい予測ごとに報酬を与えられ、それによって精度が向上します。

特定のデータ セットに適合する機械学習ソフトウェアで使用する最適な統計アルゴリズムを決定するには、データ サイエンスの専門知識が必要です。

数多くの統計アルゴリズムの中でも、特に人気のあるものは次のとおりです。感情分析、スパム検出、推奨のためのナイーブ ベイズ、結果予測のための決定木、複数の決定木をマージして予測を改善できるランダム フォレスト、バイナリ分類 (A または B) のためのロジスティック回帰、市場セグメンテーションなどのデータを再編成するための AdaBoost、ガウス混合、Recommender、K-Means クラスタリング。

AIと機械学習モデルのトレーニング

機械学習には、トレーニング、検証、テストという 3 つの異なる学習 (トレーニングとも呼ばれる) フェーズがあります。始める前に、データが適切に整理され、正しいことを確認する必要があります。概念は単純ですが、データを順序に変換するのは時間がかかり、細かい作業が必要なプロセスであり、手作業が必要になる場合があります。

目標は、重複、タイプミス、切断のないデータを作成することです。クリーニング後、データは 3 つのトレーニング フェーズごとに 3 つのグループにランダムに分割されました。ランダムなデータ分割の目的は、データ選択の偏りを防ぐことです。

モデル作成に関連する定義をいくつか示します。

  • パラメータ。モデルパラメータは、機械学習ソフトウェアがトレーニングプロセス中に AI 入力データから自動的に学習する値ですが、ユーザーはトレーニングプロセス中にパラメータ値を手動で変更することもできます。たとえば、セッション中に実行するパスの最大数や、トレーニング データの最大モデル サイズ (バイト単位) などです。
  • ハイパーパラメータ。ハイパーパラメータは機械学習の外部にあり、データ サイエンティストのユーザーによって事前に入力されるため、ハイパーパラメータは AI データから導出されるものではなく、トレーニング プロセス中に変更される可能性があります。ハイパーパラメータの例としては、クラスタリング アルゴリズムの使用時に返されるクラスターの数や、ニューラル ネットワーク内のレイヤーの数などが挙げられます。
  • 変数。機械学習ソフトウェアは、特定の AI データ入力フィールドを選択し、トレーニング プロセス中に追加の変数を使用します。変数としては、年齢、身長、体重などが考えられます。

トレーニングを開始する前に (フェーズ 1)、機械学習ソフトウェアがデータから重要な手がかりを継続的に取得して学習できるように、データにラベルを付けることが重要です。教師なし学習ではラベル付けは必要ありません。機械学習ソフトウェアのデフォルトのパラメータ値を使用して起動することも、パラメータを個別に変更することもできます。

精度テストモデル

トレーニング フェーズが成功基準を満たすと、検証フェーズに入ります。最初のパスでは新しいデータセットが使用されます。結果が良ければ、最終テスト段階に進みます。

期待した結果が得られない場合は、機械学習ソフトウェアが新しいパターンを示さなくなるまで、またはパスの最大数に達するまで、機械学習ソフトウェアを使用してデータに追加のパスを実行できます。トレーニングが進むにつれて、これらのパラメータは機械学習ソフトウェアまたはそれを管理する人々によって自動的に変更されます。

テスト段階は、新しいデータセットに対する「最終試験」ですが、今回は「補助」データラベル(教師あり学習にのみ使用)がありません。ソフトウェアが標準テストに合格した場合、それは実用的なモデルとなります。そうでない場合は、トレーニングを続けてください。これまでと同様に、テスト チームは手動でパラメータを変更することも、トレーニング プロセス中に機械学習ソフトウェアにパラメータを自動的に変更させることもできます。

AI における機械学習とは、機械学習ソフトウェアに公開されたデータを繰り返し再生することです。パラメータは機械学習ソフトウェアによって自動的かつ反復的に変更され (手動で変更される場合もあります)、各テストの後にモデルがよりスマートになります。機械学習ソフトウェアは、新しいパターンが検出されなくなったと判断するまで、またはパスの最大数に達して停止するまで、データに対して複数回のパスを実行し続けます。

AIモデルの継続的なメンテナンス

警戒(監視)はAIの自由を享受するための代償です。 AI モデルのパフォーマンスを判断する一般的なアプローチは、実際のパフォーマンスが AI の予測とどの程度一致しているかを監視することです。 AI 予測のパフォーマンスが悪かった場合は、機械学習モデルのトレーニング プロセスに再度入り、最新のデータを使用してモデルを修正する必要があります。

入力データは時間の経過とともに簡単に変化する可能性があることを覚えておくことが重要です。これは、トランザクションにおけるデータ ドリフトとして知られています。データドリフトにより AI モデルの精度が失われる可能性があるため、データドリフトを早期に警告することが、問題に先手を打つために重要です。 Fiddler、Neptune、Azure ML など、データドリフトを追跡して外れ値を見つけることができる AI ツールは早期警告を提供できるため、機械学習を更新してデータの問題を早期に解決できます。

<<:  AIoT: IoTと人工知能の完璧な組み合わせ

>>:  高齢者介護の問題がますます顕著になり、人工知能が大きな注目を集めている

ブログ    
ブログ    
ブログ    

推薦する

レポートの解釈: 企業の 91% が 2023 年に AI がビジネスの成長を促進すると予想

[[245538]]人工知能 (AI) により、早期導入メーカーはすでに分析、ビジネス インテリジェ...

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

海外メディアの報道によると、OpenAIは2月18日、短いテキストプロンプトを通じて「リアル」かつ「...

マイクロソフトとグーグルのAIジレンマ:お金を稼ぐためにもっとお金を使う

7月26日のニュースによると、将来、人工知能はマイクロソフトやアルファベットなどのテクノロジー大手に...

AI Coreの「正体」を1つの記事で理解する

[[251095]] 2018年の初めから年末にかけて、携帯電話業界では人工知能がキーワードとなって...

...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AI バイアスを検出して防止するにはどうすればよいでしょうか?

[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...

2021年、ドローン配送は高速であるだけでなく、安定している必要がある

中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...

一貫性ハッシュアルゴリズムとは何ですか?

この記事はWeChatパブリックアカウント「Compass Krypton Gold Entranc...

自動運転の時代において、ハッカーがあなたの車を破壊し、あなたを殺す方法はいくつあるでしょうか?

[[383265]] 「ワイルド・スピード8」を見たことがある友人なら、ハッカーが1,000台の車...

...

GenAI時代のサイバー軍拡競争を生き残る方法

GenAIの急速な出現はすでにサイバーセキュリティに大きな変化をもたらし、各国政府に対策を取らせてお...

自動運転のジレンマと選択

ここ数年、自動運転車に対する熱狂が高まっています。これは確かに合理的です。自動運転車は、燃費の向上、...

ネイチャー誌は「同じ原稿の複数投稿」を認めるべき時が来たという記事を掲載した。

「私たちの論文を溜め込むのはやめてください」ネイチャー誌のコラムに学者の投稿が掲載される。記事は、...

「人工知能+学習」は教育をより良くするのでしょうか?

「教育は死んだが、学習は不滅である。」半世紀前、アメリカの教育思想家イリイチは著書『脱学校社会』の...