機械学習チューナー: 機械学習を再調整する方法とタイミング

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]

古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である。」時間には揺るぎない力があります。概念も、社会も、人間自身も、時間とともに大きく変化していきます。

過去に先進的だったものは現在では時代遅れになり、今日斬新なアイデアも数年後には忘れ去られているかもしれません。変化を理解することは企業にとって重要です。

15年前、携帯電話製造会社がスマートフォンの開発に乗り出さなかったら、生き残ることは可能だったでしょうか? 携帯電話製造会社はほぼすべて市場から姿を消していました。かつてはシンプルな携帯電話を所有するのが当たり前だったが、人々のニーズはすぐにスマートフォンに移り、適応できなかった企業はその代償を払うこととなった。

データ分析は徐々に世界で優位になり始めており、機械学習モデルは企業の意思決定を促進する主力となっています。これらのモデルは、すべてのビジネス戦略と同様に、技術的には「モデルドリフト」により、時間の経過とともに調整する必要があります。

「モデルドリフト」とは何ですか?

ほとんどのコース、記事、投稿では、データの収集から始まり、さまざまな環境での機械学習モデルの展開で終わる機械学習ライフサイクルを定義していますが、機械学習ライフサイクルの非常に重要な特性であるモデルドリフトを忘れる人は少なくありません。

本質的には、ターゲット変数と独立変数の関係は時間の経過とともに変化します。モデルドリフトにより、モデルを安定させることが不可能になり、予想されるエラーが徐々に深刻化します。

単純な線形回帰を使用して、技術的な観点からこれを理解してみましょう。線形回帰では、独立変数 x_i をマッピングしてターゲット変数 y を予測するだけです。

y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …

ここで、α は切片であり、β_i は変数 x_i の係数に対応します。

通常、このマッピングは静的であると想定されます。つまり、係数 β_i (および切片 α) は時間の経過とともに変化せず、ターゲット変数 y の予測を制御する関係は将来のデータに対しても適切に有効であると想定されます。

ただし、この仮定はすべての場合に当てはまるわけではありません。企業の収益性はこのようなモデルに大きく依存しており、仮定が真実でなくなると、企業にとって深刻な脅威となります。

これらのモデルは将来の開発状況を表している可能性があるため、後になって確実に維持できなくなります。予測は、基礎となる条件の変化により、時間の経過とともに精度が低下します。

ドリフトの種類

モデルドリフトは次の 2 つのカテゴリに分けられます。

最初のタイプは「コンセプトドリフト」であり、これはターゲット変数自体の統計特性が変化すると発生します。明らかに、予測しようとしている変数の重要性が変化すると、モデルはこの定義に対して有効ではなくなります。

2 番目で最も一般的なカテゴリは「データ ドリフト」であり、予測の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは無効になります。

典型的な例としては、季節性によるデータ パターンの変化が挙げられます。夏に機能するビジネスモデルは、冬には機能しない可能性があります。休暇期間中は航空需要が大幅に増加しますが、オフシーズン中は搭乗率をかろうじて維持することしかできません。もうひとつの例としては、冒頭で述べたスマートフォンのような人々の嗜好の変化が挙げられます。

どうすれば解決できるでしょうか?

優れた解決策は、モデルを継続的に変更することです。モデルにドリフトが現れ始めると、過去の経験に基づいて推定を行うことができます。この方法では、モデルを積極的に再構築してドリフトのリスクを軽減できます。

データが時間の経過とともに絶えず変化する場合は、データを重み付けすることが適切なオプションです。最近の取引に基づいて特定のパラメータを決定する財務モデルでは、最近の取引を重視し、過去の取引をあまり重視しないなどの機能を追加できます。これにより、モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的なままで、ベースラインとして機能する必要があります。現在、データの動作が最近変化したため、このベースライン モデルの予測を修正する新しいモデルを構築できます。

モデルはどのくらいの頻度で再調整する必要がありますか?

より一般的な解決策は、モデルを継続的に再調整することであることはすでにわかっています。次の質問は、どのくらいの頻度で再調整する必要があるかということです。これには、特定の問題の特定の分析が必要です。

時々、問題が発生することがあります。問題が発生するのを待つことは最も簡単なアプローチではありませんが、過去の経験から問題がどのように発生するかを知る方法がないため、新しく構築されたモデルの場合はこれが唯一のオプションです。問題が表面化した場合、その問題を調査し、修正することで、将来発生する可能性のある関連する問題に対処することができます。

モデルで処理されるエンティティに関連するデータは、季節的なパターンに従うことがあります。この場合、季節の変化に合わせてモデルを再調整する必要があります。休日の支出が増加するにつれて、信用貸付業者はそのようなパターンの突然の変化に対処するための特別なモデルを必要とします。

ただし、ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。間隔は、分野や業務に応じて、1 週間、1 か月、または 1 四半期になります。

監視は手動で行うことも、自動スクリプトによって行うこともできます。異常な状況が発生した場合、自動化されたスクリプトはアラートをトリガーし、通知を送信できる必要があります。

変化は絶え間なく起こるものであり、変化を受け入れて監視する準備ができている企業だけが成功するということを覚えておくことが重要です。

<<:  機械学習を予知保全に適用するにはどうすればよいでしょうか?

>>:  AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない

ブログ    
ブログ    
ブログ    

推薦する

欧州が癌治療における人工知能の新基準を設定

EUCAIM (EUropean Federation for CAncer IMages) プロジ...

...

製品の価格については心配しないでください。AI が教えてくれます!

[[341780]] ▲写真:ゲッティベインが 1,700 人以上のビジネス リーダーを対象に実施...

2021 年に IT 自動化と AI はどこに向かうのでしょうか?

IT自動化と人工知能技術の進歩と発展により、IT担当者の働き方は大きく変化しました。今年に入って新...

分散キャッシュの実装: Java と MongoDB のキャッシュ一貫性戦略

インターネット アプリケーションの急速な発展に伴い、分散システムにおけるキャッシュが重要な役割を果た...

...

8x7B MoEとFlash Attention 2を組み合わせることで、10行未満のコードで高速推論が可能になります。

少し前に、Mistral AI がリリースした Mixtral 8x7B モデルがオープンソース コ...

AIとIoT技術を活用したスマートホームの開発

[[436214]]パーソナライゼーションと自動化は、ユーザー エクスペリエンスの品質を向上させるた...

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 M...

自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

[[275279]]アンソニー・レヴァンドウスキーはシリコンバレーのスターエンジニアです。自動運転技...

一流大学のAIが一流弁護士に勝つ:契約書のレビューを26秒で完了

最近、アメリカの一流弁護士たちが人工知能と競争したが、弁護士たちは負けたと報じられている。法律AIプ...

顔スキャン決済は問題多し、アマゾンは「手のひら」スキャンを選択し無人スーパーで正式に商品化

さあ、手払いについて学んでみましょう〜アマゾンはこのほど、自社が開発した手のひら認識技術「Amazo...

医療業界における人工知能の応用が直面する5つの課題

ヘルスケアにおける人工知能 (AI) の実装に関する課題を特定することで、ヘルスケア提供者は適切な戦...