機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]

古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である。」時間には揺るぎない力があります。概念も、社会も、人間自身も、時間とともに大きく変化していきます。

過去に先進的だったものは現在では時代遅れになり、今日斬新なアイデアも数年後には忘れ去られているかもしれません。変化を理解することは企業にとって重要です。

15年前、携帯電話製造会社がスマートフォンの開発に乗り出さなかったら、生き残ることは可能だったでしょうか？携帯電話製造会社はほぼすべて市場から姿を消していました。かつてはシンプルな携帯電話を所有するのが当たり前だったが、人々のニーズはすぐにスマートフォンに移り、適応できなかった企業はその代償を払うこととなった。

データ分析は徐々に世界で優位になり始めており、機械学習モデルは企業の意思決定を促進する主力となっています。これらのモデルは、すべてのビジネス戦略と同様に、技術的には「モデルドリフト」により、時間の経過とともに調整する必要があります。

「モデルドリフト」とは何ですか?

ほとんどのコース、記事、投稿では、データの収集から始まり、さまざまな環境での機械学習モデルの展開で終わる機械学習ライフサイクルを定義していますが、機械学習ライフサイクルの非常に重要な特性であるモデルドリフトを忘れる人は少なくありません。

本質的には、ターゲット変数と独立変数の関係は時間の経過とともに変化します。モデルドリフトにより、モデルを安定させることが不可能になり、予想されるエラーが徐々に深刻化します。

単純な線形回帰を使用して、技術的な観点からこれを理解してみましょう。線形回帰では、独立変数 x_i をマッピングしてターゲット変数 y を予測するだけです。

y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …

ここで、α は切片であり、β_i は変数 x_i の係数に対応します。

通常、このマッピングは静的であると想定されます。つまり、係数 β_i (および切片 α) は時間の経過とともに変化せず、ターゲット変数 y の予測を制御する関係は将来のデータに対しても適切に有効であると想定されます。

ただし、この仮定はすべての場合に当てはまるわけではありません。企業の収益性はこのようなモデルに大きく依存しており、仮定が真実でなくなると、企業にとって深刻な脅威となります。

これらのモデルは将来の開発状況を表している可能性があるため、後になって確実に維持できなくなります。予測は、基礎となる条件の変化により、時間の経過とともに精度が低下します。

ドリフトの種類

モデルドリフトは次の 2 つのカテゴリに分けられます。

最初のタイプは「コンセプトドリフト」であり、これはターゲット変数自体の統計特性が変化すると発生します。明らかに、予測しようとしている変数の重要性が変化すると、モデルはこの定義に対して有効ではなくなります。

2 番目で最も一般的なカテゴリは「データドリフト」であり、予測の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは無効になります。

典型的な例としては、季節性によるデータパターンの変化が挙げられます。夏に機能するビジネスモデルは、冬には機能しない可能性があります。休暇期間中は航空需要が大幅に増加しますが、オフシーズン中は搭乗率をかろうじて維持することしかできません。もうひとつの例としては、冒頭で述べたスマートフォンのような人々の嗜好の変化が挙げられます。

どうすれば解決できるでしょうか?

優れた解決策は、モデルを継続的に変更することです。モデルにドリフトが現れ始めると、過去の経験に基づいて推定を行うことができます。この方法では、モデルを積極的に再構築してドリフトのリスクを軽減できます。

データが時間の経過とともに絶えず変化する場合は、データを重み付けすることが適切なオプションです。最近の取引に基づいて特定のパラメータを決定する財務モデルでは、最近の取引を重視し、過去の取引をあまり重視しないなどの機能を追加できます。これにより、モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的なままで、ベースラインとして機能する必要があります。現在、データの動作が最近変化したため、このベースラインモデルの予測を修正する新しいモデルを構築できます。

モデルはどのくらいの頻度で再調整する必要がありますか?

より一般的な解決策は、モデルを継続的に再調整することであることはすでにわかっています。次の質問は、どのくらいの頻度で再調整する必要があるかということです。これには、特定の問題の特定の分析が必要です。

時々、問題が発生することがあります。問題が発生するのを待つことは最も簡単なアプローチではありませんが、過去の経験から問題がどのように発生するかを知る方法がないため、新しく構築されたモデルの場合はこれが唯一のオプションです。問題が表面化した場合、その問題を調査し、修正することで、将来発生する可能性のある関連する問題に対処することができます。

モデルで処理されるエンティティに関連するデータは、季節的なパターンに従うことがあります。この場合、季節の変化に合わせてモデルを再調整する必要があります。休日の支出が増加するにつれて、信用貸付業者はそのようなパターンの突然の変化に対処するための特別なモデルを必要とします。

ただし、ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。間隔は、分野や業務に応じて、1 週間、1 か月、または 1 四半期になります。

監視は手動で行うことも、自動スクリプトによって行うこともできます。異常な状況が発生した場合、自動化されたスクリプトはアラートをトリガーし、通知を送信できる必要があります。

変化は絶え間なく起こるものであり、変化を受け入れて監視する準備ができている企業だけが成功するということを覚えておくことが重要です。

<<: 機械学習を予知保全に適用するにはどうすればよいでしょうか?

>>: AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない

ブログ

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

機械学習チューナー: 機械学習を再調整する方法とタイミング

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

顔認識は優れているが、業界の自制心と法的監督が依然として必要である。

人工知能と機械学習がスタートアップに与える影響

ChatGPT を使用すると、開発と学習の効率が向上するだけでなく、奥さんとの関係にも役立ちますか?

自動運転企業Roadstar.aiはシリーズA資金調達で1億2,800万ドルを調達し、2020年までに1,500台の自動運転車を運行する予定だ。

マイクロソフトの自動運転戦略：自動車を製造するのではなく、企業に技術サポートとクラウドサービスを提供する

囲碁AIの不正行為の最初の事例はすでに発生しています。他の事例は後れを取っているのでしょうか？

推薦する

Nvidiaのアルゴリズムが破られ、RTX30シリーズはマイニング計算能力を100%回復：グラフィックカードの値下げは終わったのか？

崑崙万為が「天宮」13Bシリーズ大型モデルをオープンソース化、商用利用のハードルはゼロ

世界的な「AI+教育」の波が到来、第3回AIAEDグローバルAIインテリジェントアダプティブ教育サミットのハイライトは「ネタバレ」

MobileSAM: モバイルデバイスに高いパフォーマンスをもたらす軽量の画像セグメンテーションモデル

OpenAIの創設者は、Nvidiaに対抗するチップを設計・製造するためのグローバルなチップ工場ネットワークを構築したいと考えている

清華大学とハルビン工業大学は大規模なモデルを 1 ビットに圧縮し、携帯電話で大規模なモデルを実行するという夢が実現しつつあります。

人工知能はプログラムを記述するためにコードを「盗む」ほど賢いが、プログラマーは職を失うことを心配する必要はない

海外のJavaエンジニアがGPT-4が論理パズルを解くことはできないが推論能力はあることを証明

人工知能とビッグデータはオリンピック選手のパフォーマンス向上の重要な要素となっている

復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化