機械学習チューナー: 機械学習を再調整する方法とタイミング

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]

古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である。」時間には揺るぎない力があります。概念も、社会も、人間自身も、時間とともに大きく変化していきます。

過去に先進的だったものは現在では時代遅れになり、今日斬新なアイデアも数年後には忘れ去られているかもしれません。変化を理解することは企業にとって重要です。

15年前、携帯電話製造会社がスマートフォンの開発に乗り出さなかったら、生き残ることは可能だったでしょうか? 携帯電話製造会社はほぼすべて市場から姿を消していました。かつてはシンプルな携帯電話を所有するのが当たり前だったが、人々のニーズはすぐにスマートフォンに移り、適応できなかった企業はその代償を払うこととなった。

データ分析は徐々に世界で優位になり始めており、機械学習モデルは企業の意思決定を促進する主力となっています。これらのモデルは、すべてのビジネス戦略と同様に、技術的には「モデルドリフト」により、時間の経過とともに調整する必要があります。

「モデルドリフト」とは何ですか?

ほとんどのコース、記事、投稿では、データの収集から始まり、さまざまな環境での機械学習モデルの展開で終わる機械学習ライフサイクルを定義していますが、機械学習ライフサイクルの非常に重要な特性であるモデルドリフトを忘れる人は少なくありません。

本質的には、ターゲット変数と独立変数の関係は時間の経過とともに変化します。モデルドリフトにより、モデルを安定させることが不可能になり、予想されるエラーが徐々に深刻化します。

単純な線形回帰を使用して、技術的な観点からこれを理解してみましょう。線形回帰では、独立変数 x_i をマッピングしてターゲット変数 y を予測するだけです。

y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …

ここで、α は切片であり、β_i は変数 x_i の係数に対応します。

通常、このマッピングは静的であると想定されます。つまり、係数 β_i (および切片 α) は時間の経過とともに変化せず、ターゲット変数 y の予測を制御する関係は将来のデータに対しても適切に有効であると想定されます。

ただし、この仮定はすべての場合に当てはまるわけではありません。企業の収益性はこのようなモデルに大きく依存しており、仮定が真実でなくなると、企業にとって深刻な脅威となります。

これらのモデルは将来の開発状況を表している可能性があるため、後になって確実に維持できなくなります。予測は、基礎となる条件の変化により、時間の経過とともに精度が低下します。

ドリフトの種類

モデルドリフトは次の 2 つのカテゴリに分けられます。

最初のタイプは「コンセプトドリフト」であり、これはターゲット変数自体の統計特性が変化すると発生します。明らかに、予測しようとしている変数の重要性が変化すると、モデルはこの定義に対して有効ではなくなります。

2 番目で最も一般的なカテゴリは「データ ドリフト」であり、予測の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは無効になります。

典型的な例としては、季節性によるデータ パターンの変化が挙げられます。夏に機能するビジネスモデルは、冬には機能しない可能性があります。休暇期間中は航空需要が大幅に増加しますが、オフシーズン中は搭乗率をかろうじて維持することしかできません。もうひとつの例としては、冒頭で述べたスマートフォンのような人々の嗜好の変化が挙げられます。

どうすれば解決できるでしょうか?

優れた解決策は、モデルを継続的に変更することです。モデルにドリフトが現れ始めると、過去の経験に基づいて推定を行うことができます。この方法では、モデルを積極的に再構築してドリフトのリスクを軽減できます。

データが時間の経過とともに絶えず変化する場合は、データを重み付けすることが適切なオプションです。最近の取引に基づいて特定のパラメータを決定する財務モデルでは、最近の取引を重視し、過去の取引をあまり重視しないなどの機能を追加できます。これにより、モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的なままで、ベースラインとして機能する必要があります。現在、データの動作が最近変化したため、このベースライン モデルの予測を修正する新しいモデルを構築できます。

モデルはどのくらいの頻度で再調整する必要がありますか?

より一般的な解決策は、モデルを継続的に再調整することであることはすでにわかっています。次の質問は、どのくらいの頻度で再調整する必要があるかということです。これには、特定の問題の特定の分析が必要です。

時々、問題が発生することがあります。問題が発生するのを待つことは最も簡単なアプローチではありませんが、過去の経験から問題がどのように発生するかを知る方法がないため、新しく構築されたモデルの場合はこれが唯一のオプションです。問題が表面化した場合、その問題を調査し、修正することで、将来発生する可能性のある関連する問題に対処することができます。

モデルで処理されるエンティティに関連するデータは、季節的なパターンに従うことがあります。この場合、季節の変化に合わせてモデルを再調整する必要があります。休日の支出が増加するにつれて、信用貸付業者はそのようなパターンの突然の変化に対処するための特別なモデルを必要とします。

ただし、ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。間隔は、分野や業務に応じて、1 週間、1 か月、または 1 四半期になります。

監視は手動で行うことも、自動スクリプトによって行うこともできます。異常な状況が発生した場合、自動化されたスクリプトはアラートをトリガーし、通知を送信できる必要があります。

変化は絶え間なく起こるものであり、変化を受け入れて監視する準備ができている企業だけが成功するということを覚えておくことが重要です。

<<:  機械学習を予知保全に適用するにはどうすればよいでしょうか?

>>:  AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない

ブログ    

推薦する

...

新しい報告書によると、AIはディープフェイクから人々を保護できない

Data & Society の新しいレポートでは、機械学習を使用して改変されるディープフェ...

ChatGPTを使用してスマートコントラクトとブロックチェーンに革命を起こす方法

1. はじめに近年、人工知能(AI)の進歩により、さまざまな業界に革命が起きています。 ChatGP...

数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボッ...

OpenAIを退社して無職だったカルパシー氏が大規模モデルを使った新プロジェクトに取り組み、1日で星の数が1000を突破

じっとしていられないアンドレイ・カルパティに新しいプロジェクトが! OpenAIはここ数日、非常に忙...

スーパーコンピューターで設計された、カエルの細胞から作られた初の生きたロボット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Alipay のディープラーニング エンジン xNN を公開

この記事では、Alipay アプリのディープラーニング エンジンである xNN を紹介します。 xN...

ドイツメディア:EUは人工知能の乱用を制限する法律制定を計画

専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...

アルトマン:解雇されて戻ってくるのは辛かったが、OpenAIにとっては良いことだ

1月8日、OpenAIのCEOサム・アルトマン氏は、タイム誌編集長とのインタビューで、昨年末に同社と...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う

PyTorch または TensorFlow を使用していますか?人々のグループによって答えは異なる...

人工知能が中国の古典「古いドラマ」と「古い映画」に新たな表情を与える

映画「トンネル戦争」修復前と修復後の比較。画像はインタビュー対象者より提供新華社北京1月1日(記者フ...

...

...