機械学習の戦略原則: 基本プロセス、アルゴリズムフレームワーク、プロジェクト管理

著者: cooperyjli、Tencent CDG のデータアナリスト

機械学習は、データの収集、アルゴリズムの適用、モデルの生成に重点を置いた問題解決の考え方です。通常のデータ統計や分析と比較すると、機械学習は独自の最適化プロセスと評価システムを持ち、より独立性が高く、比較的クローズドループな分野です。馮有蘭は『中国哲学略史』の中で、いわゆる哲学とは人生に対する体系的な反省の思想であると述べています。この意味で、機械学習は間違いなく、日常的なデータ作業のためのツールボックスの中で、比較的よりインテリジェントなツールです。

[[333117]]

この記事は技術的な記事ではありません。数学的導出とプログラミング実装の2つの部分から完全に飛び出し、純粋な中国語を使用して機械学習の戦略原理を説明することを目的としています。物理学の公式を取り出すと、物理学は数学になると言われています。機械学習の基本的な問題を抽出して、機械学習をもう一度見てみると、実はそれが豊かで実用的な哲学的思考、あるいは問題を解決するための戦略的な原則のようなものだということが分かります。

以下では、まず機械学習の基本的なプロセスを説明し、いくつかの主要なプロセスと重要な要素を列挙します。次に、教師あり学習アルゴリズム、教師なし学習アルゴリズム、一般的に使用される次元削減アルゴリズムと特徴選択アルゴリズムを含む機械学習の主要なアルゴリズムフレームワークを紹介します。最後に、ビジネス実践のプロセスにおいて、実行可能なプロジェクト管理プロセスを参考として示します。

1. 基本的なプロセス

1.1 機械学習の5つのステップ

機械学習を閉ループの作業項目として見ると、そのプロセス全体が、AB テストの実行、競合製品の分析の実行、定量戦略の作成など、日常生活で行う他の作業と似ていることがわかります。ただ、基本的なプロセスでは、考慮する必要がある問題や使用するツールや方法が異なります。

以下は、ダリオ氏の 5 段階のプロセスを参照し、機械学習の基本的なプロセスを 5 つのステップに簡素化する試みです。

01目標を決める

機械学習の目的は機械学習そのものではなく、この方法を現実のシナリオに適用して実際の問題を解決することです。したがって、作業を開始する前に、失踪したユーザーに対してリスク警告を発行するかどうか、潜在的な支払いユーザーの意思を評価するかどうか、クレジットユーザーの間で不正行為を特定するかどうかなど、達成したい目標について明確に考える必要があります。

02問題の診断

達成すべき目標が明確であるため、現実に基づいて問題を診断できます。この目標を達成するために、機械学習はどのような出力を出す必要があるでしょうか。単純な 0-1 ラベルで十分なのでしょうか、それとも継続的なリスク確率が必要なのでしょうか。現在のデータ量がこのプロジェクトをサポートできるかどうか、ビジネスサンプルの白黒比率が不均衡かどうかなど、これらの問題はすべて診断する必要があります。

03スキーム設計

達成すべき目標を明確に定義し、現実に存在する問題を理解したら、解決策の設計を開始できます。このセグメント化されたビジネスシナリオでは、どのタイプのアルゴリズムが適していますか? 多くの場合、異なるフィールドに対して異なるアルゴリズムが作成されます。このシナリオでは、明確な白黒のサンプルがない場合、サンプルを定義するためにどのような方法を使用する必要がありますか?プログラム設計のプロセスでは、実行される作業の一般的な方向性を示す必要があります。これは、適切なフレームワーク内で時間とエネルギーを制限することと同じです。

04計画の実施

計画の実行中に問題が発生した場合、それをどのように解決するかも非常に重要なリンクです。機械学習アルゴリズムの実行は一般に最適化プロセスと呼ばれ、アルゴリズムフレームワーク内で最適な結果をできるだけ早く達成する方法を指します。計画全体の実行には、データの準備、特徴エンジニアリング、アルゴリズムのデバッグ、モデルの評価などの具体的な事項が含まれます。各事項は互いに独立しており、独自の方法論を持っていますが、相互に影響を及ぼし、上流と下流の間の実行効果は密接に関連しています。

05評価の繰り返し

評価プロセスは、実際には目標を定量化するプロセスです。定量化により、結果の品質を絶対的な意味で測定できます。ただ、ビジネス目標が異なり、モデルフレームワークが異なり、対応する評価システムも異なるだけです。適切な評価方法を確立することで、機械学習プロジェクトは閉ループを実現し、反復を通じて達成すべきビジネス目標に徐々に近づいていきます。

1.2 機械学習の重要な要素

01機械学習の3つの要素

労働、資本、土地などが経済の基本要素であるように、機械学習にもデータ、アルゴリズム、モデルという3つの要素があり、それらは不可欠で相互に関連しており、仕事のプロセス全体にわたって実行されます。機械学習のプロセスは、十分なデータを準備し、適切なアルゴリズムを適用し、優れたモデルを生成することであると言われています。

02その他のポイント

機械学習の3つの要素に加えて、特徴処理、最適化アルゴリズム、モデル評価など、実はかなり重要なポイントがいくつかあります。これらのコンテンツがなくても、モデルは実際に生成できますが、大幅に割引されたレベルでしか生成できません。特徴処理はモデルパフォーマンスの上限を決定し、最適化アルゴリズムはモデルパフォーマンスの上限に最善の方法で近づくことを可能にし、モデル評価はどのようなモデルパフォーマンスについて話しているのかを定義します。これらは機械学習プロジェクトの「アクセラレータ」です。

2. 教師あり学習

教師あり学習はラベル付けされたデータを扱います。つまり、ビジネスシナリオでは絶対的な白黒があり、良い点と悪い点が明確です。たとえば、信用リスク管理のシナリオでは、延滞は延滞であり、金融市場のシナリオでは、上昇と下降の境界も明確です。履歴データから学習することで、現在のデータに離散ラベルまたは連続的な数値結果が与えられます。

2.1 線形モデル

線形モデルの出発点は非常にシンプルで、物事の成功を決定する複数の要因、たとえば ABCDE の 5 つの要因を考慮することです。各要因には独自の重みがあります。各要因を検討した後にのみ、最終的な決定を下すことができます。この考え方を数式に翻訳すると、従属変数、独立変数、係数、バイアスの概念が得られ、線形モデルが形成されます。

線形モデルは複雑で、長い歴史があり、さまざまなバリエーションを持つこともあります。最も古典的な形式は、線形基底にシグモイド関数を追加して線形出力を確率に変換し、さらに白黒のラベルに変換することです。これがロジスティック回帰です。従来の金融シナリオにおけるカードのスコアリングの分野では、ロジスティック回帰の適用は非常に広範かつ詳細です。

2.2 決定木

決定木の考え方は、「分割統治」という 4 つの単語で要約できます。線形モデルで考慮される要因は互いに平行であり、重みが異なりますが、決定木ではそうではありません。決定木内の要因は連続しており、つまり、最初に要因 A が考慮され、次に要因 A のさまざまな状況に対して新しい要因が考慮され、このサイクルが繰り返されて一連の決定リンク、つまり決定木が形成されます。

したがって、意思決定ツリーで最も重要な質問は、この決定を継続するために現在のノードでどのような要素を考慮する必要があるかということです。この問題を解決するために、決定木はコンピュータ分野に情報エントロピーの概念を導入しました。演繹後、最大ゲインやゲイン率などの指標が得られ、これは 2 つの古典的な決定木パラダイム ID3 と C4.5 に対応しています。その後、ジニ係数が要因選択の基準として導入され、CART 決定木が生成されました。

2.3 ベイジアン

ベイズ学派と頻度論派の間の論争は、物理学における波動粒子論争と非常によく似ています。数学者はパラメータが存在するかどうかを議論し、物理学者は光が波か粒子かを議論します。波動粒子論争は最終的に波動粒子二重性理論によって決着したが、ベイズ学派と頻度論派の間の論争は終結せず、それぞれの学派がさまざまな時代に支配的であり続けた。

頻度主義学派は、客観的な実体（パラメータ）が存在すると信じており、最大尤度推定など、このパラメータを可能な限り適合させて近似する必要があると考えています。ベイズ学派はこれを信じようとしません。彼らは、私が見て（事前確率）、私が考え（事後確率）、私が決定を下す（ベイズモデル）と主張します。ベイズ理論はテキスト処理の分野で広く使用されており、多くの古典的なモデルを生み出してきました。要因間の独立性の違いに基づいて、ナイーブベイズやその他のベイズアルゴリズムが作成されました。

2.4 サポートベクターマシン

サポートベクターマシンは完璧さを追求します。すべての実行可能なソリューションの中から唯一の最適なソリューションを見つけることを目指します。 2 次元平面では、この解は唯一の直線です。3 次元空間では、この解は唯一の面です。そして、N 次元空間では、この解は唯一の超平面です。この解を見つけるために使用されるサンプルポイントはサポートベクターと呼ばれます。

カーネル関数は、サポートベクターマシンの強力な武器です。いわゆる「次元削減攻撃」と同様に、カーネル関数は次元を増やすことで問題を解決することを目的としています。現状の苦境に対する答えが見つからない場合は、より高い次元で突破口を見つけてください。

2.5 ニューラルネットワーク

ニューラルネットワークは生物学におけるニューロンの概念を導入します。各ニューロンは、入力と重み、しきい値と出力を持つ単純なものです。しかし、多数のニューロンで多層ネットワークが構築され、ネットワークが相互接続されると、問題は複雑になります。 2006 年以降、ニューラルネットワークはディープラーニングへと変化し、数え切れないほどの神秘的または素晴らしいビジネスストーリーを生み出しました。

ニューラルネットワークのトレーニングプロセスにおいて、非常に興味深いのは、局所最適値と全体最適値です。モデルのトレーニング中に局所最適性のジレンマに陥り、最適なソリューションの検索をやめてしまうことはよくあります。これは、物事を何度も繰り返し行うと、うまくできるものの十分ではないのと同じです。この問題を解決するために、シミュレーテッドアニーリングや確率的勾配降下法などのさまざまなトレーニング戦略が設計されてきました。

2.6 アンサンブル学習

アンサンブル学習の概念は「良いが、違う」です。問題に対して、単一のモデルでは常に最適なソリューションを提供できない場合は、優れたパフォーマンスを実現できる可能性のある、複数の優れた異なるサブモデルを統合する方が適切です。 3人の靴屋は諸葛亮よりも優れている。どの靴職人にも欠点はあるが、それぞれに長所がある。諸葛亮は単一のモデルとしては究極だが、それでも限界はある。

アンサンブル学習には 2 つの分岐があります。サブモデルがシリアルに生成される場合はブースティング、サブモデルが並列に生成される場合はバギングです。 Boostは一つずつ強調し、前のサブモデルの欠陥を次のサブモデルで補います。xgBoostとGBDTはともにその代表です。Baggingは集団で戦う方が単独で戦うよりも優れていることを強調し、異なるサンプルを学習することで異なるサブモデルを生成します。バギングのバリエーションであるランダムフォレストは、このタイプのモデルの優れた代表例です。

3. 教師なし学習

教師あり学習はラベル付きデータを処理し、教師なし学習はラベルなしデータを処理します。絶対的なラベルがないからこそ、データ自体の情報や構造がより重視され、モデルによって得られた結果の合理性についてより豊かで詳細な評価が行われることになります。以下では、主にいくつかの異なるタイプのクラスタリングアルゴリズムを紹介します。

3.1 プロトタイプに基づく

プロトタイプベースのクラスタリングでは、データには特定の決定論的な構造があり、異なるカテゴリの構造は異なるはずであることを強調します。 K 平均法は、プロトタイプクラスタリングの代表的な手法です。データには K 個の中心点があると考えられています。これらの K 個の中心点の位置を反復的に更新することで、反復が終了するまですべてのサンプルポイントが K 個のプロトタイプに分割されます。

3.2 密度ベース

密度ベースのクラスタリングでは、データにカテゴリがある場合、そのカテゴリ内のサンプルポイント間には一定の近さがあることを強調します。そうでない場合は、他のカテゴリに属します。 DBSCAN は、このタイプのアルゴリズムの代表例です。K 平均法とは異なり、事前に K 個の中心を想定するのではなく、最初にカテゴリを見つけ、このカテゴリ内のすべてのサンプルポイントを取得し、残りのデータセットで次のカテゴリを検索して、すべてのサンプルがカテゴリを見つけるまで続けます。

3.3 階層に基づく

階層的クラスタリングは、より三次元的な観点から、サンプルポイントを下から上へと層ごとに分割します。 AGENS はこのタイプのアルゴリズムの代表例であり、最初のレイヤーでは、すべてのサンプルポイントを初期カテゴリと見なし、カテゴリ間の距離を計算し、それらを連続的にマージして、最後のレイヤーで指定された数のカテゴリを保持します。

教師あり学習と比較すると、教師なし学習はラベルに縛られず、よりオープンなシナリオになり、さまざまな形式のアルゴリズムが多数登場しています。ただし、これらの異なるタイプのクラスタリングアルゴリズムでは、外部指標と内部指標に分かれているクラスタリング結果のパフォーマンスを測定する方法、たとえばサンプルポイント間の距離を計算する方法など、いくつかの共通の問題についてまだ議論する必要があります。さまざまな次元に基づいて、ミンコフスキー距離はマンハッタン距離、ユークリッド距離、チェビシェフ距離に分けられます。

4. その他のアルゴリズム

教師あり学習と教師なし学習に加えて、次元削減アルゴリズム、特徴選択アルゴリズムなど、特定のモデルを直接生成しないものの、データ探索、モデルトレーニング、その他のプロセスに不可欠なアルゴリズムがいくつかあります。

4.1 次元削減

データのばらつきは情報の表現形式として考えられます。現在のデータセットを再構築し、少数の特徴を使用してデータセットに含まれる大量の情報を抽出するのが次元削減の概念であり、その中で PCA は優れた代表例です。ビジネス目標を達成するために、現実世界から収集したデータは、最適な表現ではないことがよくあります。データが重複していたり、冗長だったりする場合があります。次元削減により、これらの元のデータを再構築し、より優れたデータ表現を生成することができます。

4.2 特徴選択

機械学習アルゴリズムは料理に使用されますが、どの材料を調理するかを選択すること自体が問題です。揚州チャーハンを作るには、キッチンにあるすべての材料を揃えるわけにもいかず、フライパンで野菜と米を炒めるだけでもいけません。材料の選び方は、特徴選択の領域です。フィルタリング方式では、特徴選択とモデルのトレーニングは互いに独立しており、干渉しません。ラッピング方式では、モデルのパフォーマンスが特徴選択の効果の基準となり、両者は相互に影響を及ぼします。また、埋め込み選択方式もあります。多くの場合、データ処理と特徴選択の影響によって、モデルのパフォーマンスの上限が決まります。

5. 練習のプロセス

ビジネス実践のプロセスは多くの場合、「工業化」を追求するプロセスであり、そこでは行われることが実際の状況に即したものでなければならず、実行可能で再利用可能であることが求められます。このプロセスでは、人々は固定されたフレームワークを使用して作業を規制する傾向があります。このフレームワークの欠点は、比較的硬直的で、ある程度の自由度が制限されることですが、利点は、明確に見える進捗バーがあり、プロジェクトの管理と前進に役立つことです。ここで著者は、参考として使用できる、以前に使用した実行可能な管理フレームワークを共有しています。

5.1 シナリオ分析

一部の緊急事項を除き、仕事上の緊急性が低いほとんどの事柄については、シナリオ分析プロセスを自分で予約することができます。それは、物事を実行する前にまずそこから抜け出し、その周囲やその相互関係、そしてそれが成立するかどうかを左右するさまざまな条件について考え、そしてその場面に飛び込むことを選択することと同じです。

シナリオ分析プロセスでは、セグメント化されたビジネスシナリオを整理し、ビジネス目標に基づいて機械学習モデリングの実現可能性と再利用性を評価する必要があります。ビジネス目標が明確で、機械学習の方法が適切である場合は、モデリングに進みます。

5.2 データの準備

データは機械学習プロジェクトの原材料であり、料理の材料や建物を建てる土台に相当し、極めて重要です。データ準備の過程では、実際にデータソースがいくつあり、それらがどのようなデータ幅を構成しているかを把握する必要があります。ビジネス目標に基づいて、一連の要因指標システムを配置し、どれが達成可能かを確認する必要があります。同時に、最終的に取得したデータに対して、完全性、外れ値などの品質分析を行い、基本的なデータ前処理作業を実行することも必要です。

5.3 モデル開発

モデル開発の仕事は、実は本当の意味での制作プロセスなのです。まず、選択したアルゴリズムの基本原理を理解して、特徴エンジニアリングを通じてソースデータをモデルが読み取れるデータに変換する、成熟した機械学習プラットフォームまたはフレームワークを通じてモデルをトレーニングおよび生成する、本番環境に移行する前にモデルを評価および検証するなどの後続の処理作業を実行できるようにする必要があります。

5.4 モデルの応用

モデルが生成されても、それは技術的な意味でのみ生成され、ビジネス的な意味では使用できません。たとえば、信用リスクモデルは確率を出力します。この確率をさまざまなユーザーグループに適用するには、特定のビジネス戦略システムが必要です。モデルの適用プロセスは、モデル出力とビジネス出力の間の架け橋となります。

5.5 モデルの展開

評価と承認の後、モデルのパフォーマンスが期待された効果に達した場合は、モデルの展開とタスクのスケジュール設定の段階に進むことができます。ただし、モデルの展開は一度きりのことではありません。本番環境に移行した後も、モデルのパフォーマンスの変化、対象集団の安定性などを追跡および監視する必要があります。変更条件がトリガーされた場合は、モデルを最適化する必要があります。

<<: 再帰アルゴリズムの深い理解、誤解された再帰

>>: Python 密度クラスタリングアルゴリズム - DBSCAN の実践