機械学習の基本概念30選（手描きイラスト）

01 空間表現

深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょう。

機能: 属性ベクトルによって表される、特定のものの属性の説明。 j番目のレコードxjの属性ベクトルは次のように表すことができます。

xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X

各xj(i)は特徴次元上の値です。

ラベル: サンプルラベルとも呼ばれ、オブジェクトの特定の特性を表すために使用されます。
タグ値: タグの値。バイナリ分類問題では、値は通常 0 と 1 です。
ラベル空間 (出力空間): Y で表されるすべてのラベルの集合。
サンプル: サンプルとも呼ばれます。対応するタグを持つレコードは、(レコード、タグ) のペアで表されます。たとえば、j 番目の例は次のように表現できます。

(xj, yj), j=1,2,…,N, xj∈X, yj∈Y

仮説空間 F は通常、パラメータベクトルによって決定される関数の族です。

F = {f | Y = fw(X), w∈Rn}

このうち、パラメータベクトルwはn次元ベクトル空間Rn上の値をとり、これをパラメータ空間と呼びます。仮説空間 F は、条件付き確率の集合 (確率モデル) として定義することもできます。

F = {P|P(Y|X)}

このうち、X は入力空間 X 上で定義されたランダム変数であり、Y は出力空間 Y 上で定義されたランダム変数です。

上記の式は、理解するのが少し抽象的かもしれません。次に、実際の例を通して関連する概念を理解しましょう。

まず、モデルを構築する前に、次のような複数の例で構成されるサンプルセットが必要です。

（ユーザーA、{年齢：29、身長：185、年収：70、婚姻状況：独身、ステータス：滞納}）

（ユーザーB、{年齢：24、身長：167、年収：31、婚姻状況：既婚、ステータス：滞納なし}）

（ユーザーC、{年齢：46歳、身長：177、年収：50、婚姻状況：離婚、状況：滞納なし}）

…

各ユーザーとその属性のペアはサンプル (または観測値) と呼ばれます。このような一連のユーザーとその属性がサンプルセットを構成し、その中でユーザー「A」、「B」、「C」がサンプル空間を構成し、「特徴年齢」、「身長」、「年収」、「婚姻状況」が特徴空間を構成します。

さらに、パラメータ空間と呼ばれる空間があり、これは予測関数を構成するパラメータのすべての値で構成される空間です。「ステータス」フィールドはサンプルのラベルを表し、モデルが判断する必要がある結果です。

この例では、特徴空間には年齢、身長、年収、婚姻状況の 4 つの値があります。これら 4 つの値は特徴空間の 4 つの次元を表します。言い換えると、この特徴空間の次元は 4 です。適切な仮定の下では、モデルは各機能が互いに干渉しないことを予想しますが、実際の状況では、通常、各機能間に関係がある可能性があります。

たとえば、2 つの次元 (年齢と身長) をプロットできます。若いとき（0～8歳）は、図3-1に示すように、身長の値が年齢とともに増加し続けることがはっきりとわかります。

▲図3-1 変数相関の例

婚姻状況の特徴は、{未婚、既婚、離婚} の値を取ることがあり、これら 3 つの値によって婚姻状況の次元における特徴空間の値が制限されます。

データ内に{未婚、離婚}の値を持つサンプルが2つしかない場合、このデータセットはそれが配置されているサンプル空間を完全には表すことができません。つまり、特定の特性次元の一部の値が観察されず、この次元の特性の真の分布を十分に観察することができません。

観測されたサンプルポイントを通じて、図 3-2 に示すように、陰影付きの空間のみを表現できます。

▲図3-2 空間表現の例

02 モデル学習

モデルトレーニング (学習またはフィッティングとも呼ばれる) とは、モデルにデータを渡し、モデルがデータの基礎となる法則 (データの分布など) を学習するプロセスを指します。モデル構築の本質は、データ分布から決定関数を抽象化することとして理解できます。

決定関数（非確率モデル）は、入力空間Xから出力空間Yへのマッピングf:X→Yとして定義されます。

仮説空間 F は、次の形式を持つ決定関数の集合として定義されます。

F = {f|Y = f(X)}

このうち、X は入力空間 X、X∈X 上で定義された変数であり、Y は出力空間 Y 上で定義された変数です。

人が男性か女性か、ユーザーがローンを返済するかどうかなど、離散値を予測する場合、このタスクは分類と呼ばれます。同様に、ある人の年齢を予測したり、ユーザーが将来ローンを返済する時期を予測したりする場合、そのようなタスクは回帰と呼ばれます。

タスクに 2 つの値しかない場合、そのタスクはバイナリ分類タスクと呼ばれます。スコアリングカードモデルは、ユーザーが期限を過ぎるかどうかを予測する典型的なバイナリ分類タスクです。タスクに複数のカテゴリが含まれる場合、それはマルチ分類タスクと呼ばれます。

代表的な例としては、不正検知を行う際にユーザーが不正行為を行ったかどうかを予測することが挙げられます。これは一見、バイナリ分類（不正行為かどうかを予測する）タスクのように見えますが、実際にはユーザーの不正行為の手口はそれぞれ異なり、それぞれの不正行為の手口は別のカテゴリとなるため、本質的にはマルチ分類タスクとなります。

データにラベルが付けられているかどうかの観点から、モデルは教師あり学習 (SL)、半教師あり学習 (SSL)、教師なし学習 (UL) の 3 つのカテゴリに分類できます。

教師あり学習とは、アプリケーションスコアカードのモデリングにおいて、サンプルセット内の各ユーザーのラベルが明確にわかっていること、つまり、そのうちの 1 人を選択すると、そのユーザーの延滞ステータスがわかることを意味します。
教師なし学習とは、モデリング時に現在のサンプルセットのラベル情報がないこと、つまりどの人が期限を過ぎているかがまったくわからないことを意味します。
半教師あり学習はその中間です。現在のサンプルセットでは、一部のサンプルのラベルはわかっていますが、他のサンプルのラベルが期限切れかどうかはわかりません。

通常、モデルのパフォーマンスは次のようにランク付けされます。

教師あり学習 > 半教師あり学習 > 教師なし学習

ほとんどの場合、結果として得られるモデルがより良くなるように、ラベル情報を可能な限り使用する必要があります。しかし、多くの場合、ラベルを付けるかどうかは個人によって決まるわけではありません。たとえば、多くのプラットフォームでは不正なユーザーに対するラベルがないため、教師ありモデルのトレーニングは困難です。ただし、半教師あり学習と教師なし学習は一定の役割を果たすことができます。

03 モデル評価

モデル学習の結果については、主にアンダーフィットとオーバーフィットの 2 つが懸念されます。

アンダーフィッティングとは、モデルが適切に適合されておらず、データがフィッティング曲線から遠く離れていること、またはモデルがデータの特性をうまく捉えておらず、データに適切に適合できないことを意味します。つまり、モデルは学習の過程で習得すべき知識を十分に習得しておらず、モデル学習の偏差が大きくなっていたのです。

過剰適合とは、一貫した仮説を得るために仮説を厳しくしすぎること、つまりモデルが詳細に学習しすぎて、一部の個別のケースの特徴を共通の特徴として捉えてしまうことを意味し、その結果、モデルの一般化能力が低下します。

図 3-3 は、オーバーフィッティングとアンダーフィッティングの意味を非常にわかりやすく説明しています。図 a はアンダーフィッティング、図 b は良好なフィッティング、図 c はオーバーフィッティングを表しています。簡単に言えば、オーバーフィッティングとはモデルが慎重に学習しすぎることを意味し、アンダーフィッティングとはモデルが大まかに学習しすぎることを意味します。

▲図3-3 適合度

モデル構造が複雑になるほど、過剰適合が発生しやすくなります。サンプルサイズが大きいほど、データ分布がより完全に公開され、モデルが過剰適合する可能性が低くなります。過剰適合と不足適合をより適切に表現するために、通常、モデリング中にサンプルセットはトレーニングセット (Train) とテストセット (Test) に分割されます。

トレーニングセットはモデルのトレーニングに使用されるセットですが、テストセットは主に、モデルの有効性を確認するためにトレーニング後にモデルをテストするために使用されます。一般的に、トレーニングセットではパフォーマンスが良いがテストセットではパフォーマンスが悪いモデルは過剰適合のリスクがあり、トレーニングセットではテストセットよりも大幅にパフォーマンスが悪いモデルは過小適合のリスクがあると考えられています。

モデルをトレーニングするときは、モデルがトレーニングセットで十分に機能することを期待するだけでなく、モデルが他のデータセットでも十分に機能することを期待します。トレーニングセットでのパフォーマンスとテストセットでのパフォーマンスの差は一般化誤差と呼ばれ、一般化誤差はバイアス、分散、ノイズの 3 つの部分で構成されます。

バイアスは、モデルの予想される予測と実際の結果の間の偏差の度合い、つまりモデル自体の適合能力を測定します。

分散は、同じサイズのトレーニングセットの変更によって引き起こされる学習能力の変化、つまりデータの変化の影響を測定します。

ノイズは、問題自体を適合させることの難しさを表します。

図3-4はトレーニングの度合いと誤差の関係を示しています。

▲図3-4 トレーニングレベルと誤差

通常、オフラインモデルトレーニングが完了し、最終モデルがオンラインになる前に、テストセットとトレーニングセットが統合され、モデル係数が再調整されて最終モデルが得られます。これは、人工データセットが大きいほど、サンプル空間がより完全に表現される可能性が高くなるためです。一部の露出不足の特徴値に対応するラベル分布は、データ量が増加すると露出率が高くなる可能性があります。たとえば、前の例のデータセットは次のようになります。

（ユーザーA、{年齢：29、身長：185、年収：70、婚姻状況：独身、ステータス：滞納}）

（ユーザーB、{年齢：24、身長：167、年収：31、婚姻状況：既婚、ステータス：滞納なし}）

（ユーザーC、{年齢：46歳、身長：177、年収：50、婚姻状況：離婚、状況：滞納なし}）

…

婚姻状況の値がトレーニングセットには存在せず、テストセットにのみ存在する場合、テストセットとトレーニングセットを組み合わせて最終モデルを取得すると、将来のユーザーを予測する際の偏差は小さくなります。

ただし、極度勾配ブースティングマシン（XGBoost）などの一部のモデルでは、トレーニングプロセスの早期停止を実現するためにテストサンプルセットを使用する必要があります。そのため、元のトレーニングセットから少数のサンプルを選択して早期停止の基準とするなど、トレーニングに参加しない追加のサンプルを選択する必要があります。

著者について: Mei Zixing は、上級リスク管理技術専門家、AI 技術専門家、アルゴリズム専門家です。多くの有名な金融テクノロジー企業でアルゴリズム研究者およびデータマイニングエンジニアとして勤務してきました。彼は、Experian、Discover などの企業で上級リスク管理専門家の下で学びました。彼は、ディープラーニング、複雑ネットワーク、転移学習、異常検出などの非伝統的な機械学習手法を得意とし、データマイニングやアルゴリズムのクロスドメイン最適化の実践に熱心です。

Mao Xinyu は、シニアブランドビジュアルデザイナー兼イラストレーターです。彼はかつて国内の有名な文化観光会社のブランドデザイナーとして働いており、有名な文化観光地やブランドデザイン事例の設計と作成に携わっていました。

この記事は「スマートリスクコントロール: Python による財務リスク管理とスコアカードモデリング」から抜粋したもので、出版社の許可を受けています。

<<: AI時代のRedis

>>: IoTとAIはパンデミック中に企業が事業を再開するのにどのように役立つか