01 空間表現 深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょう。
xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X 各xj(i)は特徴次元上の値です。
(xj, yj), j=1,2,…,N, xj∈X, yj∈Y 仮説空間 F は通常、パラメータベクトルによって決定される関数の族です。 F = {f | Y = fw(X), w∈Rn} このうち、パラメータベクトルwはn次元ベクトル空間Rn上の値をとり、これをパラメータ空間と呼びます。仮説空間 F は、条件付き確率の集合 (確率モデル) として定義することもできます。 F = {P|P(Y|X)} このうち、X は入力空間 X 上で定義されたランダム変数であり、Y は出力空間 Y 上で定義されたランダム変数です。 上記の式は、理解するのが少し抽象的かもしれません。次に、実際の例を通して関連する概念を理解しましょう。 まず、モデルを構築する前に、次のような複数の例で構成されるサンプル セットが必要です。 (ユーザーA、{年齢:29、身長:185、年収:70、婚姻状況:独身、ステータス:滞納}) (ユーザーB、{年齢:24、身長:167、年収:31、婚姻状況:既婚、ステータス:滞納なし}) (ユーザーC、{年齢:46歳、身長:177、年収:50、婚姻状況:離婚、状況:滞納なし}) … 各ユーザーとその属性のペアはサンプル (または観測値) と呼ばれます。このような一連のユーザーとその属性がサンプルセットを構成し、その中でユーザー「A」、「B」、「C」がサンプル空間を構成し、「特徴年齢」、「身長」、「年収」、「婚姻状況」が特徴空間を構成します。 さらに、パラメータ空間と呼ばれる空間があり、これは予測関数を構成するパラメータのすべての値で構成される空間です。 「ステータス」フィールドはサンプルのラベルを表し、モデルが判断する必要がある結果です。 この例では、特徴空間には年齢、身長、年収、婚姻状況の 4 つの値があります。これら 4 つの値は特徴空間の 4 つの次元を表します。言い換えると、この特徴空間の次元は 4 です。適切な仮定の下では、モデルは各機能が互いに干渉しないことを予想しますが、実際の状況では、通常、各機能間に関係がある可能性があります。 たとえば、2 つの次元 (年齢と身長) をプロットできます。若いとき(0~8歳)は、図3-1に示すように、身長の値が年齢とともに増加し続けることがはっきりとわかります。 ▲図3-1 変数相関の例 婚姻状況の特徴は、{未婚、既婚、離婚} の値を取ることがあり、これら 3 つの値によって婚姻状況の次元における特徴空間の値が制限されます。 データ内に{未婚、離婚}の値を持つサンプルが2つしかない場合、このデータセットはそれが配置されているサンプル空間を完全には表すことができません。つまり、特定の特性次元の一部の値が観察されず、この次元の特性の真の分布を十分に観察することができません。 観測されたサンプルポイントを通じて、図 3-2 に示すように、陰影付きの空間のみを表現できます。 ▲図3-2 空間表現の例 02 モデル学習 モデル トレーニング (学習またはフィッティングとも呼ばれる) とは、モデルにデータを渡し、モデルがデータの基礎となる法則 (データの分布など) を学習するプロセスを指します。モデル構築の本質は、データ分布から決定関数を抽象化することとして理解できます。 決定関数(非確率モデル)は、入力空間Xから出力空間Yへのマッピングf:X→Yとして定義されます。 仮説空間 F は、次の形式を持つ決定関数の集合として定義されます。 F = {f|Y = f(X)} このうち、X は入力空間 X、X∈X 上で定義された変数であり、Y は出力空間 Y 上で定義された変数です。 人が男性か女性か、ユーザーがローンを返済するかどうかなど、離散値を予測する場合、このタスクは分類と呼ばれます。同様に、ある人の年齢を予測したり、ユーザーが将来ローンを返済する時期を予測したりする場合、そのようなタスクは回帰と呼ばれます。 タスクに 2 つの値しかない場合、そのタスクはバイナリ分類タスクと呼ばれます。スコアリング カード モデルは、ユーザーが期限を過ぎるかどうかを予測する典型的なバイナリ分類タスクです。タスクに複数のカテゴリが含まれる場合、それはマルチ分類タスクと呼ばれます。 代表的な例としては、不正検知を行う際にユーザーが不正行為を行ったかどうかを予測することが挙げられます。これは一見、バイナリ分類(不正行為かどうかを予測する)タスクのように見えますが、実際にはユーザーの不正行為の手口はそれぞれ異なり、それぞれの不正行為の手口は別のカテゴリとなるため、本質的にはマルチ分類タスクとなります。 データにラベルが付けられているかどうかの観点から、モデルは教師あり学習 (SL)、半教師あり学習 (SSL)、教師なし学習 (UL) の 3 つのカテゴリに分類できます。
通常、モデルのパフォーマンスは次のようにランク付けされます。 教師あり学習 > 半教師あり学習 > 教師なし学習 ほとんどの場合、結果として得られるモデルがより良くなるように、ラベル情報を可能な限り使用する必要があります。しかし、多くの場合、ラベルを付けるかどうかは個人によって決まるわけではありません。たとえば、多くのプラットフォームでは不正なユーザーに対するラベルがないため、教師ありモデルのトレーニングは困難です。ただし、半教師あり学習と教師なし学習は一定の役割を果たすことができます。 03 モデル評価 モデル学習の結果については、主にアンダーフィットとオーバーフィットの 2 つが懸念されます。 アンダーフィッティングとは、モデルが適切に適合されておらず、データがフィッティング曲線から遠く離れていること、またはモデルがデータの特性をうまく捉えておらず、データに適切に適合できないことを意味します。つまり、モデルは学習の過程で習得すべき知識を十分に習得しておらず、モデル学習の偏差が大きくなっていたのです。 過剰適合とは、一貫した仮説を得るために仮説を厳しくしすぎること、つまりモデルが詳細に学習しすぎて、一部の個別のケースの特徴を共通の特徴として捉えてしまうことを意味し、その結果、モデルの一般化能力が低下します。 図 3-3 は、オーバーフィッティングとアンダーフィッティングの意味を非常にわかりやすく説明しています。図 a はアンダーフィッティング、図 b は良好なフィッティング、図 c はオーバーフィッティングを表しています。簡単に言えば、オーバーフィッティングとはモデルが慎重に学習しすぎることを意味し、アンダーフィッティングとはモデルが大まかに学習しすぎることを意味します。 ▲図3-3 適合度 モデル構造が複雑になるほど、過剰適合が発生しやすくなります。サンプル サイズが大きいほど、データ分布がより完全に公開され、モデルが過剰適合する可能性が低くなります。過剰適合と不足適合をより適切に表現するために、通常、モデリング中にサンプル セットはトレーニング セット (Train) とテスト セット (Test) に分割されます。 トレーニング セットはモデルのトレーニングに使用されるセットですが、テスト セットは主に、モデルの有効性を確認するためにトレーニング後にモデルをテストするために使用されます。一般的に、トレーニング セットではパフォーマンスが良いがテスト セットではパフォーマンスが悪いモデルは過剰適合のリスクがあり、トレーニング セットではテスト セットよりも大幅にパフォーマンスが悪いモデルは過小適合のリスクがあると考えられています。 モデルをトレーニングするときは、モデルがトレーニング セットで十分に機能することを期待するだけでなく、モデルが他のデータセットでも十分に機能することを期待します。トレーニング セットでのパフォーマンスとテスト セットでのパフォーマンスの差は一般化誤差と呼ばれ、一般化誤差はバイアス、分散、ノイズの 3 つの部分で構成されます。 バイアスは、モデルの予想される予測と実際の結果の間の偏差の度合い、つまりモデル自体の適合能力を測定します。 分散は、同じサイズのトレーニング セットの変更によって引き起こされる学習能力の変化、つまりデータの変化の影響を測定します。 ノイズは、問題自体を適合させることの難しさを表します。 図3-4はトレーニングの度合いと誤差の関係を示しています。 ▲図3-4 トレーニングレベルと誤差 通常、オフライン モデル トレーニングが完了し、最終モデルがオンラインになる前に、テスト セットとトレーニング セットが統合され、モデル係数が再調整されて最終モデルが得られます。これは、人工データセットが大きいほど、サンプル空間がより完全に表現される可能性が高くなるためです。一部の露出不足の特徴値に対応するラベル分布は、データ量が増加すると露出率が高くなる可能性があります。たとえば、前の例のデータ セットは次のようになります。 (ユーザーA、{年齢:29、身長:185、年収:70、婚姻状況:独身、ステータス:滞納}) (ユーザーB、{年齢:24、身長:167、年収:31、婚姻状況:既婚、ステータス:滞納なし}) (ユーザーC、{年齢:46歳、身長:177、年収:50、婚姻状況:離婚、状況:滞納なし}) … 婚姻状況の値がトレーニング セットには存在せず、テスト セットにのみ存在する場合、テスト セットとトレーニング セットを組み合わせて最終モデルを取得すると、将来のユーザーを予測する際の偏差は小さくなります。 ただし、極度勾配ブースティングマシン(XGBoost)などの一部のモデルでは、トレーニングプロセスの早期停止を実現するためにテストサンプルセットを使用する必要があります。そのため、元のトレーニングセットから少数のサンプルを選択して早期停止の基準とするなど、トレーニングに参加しない追加のサンプルを選択する必要があります。 著者について: Mei Zixing は、上級リスク管理技術専門家、AI 技術専門家、アルゴリズム専門家です。多くの有名な金融テクノロジー企業でアルゴリズム研究者およびデータマイニング エンジニアとして勤務してきました。彼は、Experian、Discover などの企業で上級リスク管理専門家の下で学びました。彼は、ディープラーニング、複雑ネットワーク、転移学習、異常検出などの非伝統的な機械学習手法を得意とし、データマイニングやアルゴリズムのクロスドメイン最適化の実践に熱心です。 Mao Xinyu は、シニアブランドビジュアルデザイナー兼イラストレーターです。彼はかつて国内の有名な文化観光会社のブランドデザイナーとして働いており、有名な文化観光地やブランドデザイン事例の設計と作成に携わっていました。 この記事は「スマートリスクコントロール: Python による財務リスク管理とスコアカードモデリング」から抜粋したもので、出版社の許可を受けています。 |
>>: IoTとAIはパンデミック中に企業が事業を再開するのにどのように役立つか
何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...
[[422303]]人工知能(AI)は、かなり長い間、世界中のビジネスにおいて安定した存在となってい...
Windows Insider ユーザーが投稿したスクリーンショットから判断すると、Windows ...
現在、私たちは「インターネット+」から「人工知能」への移行を経験しています。人工知能の発展は、技術レ...
1. IoT AIによるパーソナライズされたインテリジェントなユーザーエクスペリエンスIoT の人...
序文最近、突然素晴らしいアイデアが浮かびました。コンピューターの画面に顔を向けると、コンピューターは...
たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...
先ほど、2023年未来科学賞の受賞者が発表されました!今年の「数学およびコンピューターサイエンス賞」...
[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...