半教師あり学習とその応用シナリオの簡単な分析

半教師あり学習とその応用シナリオの簡単な分析

ラボガイド

インターネットの発展により、企業はより多くのデータを入手できるようになりました。これらのデータは、企業がユーザー、つまり顧客像をより深く理解するのに役立ち、ユーザーエクスペリエンスを向上させるためにも使用できます。しかし、これらのデータにはラベル付けされていないデータが大量に含まれている可能性があります。すべてのデータに手動でラベルを付ける場合、2 つのデメリットがあります。まず、時間がかかり、非効率的です。データの量が多くなるほど、より多くの人材を雇う必要があり、時間がかかり、コストも高くなります。次に、ユーザー規模が大きくなると、手動のラベル付けの速度がデータの増加に追いつかなくなります。

パート01.半教師あり学習とは何ですか?

半教師あり学習とは、ラベル付きデータとラベルなしデータの両方を使用してモデルをトレーニングすることを指します。半教師あり学習では通常、ラベル付きデータに基づいて属性空間を構築し、ラベルなしデータから有効な情報を抽出して属性空間を埋める (または再構築する) ことになります。そのため、半教師あり学習の初期トレーニング セットは通常、ラベル付きデータ セット D1 とラベルなしデータ セット D2 に分割されます。次に、前処理や特徴抽出などの基本的な手順を経て、半教師あり学習モデルがトレーニングされます。トレーニングされたモデルは、実稼働環境で使用され、ユーザーにサービスを提供します。

パート 02: 半教師あり学習の前提

ラベル付けされたデータを「有用な」情報で効果的に補足するために、データ分布などの側面についていくつかの仮定が立てられます。半教師あり学習の基本的な前提は、p(x) には p(y|x) に関する情報が含まれている、つまり、ラベルなしデータには、ラベル予測に役立ち、ラベル付きデータとは異なる、またはラベル付きデータから抽出するのが難しい情報が含まれている必要があるということです。さらに、アルゴリズムに役立ついくつかの仮定があります。たとえば、類似性仮説 (平滑性仮説) は、データ サンプルによって構築された属性空間では、近いまたは類似のサンプルは同じラベルを持つことを意味します。低密度分離仮説は、データ サンプルが少ない場所では、異なるラベルを持つデータを区別できる決定境界があることを意味します。

上記の仮定の主な目的は、ラベル付きデータとラベルなしデータが同じデータ分布から取得されることを示すことです。

パート 03:半教師あり学習アルゴリズムの分類

半教師あり学習アルゴリズムは数多くありますが、大まかにトランスダクティブ学習帰納的モデルに分けられます。この2つの違いは、モデル評価に使用するテストデータセットの選択にあります。直接半教師あり学習とは、予測する必要があるデータセットがトレーニングに使用されるラベルなしデータセットであり、学習の目的は予測結果の精度をさらに向上させることです。帰納的学習は、完全に未知のデータセットのラベルを予測します。

さらに、一般的な半教師あり学習アルゴリズムの手順は次のとおりです。最初の手順では、ラベル付きデータでモデルをトレーニングし、次にこのモデルを使用してラベルなしデータを疑似ラベル付けし、疑似ラベルとラベル付きデータを新しいトレーニング セットに結合し、このトレーニング セットで新しいモデルをトレーニングし、最後にこのモデルを使用して予測データ セットにラベル付けします。

パート04. 要約

半教師あり学習の最大の問題は、多くの場合、モデルのパフォーマンスがラベル付きデータセットに依存し、ラベル付きデータセットの品質が高いことが求められることです。場合によっては、半教師あり学習モデルの予測精度は、ラベル付きデータセットに基づく教師ありモデルの予測精度とそれほど変わりません。逆に、半教師ありモデルは、ラベルなしデータから有効な情報を効果的に抽出するために、より多くのリソースを消費します。したがって、半教師あり学習の開発方向は、アルゴリズムの堅牢性とデータ抽出の有効性を向上させることです。

現在、PU 学習 (ポジティブラベルなし学習) は、半教師あり学習の分野で人気のアルゴリズムです。このタイプのアルゴリズムの主な適用シナリオは、ポジティブデータとラベルなしデータのみを含むデータセットです。利点は、シナリオによっては、比較的信頼性の高い正のラベル データ セットを簡単に取得でき、データ量が比較的多いことです。たとえば、スパム検出で適切なメールを簡単に取得できます。

<<:  コンピューティングパワーとは正確には何でしょうか?

>>: 

ブログ    
ブログ    

推薦する

2022年以降の中国の自動運転産業の展望

2022年1月28日、iResearchは「2021-2022年中国自動運転産業年次概要レポート」を...

人間を超えた最初の専門家! OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。ちょうど昨夜、Goog...

20B大型モデルの性能はLlama2-70Bに匹敵します!完全にオープンソースで、ベースからツールまですべてが明確に整理されています

たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました! 9月20日、上海人工知...

機械学習ニューラルネットワークとPython実装

ニューラル ネットワークは、機械学習のあらゆる側面に及ぶ幅広い用途に使用されます。この記事では、主に...

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

世界の潮流は力強く前進しています。科学研究​​と探究のペースを止めれば、井戸の中で空を眺め、満足して...

Google: LLM は推論エラーを見つけることはできないが、修正することはできる

今年、AI分野では大規模言語モデル(LLM)が注目を浴びています。 LLM はさまざまな自然言語処理...

非常に便利な無料データマイニングツール 19 個のコレクション!

今日の世界では、データはお金を意味します。アプリベースの世界への移行に伴い、データは飛躍的に増加して...

大規模な伝染病に直面した時、ロボットは何ができるでしょうか?

ウイルスのさらなる拡散を防ぐため、米国で初めて新型肺炎に感染した患者は隔離室に隔離され、治療中はロボ...

ロジスティック回帰を用いた分類

[[345345]]ロジスティック回帰は機械学習でよく使われる手法です。教師あり機械学習に属します。...

...

...

人工知能と5Gの組み合わせは医療業界の診断と治療のモデルとプロセスを変えるだろう

COVID-19の世界的パンデミックにより、医療におけるテクノロジーの活用が加速しました。 2021...

GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

1週間前、ChatGPTはメジャーアップデートを受けました。GPT-4とGPT-3.5の両モデルは、...

シンプルなアルゴリズムで分散システムのパフォーマンスが瞬時に10倍以上向上

1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...

なぜマスク氏の新しい「脳コンピューターインターフェース」は大きな進歩なのでしょうか?

昨日のマスク氏の発表を見た後、サイバーパンク映画をたくさん思い出し、一晩中夢を見ました。北京時間の昨...