教師あり学習と教師なし学習：専門家がギャップを定義

教師あり学習、教師なし学習、半教師あり学習の特徴と、それらが機械学習プロジェクトでどのように使用されるかを理解します。

教師あり学習は、画像認識、より正確な予測、製品の推奨、リードスコアリングなどの AI モデルを作成するための最終ステップとして使用されることが多いため、AI テクノロジーの議論で最も注目を集める傾向があります。

対照的に、教師なし学習は AI 開発ライフサイクルの早い段階で舞台裏で機能する傾向があります。つまり、マネージャーが活躍するための重労働を行うのと同様に、教師あり学習の魔法が発揮される土台を築くために使用されることが多いのです。後ほど説明するように、どちらの機械学習モデルもビジネスの問題に効果的に適用できます。

技術的なレベルでは、教師あり学習と教師なし学習の違いは、アルゴリズムを作成するために使用される生データが事前にラベル付けされているか (教師あり学習)、事前にラベル付けされていないか (教師なし学習) にあります。

始めましょう。

教師あり学習とは何ですか?

教師あり学習では、データサイエンティストはアルゴリズムにラベル付けされたトレーニングデータを提供し、アルゴリズムで関連性を評価する変数を定義します。

アルゴリズムの入力データと出力変数はトレーニングデータで指定されます。たとえば、教師あり学習を使用して、画像に猫がいるかどうかを理解するアルゴリズムをトレーニングする場合、トレーニングデータで使用される各画像に対して、画像に猫が含まれているかどうかを示すラベルを作成できます。

教師あり学習の定義では次のように説明しています。「コンピューターアルゴリズムは、特定の出力用にラベル付けされた入力データでトレーニングされます。モデルは、入力データと出力ラベル間の根本的なパターンと関係を検出できるようになるまでトレーニングされ、これまでに見たことのないデータが提示されたときに正確なラベル付けされた結果を生成できるようになります。」教師ありアルゴリズムの一般的なタイプには、分類、決定木、回帰、予測モデリングなどがあり、これらについては Arcitura Education の機械学習チュートリアルで学ぶことができます。

教師あり機械学習技術は、次のようなさまざまなビジネスアプリケーションで使用されます。

パーソナライズされたマーケティング。
保険/信用引受の決定。
不正行為の検出。
スパムフィルタリング。

教師なし学習とは何ですか?

教師なし学習では、このアプローチに適したアルゴリズム (K 平均法クラスタリングなど) がラベルなしデータでトレーニングされます。データセットをスキャンして、意味のある接続を探します。言い換えれば、教師なし学習は、データと外部の測定値を関連付けるのではなく、データ内のパターンと類似性を決定します。

これは、何を探しているのかわからないときには便利ですが、わかっている場合にはあまり役に立ちません。教師なしアルゴリズムに何千、何百万もの画像を見せると、画像のサブセットが人間がネコ科動物として識別する画像として分類される可能性があります。対照的に、猫と犬のラベル付きデータでトレーニングされた教師ありアルゴリズムは、猫の画像を高い信頼度で識別することができました。しかし、このアプローチにはトレードオフがあります。教師あり学習プロジェクトでモデルを開発するために何百万ものラベル付き画像が必要な場合、機械生成の予測には多くの人間の労力が必要になります。

中間的な方法として、半教師あり学習があります。

半教師あり学習とは何ですか?

半教師あり学習は、これら 2 つのアプローチを組み合わせた近道です。半教師あり学習は、教師なし学習アルゴリズムを使用して、教師あり学習アルゴリズムに入力できるラベルを自動的に生成する特定のワークフローを表します。このアプローチでは、人間が一部の画像に手動でラベルを付け、教師なし学習によって他の画像のラベルを推測し、その後、これらすべてのラベルと画像を教師あり学習アルゴリズムに入力して AI モデルを作成します。

半教師あり学習は、機械学習で使用される大規模なデータセットのラベル付けのコストを削減できます。「何百万ものサンプルの0.01パーセントを人間にラベル付けさせることができれば、コンピューターはそれらのラベルを活用して予測精度を大幅に向上させることができます」と、エンタープライズデータカタログプラットフォームであるAlationの共同創設者兼最高イノベーション責任者であるアーロン・カルブ氏は述べています。

強化学習とは何ですか?

もう一つの機械学習アプローチは強化学習です。強化学習は、機械に一連のステップを完了するように教えるためによく使用されますが、これは教師あり学習や教師なし学習とは異なります。データサイエンティストは、タスクを実行するアルゴリズムをプログラムし、タスクを完了する方法を決定する際に、肯定的または否定的なヒントや強化を提供します。プログラマーは報酬のルールを設定しますが、報酬を最大化してタスクを完了するために必要な手順はアルゴリズム自身に決定させます。

教師あり学習と教師なし学習はいつ使用すべきでしょうか?

LinkedIn の機械学習マネージャーである Shivani Rao 氏は、教師ありまたは教師なしの機械学習アプローチを採用するためのベストプラクティスは、多くの場合、コンテキスト、データとアプリケーションに関して立てられる仮定によって決まると述べています。

ラオ氏は、教師あり機械学習アルゴリズムと教師なし機械学習アルゴリズムのどちらを使用するかという選択も、時間の経過とともに変化するだろうと述べた。モデル構築プロセスの初期段階では、データにラベルが付いていないことがよくありますが、モデル構築の後の段階ではラベル付きのデータが表示されることがあります。

たとえば、LinkedIn メンバーがコースビデオを視聴するかどうかを予測する問題の場合、最初のモデルは教師なし手法に基づいています。これらの推奨事項が提供されると、誰かが推奨事項をクリックしたかどうかを記録するメトリックによって、ラベルを生成するための新しいデータが提供されます。

LinkedIn では、このテクノロジーを使用して、学生が習得したいスキルのオンラインコースをフラグ付けしています。著者、出版社、学生などの人間のラベル付け者は、コースで教えられるスキルの正確で正確なリストを提供できますが、そのようなスキルの網羅的なリストを提供することは不可能です。したがって、これらのデータは不完全にラベル付けされていると見なすことができます。こうしたタイプの問題では、半教師あり手法を使用して、より網羅的なラベルのセットを構築できます。

コンサルティング会社カーニーのデータサイエンスと高度分析の専門家でパートナーのバラス・トータ氏は、彼のチームでは教師あり学習と教師なし学習のどちらを使用するかを選択する際に、実用的な要素も考慮することが多いと語った。

「ラベル付きデータが利用可能で、将来の観察結果を予測または分類することが目標である場合、私たちはそのアプリケーションとして教師あり学習を選択しました」とトータ氏は語った。「ラベル付けされたデータが利用できない場合は、教師なし学習を使用します。その目的は、データからパターンやスニペットを識別することでポリシーを開発することです。」

カルブ氏は、Alation のデータサイエンティストが社内でさまざまなアプリケーションに教師なし学習を使用していると述べました。たとえば、彼らは「na_gr_rvnu_ps」を「北米の専門サービス総収益」に翻訳するなど、わかりにくいデータオブジェクト名を人間の言語に翻訳する人間と機械の共同プロセスを開発しました。この場合、機械が推測し、人間が確認し、機械が学習します。

「これは反復サイクルにおける半教師あり学習として考えることができ、精度を向上させる好循環を生み出します」とカルブ氏は語った。

5つの教師なし学習テクニック

大まかに言えば、教師あり学習手法は、線形回帰（予測を行うためにデータポイントのセットにモデルを当てはめる）または分類問題（この画像には猫が写っているか？）に重点を置く傾向があります。

教師なし学習技術では、多くの場合、教師あり学習の作業を補完するために、元のデータセットをさまざまな方法で細分化します。

データのクラスタリング。類似した特性を持つデータポイントはグループ化され、データをより効率的に理解および調査するのに役立ちます。たとえば、企業はデータクラスタリング手法を使用して、顧客の人口統計、興味、購買行動、その他の要因に基づいて顧客をグループに分類する場合があります。

次元削減。データセット内の各変数は個別のディメンションとして扱われます。ただし、多くのモデルは、変数間の特定の関係を分析することでより効果的に機能します。次元削減の簡単な例としては、収益から費用を引いた 2 つの別々の次元を表す利益を単一の次元として使用することが挙げられます。ただし、主成分分析、オートエンコーダー、テキストをベクトルに変換するアルゴリズム、T 分布確率的近傍埋め込みなどのアルゴリズムを使用すると、より複雑な新しい変数タイプを生成することができます。

次元削減は、モデルが小さなデータセットではうまく機能するが、新しいデータにはうまく一般化されないという過剰適合の問題を軽減するのに役立ちます。この技術により、企業は高次元データを人間が簡単に理解できる 2D または 3D で視覚化することも可能になります。

異常または外れ値の検出。教師なし学習は、通常のデータ分布外のデータポイントを識別するのに役立ちます。データ準備手順として異常を識別して除去すると、機械学習モデルのパフォーマンスが向上する可能性があります。

転移学習。これらのアルゴリズムは、関連しているが異なるタスクでトレーニングされたモデルを活用します。たとえば、転移学習技術を使用すると、Wikipedia の記事でトレーニングされた分類器を簡単に微調整して、あらゆる種類の新しいテキストに適切なトピックをタグ付けできます。 LinkedIn の Rao 氏は、これはラベル付けされていないデータの問題を解決する最も効果的かつ迅速な方法の 1 つであると述べました。

グラフベースのアルゴリズム。これらの技術は、データポイント間の関係性を捉えるグラフを構築しようとするものだとラオ氏は言う。たとえば、各データポイントがスキルを持つ LinkedIn メンバーを表す場合、メンバーは、エッジがメンバー間のスキルの重複を表すグラフを使用して表すことができます。グラフアルゴリズムは、既知のデータポイントから、未知ではあるが密接に関連するデータポイントにラベルを転送するのにも役立ちます。教師なし学習は、異なるタイプのエンティティ (ソースとターゲット) 間のグラフを構築するためにも使用できます。エッジが強くなるほど、ソースノードとターゲットノード間の親和性が高くなります。たとえば、LinkedIn では、メンバーとスキルベースのコースをマッチングするためにこれを使用しています。

<<: 企業がAIをビジネスに統合する際の課題を克服する方法

>>: