教師あり学習と教師なし学習:専門家がギャップを定義

教師あり学習と教師なし学習:専門家がギャップを定義

教師あり学習、教師なし学習、半教師あり学習の特徴と、それらが機械学習プロジェクトでどのように使用されるかを理解します。

教師あり学習は、画像認識、より正確な予測、製品の推奨、リードスコアリングなどの AI モデルを作成するための最終ステップとして使用されることが多いため、AI テクノロジーの議論で最も注目を集める傾向があります。

対照的に、教師なし学習は AI 開発ライフサイクルの早い段階で舞台裏で機能する傾向があります。つまり、マネージャーが活躍するための重労働を行うのと同様に、教師あり学習の魔法が発揮される土台を築くために使用されることが多いのです。後ほど説明するように、どちらの機械学習モデルもビジネスの問題に効果的に適用できます。

技術的なレベルでは、教師あり学習と教師なし学習の違いは、アルゴリズムを作成するために使用される生データが事前にラベル付けされているか (教師あり学習)、事前にラベル付けされていないか (教師なし学習) にあります。

始めましょう。

教師あり学習とは何ですか?

教師あり学習では、データ サイエンティストはアルゴリズムにラベル付けされたトレーニング データを提供し、アルゴリズムで関連性を評価する変数を定義します。

アルゴリズムの入力データと出力変数はトレーニング データで指定されます。たとえば、教師あり学習を使用して、画像に猫がいるかどうかを理解するアルゴリズムをトレーニングする場合、トレーニング データで使用される各画像に対して、画像に猫が含まれているかどうかを示すラベルを作成できます。

教師あり学習の定義では次のように説明しています。「コンピューター アルゴリズムは、特定の出力用にラベル付けされた入力データでトレーニングされます。モデルは、入力データと出力ラベル間の根本的なパターンと関係を検出できるようになるまでトレーニングされ、これまでに見たことのないデータが提示されたときに正確なラベル付けされた結果を生成できるようになります。」教師ありアルゴリズムの一般的なタイプには、分類、決定木、回帰、予測モデリングなどがあり、これらについては Arcitura Education の機械学習チュートリアルで学ぶことができます。

教師あり機械学習技術は、次のようなさまざまなビジネス アプリケーションで使用されます。

  • パーソナライズされたマーケティング。
  • 保険/信用引受の決定。
  • 不正行為の検出。
  • スパムフィルタリング。

教師なし学習とは何ですか?

教師なし学習では、このアプローチに適したアルゴリズム (K 平均法クラスタリングなど) がラベルなしデータでトレーニングされます。データセットをスキャンして、意味のある接続を探します。言い換えれば、教師なし学習は、データと外部の測定値を関連付けるのではなく、データ内のパターンと類似性を決定します。

これは、何を探しているのかわからないときには便利ですが、わかっている場合にはあまり役に立ちません。教師なしアルゴリズムに何千、何百万もの画像を見せると、画像のサブセットが人間がネコ科動物として識別する画像として分類される可能性があります。対照的に、猫と犬のラベル付きデータでトレーニングされた教師ありアルゴリズムは、猫の画像を高い信頼度で識別することができました。しかし、このアプローチにはトレードオフがあります。教師あり学習プロジェクトでモデルを開発するために何百万ものラベル付き画像が必要な場合、機械生成の予測には多くの人間の労力が必要になります。

中間的な方法として、半教師あり学習があります。

半教師あり学習とは何ですか?

半教師あり学習は、これら 2 つのアプローチを組み合わせた近道です。半教師あり学習は、教師なし学習アルゴリズムを使用して、教師あり学習アルゴリズムに入力できるラベルを自動的に生成する特定のワークフローを表します。このアプローチでは、人間が一部の画像に手動でラベルを付け、教師なし学習によって他の画像のラベルを推測し、その後、これらすべてのラベルと画像を教師あり学習アルゴリズムに入力して AI モデルを作成します。

半教師あり学習は、機械学習で使用される大規模なデータセットのラベル付けのコストを削減できます。 「何百万ものサンプルの0.01パーセントを人間にラベル付けさせることができれば、コンピューターはそれらのラベルを活用して予測精度を大幅に向上させることができます」と、エンタープライズデータカタログプラットフォームであるAlationの共同創設者兼最高イノベーション責任者であるアーロン・カルブ氏は述べています。

強化学習とは何ですか?

もう一つの機械学習アプローチは強化学習です。強化学習は、機械に一連のステップを完了するように教えるためによく使用されますが、これは教師あり学習や教師なし学習とは異なります。データ サイエンティストは、タスクを実行するアルゴリズムをプログラムし、タスクを完了する方法を決定する際に、肯定的または否定的なヒントや強化を提供します。プログラマーは報酬のルールを設定しますが、報酬を最大化してタスクを完了するために必要な手順はアルゴリズム自身に決定させます。

教師あり学習と教師なし学習はいつ使用すべきでしょうか?

LinkedIn の機械学習マネージャーである Shivani Rao 氏は、教師ありまたは教師なしの機械学習アプローチを採用するためのベストプラクティスは、多くの場合、コンテキスト、データとアプリケーションに関して立てられる仮定によって決まると述べています。

ラオ氏は、教師あり機械学習アルゴリズムと教師なし機械学習アルゴリズムのどちらを使用するかという選択も、時間の経過とともに変化するだろうと述べた。モデル構築プロセスの初期段階では、データにラベルが付いていないことがよくありますが、モデル構築の後の段階ではラベル付きのデータが表示されることがあります。

たとえば、LinkedIn メンバーがコース ビデオを視聴するかどうかを予測する問題の場合、最初のモデルは教師なし手法に基づいています。これらの推奨事項が提供されると、誰かが推奨事項をクリックしたかどうかを記録するメトリックによって、ラベルを生成するための新しいデータが提供されます。

LinkedIn では、このテクノロジーを使用して、学生が習得したいスキルのオンライン コースをフラグ付けしています。著者、出版社、学生などの人間のラベル付け者は、コースで教えられるスキルの正確で正確なリストを提供できますが、そのようなスキルの網羅的なリストを提供することは不可能です。したがって、これらのデータは不完全にラベル付けされていると見なすことができます。こうしたタイプの問題では、半教師あり手法を使用して、より網羅的なラベルのセットを構築できます。

コンサルティング会社カーニーのデータサイエンスと高度分析の専門家でパートナーのバラス・トータ氏は、彼のチームでは教師あり学習と教師なし学習のどちらを使用するかを選択する際に、実用的な要素も考慮することが多いと語った。

「ラベル付きデータが利用可能で、将来の観察結果を予測または分類することが目標である場合、私たちはそのアプリケーションとして教師あり学習を選択しました」とトータ氏は語った。 「ラベル付けされたデータが利用できない場合は、教師なし学習を使用します。その目的は、データからパターンやスニペットを識別することでポリシーを開発することです。」

カルブ氏は、Alation のデータ サイエンティストが社内でさまざまなアプリケーションに教師なし学習を使用していると述べました。たとえば、彼らは「na_gr_rvnu_ps」を「北米の専門サービス総収益」に翻訳するなど、わかりにくいデータ オブジェクト名を人間の言語に翻訳する人間と機械の共同プロセスを開発しました。この場合、機械が推測し、人間が確認し、機械が学習します。

「これは反復サイクルにおける半教師あり学習として考えることができ、精度を向上させる好循環を生み出します」とカルブ氏は語った。

5つの教師なし学習テクニック

大まかに言えば、教師あり学習手法は、線形回帰(予測を行うためにデータ ポイントのセットにモデルを当てはめる)または分類問題(この画像には猫が写っているか?)に重点を置く傾向があります。

教師なし学習技術では、多くの場合、教師あり学習の作業を補完するために、元のデータセットをさまざまな方法で細分化します。

データのクラスタリング。類似した特性を持つデータ ポイントはグループ化され、データをより効率的に理解および調査するのに役立ちます。たとえば、企業はデータ クラスタリング手法を使用して、顧客の人口統計、興味、購買行動、その他の要因に基づいて顧客をグループに分類する場合があります。

次元削減。データセット内の各変数は個別のディメンションとして扱われます。ただし、多くのモデルは、変数間の特定の関係を分析することでより効果的に機能します。次元削減の簡単な例としては、収益から費用を引いた 2 つの別々の次元を表す利益を単一の次元として使用することが挙げられます。ただし、主成分分析、オートエンコーダー、テキストをベクトルに変換するアルゴリズム、T 分布確率的近傍埋め込みなどのアルゴリズムを使用すると、より複雑な新しい変数タイプを生成することができます。

次元削減は、モデルが小さなデータセットではうまく機能するが、新しいデータにはうまく一般化されないという過剰適合の問題を軽減するのに役立ちます。この技術により、企業は高次元データを人間が簡単に理解できる 2D または 3D で視覚化することも可能になります。

異常または外れ値の検出。教師なし学習は、通常のデータ分布外のデータ ポイントを識別するのに役立ちます。データ準備手順として異常を識別して除去すると、機械学習モデルのパフォーマンスが向上する可能性があります。

転移学習。これらのアルゴリズムは、関連しているが異なるタスクでトレーニングされたモデルを活用します。たとえば、転移学習技術を使用すると、Wikipedia の記事でトレーニングされた分類器を簡単に微調整して、あらゆる種類の新しいテキストに適切なトピックをタグ付けできます。 LinkedIn の Rao 氏は、これはラベル付けされていないデータの問題を解決する最も効果的かつ迅速な方法の 1 つであると述べました。

グラフベースのアルゴリズム。これらの技術は、データポイント間の関係性を捉えるグラフを構築しようとするものだとラオ氏は言う。たとえば、各データ ポイントがスキルを持つ LinkedIn メンバーを表す場合、メンバーは、エッジがメンバー間のスキルの重複を表すグラフを使用して表すことができます。グラフ アルゴリズムは、既知のデータ ポイントから、未知ではあるが密接に関連するデータ ポイントにラベルを転送するのにも役立ちます。教師なし学習は、異なるタイプのエンティティ (ソースとターゲット) 間のグラフを構築するためにも使用できます。エッジが強くなるほど、ソース ノードとターゲット ノード間の親和性が高くなります。たとえば、LinkedIn では、メンバーとスキルベースのコースをマッチングするためにこれを使用しています。

<<:  企業がAIをビジネスに統合する際の課題を克服する方法

>>: 

ブログ    

推薦する

農業における人工知能の応用

農業は人類の生存の基盤であり、第三次産業の中核的位置を占め、経済社会の安定と発展に極めて重要な産業で...

GPT-4の5倍の性能を持つGoogle Geminiは、本当にOpenAIやMicrosoftに勝てるのでしょうか?

もしあなたが会社の CEO だったら、自社の製品が競合他社に打ち負かされたと聞いたらどう感じるでしょ...

...

人工知能は未来の都市にどのような力を与えるのでしょうか?

スマート シティが将来のアイデアだけでなく現実のものとなるにつれ、人工知能 (AI) が台頭してきて...

2018 年に最も価値のあるオープンソース機械学習プロジェクト 6 つ

2018 年は人工知能と機械学習にとって「収穫」の年でした。特にヘルスケア、金融、音声認識、拡張現実...

AI 開発の世界では、自然言語処理を真に習得することはどれほど重要ですか?

人工知能開発の分野で最も重要な目標は、自然言語処理 (NLP) を真に習得したシステムを作成すること...

ガイド | NLP の問題の 90% を解決する方法を段階的に教えます

[[279869]]テキストデータはどこにでもある既存の企業でも、新しいサービスを開発している企業で...

また一人の科学者が学界に復帰、AI産業の発展は冷え込みつつあるのか?

最近、一部メディアは、アント・ファイナンシャルの元副社長兼主任データサイエンティストである斉元氏が復...

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。新しいプロ...

...

2020年が到来。人工知能について知っておくべきこと

新年を迎え、皆様にお楽しみいただいている「まとめ記事」が今年も登場です! 2020年に人工知能が大き...

...

【WOT2018】孫林:テクノロジーが業界を変える。貝殻探しビジネスにおけるAIの応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

...

ビジネスインテリジェンスの歴史と発展についてお話ししましょう

1865 年に、リチャード・ミラー・デベンスは著書『A Complete Collection of...