教師あり学習と教師なし学習:専門家がギャップを定義

教師あり学習と教師なし学習:専門家がギャップを定義

教師あり学習、教師なし学習、半教師あり学習の特徴と、それらが機械学習プロジェクトでどのように使用されるかを理解します。

教師あり学習は、画像認識、より正確な予測、製品の推奨、リードスコアリングなどの AI モデルを作成するための最終ステップとして使用されることが多いため、AI テクノロジーの議論で最も注目を集める傾向があります。

対照的に、教師なし学習は AI 開発ライフサイクルの早い段階で舞台裏で機能する傾向があります。つまり、マネージャーが活躍するための重労働を行うのと同様に、教師あり学習の魔法が発揮される土台を築くために使用されることが多いのです。後ほど説明するように、どちらの機械学習モデルもビジネスの問題に効果的に適用できます。

技術的なレベルでは、教師あり学習と教師なし学習の違いは、アルゴリズムを作成するために使用される生データが事前にラベル付けされているか (教師あり学習)、事前にラベル付けされていないか (教師なし学習) にあります。

始めましょう。

教師あり学習とは何ですか?

教師あり学習では、データ サイエンティストはアルゴリズムにラベル付けされたトレーニング データを提供し、アルゴリズムで関連性を評価する変数を定義します。

アルゴリズムの入力データと出力変数はトレーニング データで指定されます。たとえば、教師あり学習を使用して、画像に猫がいるかどうかを理解するアルゴリズムをトレーニングする場合、トレーニング データで使用される各画像に対して、画像に猫が含まれているかどうかを示すラベルを作成できます。

教師あり学習の定義では次のように説明しています。「コンピューター アルゴリズムは、特定の出力用にラベル付けされた入力データでトレーニングされます。モデルは、入力データと出力ラベル間の根本的なパターンと関係を検出できるようになるまでトレーニングされ、これまでに見たことのないデータが提示されたときに正確なラベル付けされた結果を生成できるようになります。」教師ありアルゴリズムの一般的なタイプには、分類、決定木、回帰、予測モデリングなどがあり、これらについては Arcitura Education の機械学習チュートリアルで学ぶことができます。

教師あり機械学習技術は、次のようなさまざまなビジネス アプリケーションで使用されます。

  • パーソナライズされたマーケティング。
  • 保険/信用引受の決定。
  • 不正行為の検出。
  • スパムフィルタリング。

教師なし学習とは何ですか?

教師なし学習では、このアプローチに適したアルゴリズム (K 平均法クラスタリングなど) がラベルなしデータでトレーニングされます。データセットをスキャンして、意味のある接続を探します。言い換えれば、教師なし学習は、データと外部の測定値を関連付けるのではなく、データ内のパターンと類似性を決定します。

これは、何を探しているのかわからないときには便利ですが、わかっている場合にはあまり役に立ちません。教師なしアルゴリズムに何千、何百万もの画像を見せると、画像のサブセットが人間がネコ科動物として識別する画像として分類される可能性があります。対照的に、猫と犬のラベル付きデータでトレーニングされた教師ありアルゴリズムは、猫の画像を高い信頼度で識別することができました。しかし、このアプローチにはトレードオフがあります。教師あり学習プロジェクトでモデルを開発するために何百万ものラベル付き画像が必要な場合、機械生成の予測には多くの人間の労力が必要になります。

中間的な方法として、半教師あり学習があります。

半教師あり学習とは何ですか?

半教師あり学習は、これら 2 つのアプローチを組み合わせた近道です。半教師あり学習は、教師なし学習アルゴリズムを使用して、教師あり学習アルゴリズムに入力できるラベルを自動的に生成する特定のワークフローを表します。このアプローチでは、人間が一部の画像に手動でラベルを付け、教師なし学習によって他の画像のラベルを推測し、その後、これらすべてのラベルと画像を教師あり学習アルゴリズムに入力して AI モデルを作成します。

半教師あり学習は、機械学習で使用される大規模なデータセットのラベル付けのコストを削減できます。 「何百万ものサンプルの0.01パーセントを人間にラベル付けさせることができれば、コンピューターはそれらのラベルを活用して予測精度を大幅に向上させることができます」と、エンタープライズデータカタログプラットフォームであるAlationの共同創設者兼最高イノベーション責任者であるアーロン・カルブ氏は述べています。

強化学習とは何ですか?

もう一つの機械学習アプローチは強化学習です。強化学習は、機械に一連のステップを完了するように教えるためによく使用されますが、これは教師あり学習や教師なし学習とは異なります。データ サイエンティストは、タスクを実行するアルゴリズムをプログラムし、タスクを完了する方法を決定する際に、肯定的または否定的なヒントや強化を提供します。プログラマーは報酬のルールを設定しますが、報酬を最大化してタスクを完了するために必要な手順はアルゴリズム自身に決定させます。

教師あり学習と教師なし学習はいつ使用すべきでしょうか?

LinkedIn の機械学習マネージャーである Shivani Rao 氏は、教師ありまたは教師なしの機械学習アプローチを採用するためのベストプラクティスは、多くの場合、コンテキスト、データとアプリケーションに関して立てられる仮定によって決まると述べています。

ラオ氏は、教師あり機械学習アルゴリズムと教師なし機械学習アルゴリズムのどちらを使用するかという選択も、時間の経過とともに変化するだろうと述べた。モデル構築プロセスの初期段階では、データにラベルが付いていないことがよくありますが、モデル構築の後の段階ではラベル付きのデータが表示されることがあります。

たとえば、LinkedIn メンバーがコース ビデオを視聴するかどうかを予測する問題の場合、最初のモデルは教師なし手法に基づいています。これらの推奨事項が提供されると、誰かが推奨事項をクリックしたかどうかを記録するメトリックによって、ラベルを生成するための新しいデータが提供されます。

LinkedIn では、このテクノロジーを使用して、学生が習得したいスキルのオンライン コースをフラグ付けしています。著者、出版社、学生などの人間のラベル付け者は、コースで教えられるスキルの正確で正確なリストを提供できますが、そのようなスキルの網羅的なリストを提供することは不可能です。したがって、これらのデータは不完全にラベル付けされていると見なすことができます。こうしたタイプの問題では、半教師あり手法を使用して、より網羅的なラベルのセットを構築できます。

コンサルティング会社カーニーのデータサイエンスと高度分析の専門家でパートナーのバラス・トータ氏は、彼のチームでは教師あり学習と教師なし学習のどちらを使用するかを選択する際に、実用的な要素も考慮することが多いと語った。

「ラベル付きデータが利用可能で、将来の観察結果を予測または分類することが目標である場合、私たちはそのアプリケーションとして教師あり学習を選択しました」とトータ氏は語った。 「ラベル付けされたデータが利用できない場合は、教師なし学習を使用します。その目的は、データからパターンやスニペットを識別することでポリシーを開発することです。」

カルブ氏は、Alation のデータ サイエンティストが社内でさまざまなアプリケーションに教師なし学習を使用していると述べました。たとえば、彼らは「na_gr_rvnu_ps」を「北米の専門サービス総収益」に翻訳するなど、わかりにくいデータ オブジェクト名を人間の言語に翻訳する人間と機械の共同プロセスを開発しました。この場合、機械が推測し、人間が確認し、機械が学習します。

「これは反復サイクルにおける半教師あり学習として考えることができ、精度を向上させる好循環を生み出します」とカルブ氏は語った。

5つの教師なし学習テクニック

大まかに言えば、教師あり学習手法は、線形回帰(予測を行うためにデータ ポイントのセットにモデルを当てはめる)または分類問題(この画像には猫が写っているか?)に重点を置く傾向があります。

教師なし学習技術では、多くの場合、教師あり学習の作業を補完するために、元のデータセットをさまざまな方法で細分化します。

データのクラスタリング。類似した特性を持つデータ ポイントはグループ化され、データをより効率的に理解および調査するのに役立ちます。たとえば、企業はデータ クラスタリング手法を使用して、顧客の人口統計、興味、購買行動、その他の要因に基づいて顧客をグループに分類する場合があります。

次元削減。データセット内の各変数は個別のディメンションとして扱われます。ただし、多くのモデルは、変数間の特定の関係を分析することでより効果的に機能します。次元削減の簡単な例としては、収益から費用を引いた 2 つの別々の次元を表す利益を単一の次元として使用することが挙げられます。ただし、主成分分析、オートエンコーダー、テキストをベクトルに変換するアルゴリズム、T 分布確率的近傍埋め込みなどのアルゴリズムを使用すると、より複雑な新しい変数タイプを生成することができます。

次元削減は、モデルが小さなデータセットではうまく機能するが、新しいデータにはうまく一般化されないという過剰適合の問題を軽減するのに役立ちます。この技術により、企業は高次元データを人間が簡単に理解できる 2D または 3D で視覚化することも可能になります。

異常または外れ値の検出。教師なし学習は、通常のデータ分布外のデータ ポイントを識別するのに役立ちます。データ準備手順として異常を識別して除去すると、機械学習モデルのパフォーマンスが向上する可能性があります。

転移学習。これらのアルゴリズムは、関連しているが異なるタスクでトレーニングされたモデルを活用します。たとえば、転移学習技術を使用すると、Wikipedia の記事でトレーニングされた分類器を簡単に微調整して、あらゆる種類の新しいテキストに適切なトピックをタグ付けできます。 LinkedIn の Rao 氏は、これはラベル付けされていないデータの問題を解決する最も効果的かつ迅速な方法の 1 つであると述べました。

グラフベースのアルゴリズム。これらの技術は、データポイント間の関係性を捉えるグラフを構築しようとするものだとラオ氏は言う。たとえば、各データ ポイントがスキルを持つ LinkedIn メンバーを表す場合、メンバーは、エッジがメンバー間のスキルの重複を表すグラフを使用して表すことができます。グラフ アルゴリズムは、既知のデータ ポイントから、未知ではあるが密接に関連するデータ ポイントにラベルを転送するのにも役立ちます。教師なし学習は、異なるタイプのエンティティ (ソースとターゲット) 間のグラフを構築するためにも使用できます。エッジが強くなるほど、ソース ノードとターゲット ノード間の親和性が高くなります。たとえば、LinkedIn では、メンバーとスキルベースのコースをマッチングするためにこれを使用しています。

<<:  企業がAIをビジネスに統合する際の課題を克服する方法

>>: 

ブログ    

推薦する

人工知能は一般的な仕事に取って代わるのでしょうか?心配しないで、この機会をつかんで次の10年をリードしてください

人工知能の急速な発展により、一連の新技術が誕生しました。ロボットはますます多くのことを人間に代わって...

...

...

人工知能はコロナウイルスの流行との戦いにどのように役立つのでしょうか?

新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...

あなたのお子さんは「顔スキャン」されましたか?顔認識技術がキャンパスに導入され物議を醸す

現在、顔認識の応用はますます深く広範囲になり、それが引き起こす論争もますます激しくなっています。まず...

...

...

人工知能は人類を情報社会から知能社会へと導く

[[315663]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に実...

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

これらの 8 冊の本を読んでいないのに、コンピューター ビジョンの分野で働いていると言える勇気がありますか?

コンピューター ビジョンは、写真やビデオなどのデジタル画像の側面に焦点を当てた人工知能のサブフィール...

世界を変えるために活動する5つのAIスタートアップ

ディープラーニングとニューラル ネットワークの進歩により、自然言語処理とコンピューター ビジョンに大...

AIの最高峰:自然言語処理

近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...

人工知能が登場して60年になります。人工知能について私たちはどんな誤解をしているのでしょうか?

8月23日、百度のCEOであるロビン・リー氏は中国国際知能産業博覧会で講演し、一般の人々は人工知能...