機械学習:教師あり学習と教師なし学習の違いは何ですか?

機械学習:教師あり学習と教師なし学習の違いは何ですか?

機械学習は、例と経験を通じてコン​​ピューターにタスクの実行を教える人工知能のサブセットであり、研究開発のホットな分野です。私たちが日常的に使用する多くのアプリケーションでは、AI アシスタント、Web 検索、機械翻訳など、機械学習アルゴリズムが使用されています。

[[328539]]

ソーシャル メディアのニュース フィードは機械学習アルゴリズムによって強化されています。表示されるおすすめ動画は機械学習モデルの結果です。 Spotify の Discover Weekly は、機械学習アルゴリズムの力を活用して、ユーザーの好みに合わせた曲のリストを作成します。

しかし、機械学習にはさまざまな種類があります。この記事では、機械学習アルゴリズムの 2 つの主要なカテゴリである教師あり学習と教師なし学習について説明します。各サブセットは、さまざまなタスクに適したさまざまなアルゴリズムで構成されています。

機械学習に関する簡単なメモ

教師あり学習と教師なし学習について詳しく説明する前に、まず機械学習とは何かを理解しましょう。最も単純な形では、今日の AI システムは入力を出力に変換します。たとえば、画像分類器は画像またはビデオ フレームを入力として受け取り、画像に含まれるオブジェクトの種類を出力します。不正検出アルゴリズムは支払いデータを入力として受け取り、取引が不正である可能性を出力します。チェスをプレイする AI は、盤上の現在の状態を入力として受け取り、次の動きを出力します。

シンボリック人工知能と呼ばれるインテリジェント システムを開発するための従来のアプローチでは、プログラマーが入力を出力にマッピングするルールを明示的に指定する必要があります。多くの利点があるにもかかわらず、シンボリック AI は、コンピューター ビジョン、音声認識、自然言語処理など、さまざまな形式で入力が行われる分野では使用が制限されています。

対照的に、機械学習は動作の開発に異なるアプローチを使用します。 ML システムを作成する場合、開発者は一般的な構造を作成し、多くの例でそれをトレーニングします。これらの例としては、対応する画像を含む写真、チェスのゲームデータ、顧客が購入したアイテム、ユーザーが聴いた曲、または AI モデルが解決しようとしている問題に関連するその他のデータが挙げられます。トレーニング データを分析した後、機械学習アルゴリズムは新しい入力データを処理できるように内部パラメータを調整します。

教師あり学習

ロジスティック回帰は、入力をさまざまなクラスに分類できる教師あり機械学習アルゴリズムです。

人工知能のニュースをフォローしている方なら、AI アルゴリズムには人間がラベル付けしたサンプルが大量に必要だということを聞いたことがあるでしょう。これらのストーリーは、機械学習アルゴリズムのより一般的なカテゴリである教師あり学習について言及しています。教師あり機械学習は、入力データの結果がわかっている場合に役立ちます。猫、犬、馬の画像を検出できる画像分類機械学習アルゴリズムを作成したいとします。

AI モデルをトレーニングするには、猫、犬、馬の写真の大規模なデータセットを収集する必要があります。しかし、それらを機械学習アルゴリズムに入力する前に、それぞれのクラスの名前で注釈を付ける必要があります。注釈には、ファイル命名規則を使用して各クラスの画像を個別のフォルダーに配置したり、画像ファイルにメタデータを添付したりすることが含まれます。これは、AI の搾取工場に関する話でよく取り上げられる、面倒な手作業です。

データにラベルが付けられると、畳み込みニューラル ネットワークやサポート ベクター マシンなどの機械学習アルゴリズムがサンプルを処理し、各画像を正しいカテゴリにマッピングする数学モデルを開発します。 AI モデルが十分な数のラベル付きサンプルでトレーニングされると、猫、犬、馬などを含む新しい画像カテゴリを正確に検出できるようになります。

教師あり機械学習は、分類と回帰という 2 種類の問題を解決します。上記の例は、機械学習モデルが入力を特定のバケットまたはカテゴリに配置する必要がある分類問題です。分類問題のもう 1 つの例は音声認識です。

回帰機械学習モデルは特定のカテゴリに限定されません。顧客が製品に支払う金額や明日雨が降る確率など、連続した無限の値を持つことができます。

一般的な教師あり学習アルゴリズムには次のようなものがあります。

  • 線形回帰とロジスティック回帰
  • ナイーブベイズ
  • サポートベクターマシン
  • 決定木とランダムフォレスト
  • 人工ニューラルネットワーク
  • 教師なし学習

教師なし機械学習アルゴリズムは、共通の特徴に基づいてデータをクラスターに分割できる。

あなたが何千もの顧客販売記録を持つ電子商取引小売事業のオーナーだとしましょう。どの顧客に共通の購入習慣があるかを調べ、その情報を活用して顧客に対して適切な提案を行い、アップセル ポリシーを改善したいと考えています。問題は、顧客を分類するための定義済みのカテゴリがないことです。したがって、顧客を分類するために教師あり機械学習モデルをトレーニングすることはできません。

これはクラスタリングの問題であり、主に教師なし機械学習で使用されます。教師あり学習とは異なり、教師なし機械学習ではラベル付きデータは必要ありません。トレーニング例を詳細に調べ、共通の特性に基づいてカテゴリにグループ化します。トレーニング済みの教師なし機械学習アルゴリズムにより、顧客が関連するクラスターにグループ化されます。これにより、クラスター内の他のユーザーと共有している好みに基づいて、顧客が購入する製品を予測できるようになります。

K-means は、よく知られている教師なしクラスタリング機械学習アルゴリズムです。 k-means を使用する際の課題の 1 つは、データをいくつのクラスターに分割するかを知ることです。クラスターが少なすぎると、異なるデータが一緒に詰め込まれ、クラスターが多すぎると、モデルが複雑になり、不正確になります。クラスタリングに加えて、教師なし学習では次元削減も実行できます。データセットに含まれる特徴が多すぎる場合は、次元削減を使用できます。顧客に関する情報のテーブルがあり、そのテーブルに 100 個の列があるとします。顧客に関する大量のデータを持っているとしたら、興味深いかもしれません。しかし、実際はそうではありません。

データ内の特徴の数が増えると、正確な機械学習モデルをトレーニングするために、より大きなサンプル セットも必要になります。おそらく、100 列のモデルをトレーニングするのに十分なサンプルがありません。機能が多すぎると、過剰適合の可能性も高まります。つまり、AI モデルはトレーニング データでは適切に機能しますが、他のデータでは適切に機能しなくなります。

教師なし機械学習アルゴリズムはデータを分析し、貴重な洞察を失うことなくモデルを簡素化するために削除できる無関係な特徴を見つけます。たとえば、顧客テーブルの場合、次元削減アルゴリズムを実行すると、顧客の年齢と自宅住所に関連する特徴にはほとんど相関関係がないため、削除できることがわかります。

主成分分析 (PCA) は、次元削減のための一般的な機械学習アルゴリズムです。一部のセキュリティアナリストは、組織のネットワーク内での悪意のあるアクティビティを特定するために、異常検出に教師なし機械学習も使用します。

教師なし学習の利点の 1 つは、教師あり学習で必要となる面倒なデータラベル付けプロセスが不要であることです。しかし、そのトレードオフとして、そのパフォーマンスの有効性を評価することも非常に困難です。対照的に、教師あり学習アルゴリズムの精度は、その出力をテスト データの実際のラベルと比較することによって簡単に測定できます。

<<:  オブジェクトストレージがAIと機械学習に適している3つの理由

>>:  機械学習の7つの大罪

ブログ    
ブログ    

推薦する

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...

サイバーセキュリティにおける人工知能の4つの利点と課題

この記事では、サイバーセキュリティにおける機械学習と人工知能について説明します。 AI の利点と課題...

...

分析: 機械学習を妨げる 10 のサイバー攻撃とは?

サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

9月28日、市場調査会社オールリサーチが発表したレポートでは、2027年までに人工知能ガバナンス市場...

中国の教授が犯罪認識率97%の人工知能「検察官」を開発、現在テスト中

[[442697]]最近、「中国の教授らが人工知能検察官を開発中」というニュースが多くの海外ネットユ...

BAT や他の人たちは人工知能に関してどのようなことを話しましたか?

9月17日、上海の西外灘で2018年世界人工知能大会が正式に開幕した。ジャック・マー、ポニー・マー...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

住宅地での顔認識が論争を巻き起こす。所有者には「好意を示すことを拒否する」権利がある

[[349278]]今は「顔を見る時代」であり、「顔をスキャンする時代」でもあります。明らかに、後者...

新しいAIシステムが地震を正確に予測できるようになりました

科学者たちは地震を正確に予測できる人工知能(AI)システムを開発した。これは自然災害に備え、人命を救...

...

Megvii Technologyがロボット協調ネットワーク頭脳「Hetu」をリリース、エコシステムの改善に20億元を投資

現在、モノのインターネットの将来の発展方向は非常に明確であり、それが AIoT です。 AIは頭脳で...

...

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...