質問で機械学習を学ぶ: 機械学習とは何ですか?

機械学習は受け入れるのが難しいものです。事件があったらいいな、じゃあ行こうよ〜

Q: 機械学習とは何ですか?

機械学習とは、コンピューターに人間と同様の学習能力を持たせる技術であり、データから有用な知識を見つけるデータマイニング技術です。

例えば？ Toutiao に似た機械学習技術を使用して、私が見たいが最後まで見られない（そのためアンインストールしてしまう）短い動画を推奨します。たとえば、Taobao はユーザーの好きな服のスタイルを把握しており、常にユーザーの好みを推測して、ユーザーの好みに合ったものを表示します。

Q: 機械学習のデータの種類は異なるのですね？

はい、全く違います。学習するデータの種類に応じて、教師あり学習、教師なし学習、強化学習に分けられます。

Q: 教師あり学習とは何ですか?

教師あり学習とは、ラベル付けされたデータから学習した後、コンピューターがデータの結果を予測できるプロセスです。

たとえば、数値データの回帰予測、名目データの分類予測などです。抽象的すぎる…

例えば、画像処理、スパムの分類と傍受など。

Q: 教師なし学習とは何ですか?

教師なし学習とは、結果ラベルなしでデータを学習した後、コンピュータが有用なデータを取得できるプロセスです。

もちろん、その中間に位置する半教師あり学習もあります。

例えば、腫瘍の良性か悪性の予測、ビデオ分析など。

Q: 強化学習とは何ですか?

強化学習は教師なし学習に似ています。結果ラベルなしでデータを学習した後、教師あり学習と同様にデータの結果を予測できます。

この「4つが1つになったもの」は、人間の主要な学習モードの1つと考えられています。

当然ながら非常に複雑で、多くのアルゴリズムが関係します。一般的なアルゴリズムについてお話しましょう。

Q: 教師あり学習と教師なし学習における典型的な問題は何ですか?

機械学習には、回帰、分類、異常検出、クラスタリング、次元削減など、多くの典型的な問題があります。当然、すべての問題はアルゴリズムに拡張されるため、対応するアルゴリズムが存在します。

Q: 回帰問題とは何ですか?

回帰、誰もが線形回帰という印象を持っています。回帰は数学モデルであり、統計手法です。これは、従属変数 Yn のセットと別の独立変数 Xn のセットの間の関係の統計分析です。

たとえば、以前 SPSS を使用していたとき、回帰統計を使用して、人の体表面積と身長および体重の関係を示したことを覚えています。事例からわかるように、回帰は主に教師あり学習で使用されます。

Q: 分類問題とは何ですか?

分類には、教師あり分類と教師なし分類が含まれます。

教師あり分類は誰もが知っているものです。表現という用語は、指定されたパターンを識別するための教師あり認識問題を指します。このタイプの分類問題は、回帰問題と同様に、関数近似問題として見ることもできます。はい、既知のサンプルデータでトレーニングした後は、未知のサンプルの分類を推定することしかできず、分類を近似することはできません。

事前の条件なしの教師なし分類は、データ (ブラインド) 分類のみに基づきます。分類結果は明らかに異なる緯度の分類ですが、分類のカテゴリ属性は判別できません。

Q: 異常検出の問題とは何ですか?

異常検出とは、簡単に言えば、大量のデータの中から外れ値と正常値を区別することです。用語は、データセット内の他の項目に対する項目、イベントなどの識別を表します。たとえば、テキストエラーなどです。

Q: クラスタリング問題とは何ですか?

クラスタリングは分類問題に似ています。しかし、それは一種の教師なし学習です。類似のサンプルを異なるグループまたは複数のサブセットに分割することです。キーワード: 類似性。同じグループ (サブセット) 内のサンプルは類似したプロパティを持ち、異なるグループ (サブセット) 内のサンプルは異なるプロパティを持ちます。クラスタリングの問題では、サンプル間の類似性をどのように計算するかが非常に重要です。

Q: 次元削減問題とは何ですか?

次元削減の目的は非常に直接的で、重要な情報を抽出することです。用語式は、サンプルの数を減らして変数のセットを取得するプロセスです。当然、サンプルの種類に応じて（上で教師あり学習と教師なし学習を紹介したので、確認してください）、次元削減の問題も教師あり次元削減と教師なし次元削減に分けることができます。次元削減には、特徴選択と特徴抽出の 2 つの方法があります。

特徴選択とは、サンプルデータに冗長で無関係なデータが大量に含まれていると仮定して、主なデータを見つける方法です。

特徴抽出とは、高次元データから重要な情報を抽出し、低次元データに変換して解く手法です。このプロセスでは、データの削除と新しいデータの作成が行われます。

画像認識の分野で広く使用されています。

<<: 人工知能の波で私たちは職を失うのでしょうか？

>>: 2017年にディープラーニングを学ばなければならない理由