機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をいくつか紹介します。何か間違っている点がありましたら、ご訂正いただければ幸いです。

[[383223]]

01 機械学習の定義

機械学習について話す前に、まず人間の学習行動とは何かを明確にしましょう。

まとめると、人間は過去の経験からルールを獲得し、それを新しい類似のシナリオに適用する、これが人間の学習行動であると言えます。

同様に、機械学習とは、機械をトレーニングおよび学習し、大量のデータから固有の特徴を見つけ、新しい事柄について判断を下せるようにすることを指します。

02機械学習の分類

機械学習のカテゴリにはどのようなものがありますか? 分類方法によって、サブカテゴリも異なります。整理してみると、主に以下のような概要図があります。

(1)学習目標による分類

機械学習の目的は何でしょうか? 簡単に言えば、機械学習を通じてどのような結果を達成したいかということです。

学習目標に応じて、主に回帰問題、分類問題、ソート問題の 3 つのカテゴリに分けられます。

  • 回帰問題: 対象が連続変数である問題を解きます。たとえば、身長に基づいて体重を予測する場合、体重は連続変数になります。
  • 分類問題: 解決すべき問題は、離散ラベルの問題です。たとえば、人が男性か女性かを予測するなどです。
  • ソートの問題: モデルはオブジェクトのソートされたリストを出力します。

(2)学習データの特性に応じた分類

前述のように、機械学習には基礎となるトレーニング データが必要です (そうでなければ、機械は学習できません)。トレーニングデータの特性に応じて、主に次の 2 つのカテゴリに分類されます。

  • 教師あり学習: 既存のトレーニング サンプルを使用して最適なモデルをトレーニングし、このモデルを使用してすべての入力を対応する出力にマッピングし、出力に対して簡単な判断を下して予測と分類の目的を達成し、未知のデータを予測および分類する機能を実現します。一般的な教師ありアルゴリズムには、線形回帰アルゴリズム、BP ニューラル ネットワーク アルゴリズム、決定木、サポート ベクター マシン、KNN などがあります。
  • 教師なし学習: トレーニング サンプルのラベル情報は不明です。目標は、ラベルのないトレーニング サンプルを学習することでデータの固有の特性と法則を明らかにし、さらなるデータ分析の基礎を提供することです。このタイプの学習タスクで最も研究され、広く使用されているのは「クラスタリング」です。クラスタリングの目的は、類似したものをグループ化することであり、これは主にサンプルとグループ間の距離を計算することによって実現されます。ディープラーニングと PCA はどちらも教師なし学習のカテゴリに分類されます。一般的な教師なしアルゴリズムには、密度推定、異常検出、階層的クラスタリング、EM アルゴリズム、K-Means アルゴリズム、DBSCAN アルゴリズムなどがあります。

(3)モデルの複雑さによる分類

モデルの複雑さに応じて、線形モデルと非線形モデルの 2 つのカテゴリに分けられます。

  • 線形モデル: 決定境界は直線です。たとえば、ロジスティック回帰モデル。
  • 非線形モデル: 決定境界は直線ではありません。たとえば、ニューラル ネットワーク モデル。

(4)モデル機能による分類

モデルの機能に応じて、主に識別モデルと生成モデルに分けられます。

  • 判別モデル: 予測のためにデータから決定関数 f(x) または条件付き確率分布 P(y|x) を直接学習するモデル。与えられた入力 x に対してどのような出力 y を予測するかを扱います。一般的な k 最近傍法、パーセプトロン、決定木、ロジスティック回帰、線形回帰、最大エントロピー モデル。
  • 生成モデル: データから入力と出力の結合確率分布 P(x, y) を学習し、事後確率分布 P(y|x) を計算して予測するモデル。一般的な生成モデルには、ナイーブベイズと隠れマルコフ (EM アルゴリズム) が含まれます。

03機械学習の基本プロセス

機械学習プロジェクトの主なプロセスは次のとおりです。

(1)データ前処理

データクリーニングとは、データセット内のノイズデータや無関係なデータを検出して削除し、欠損データを処理して、空白のデータドメインや知識背景のホワイトノイズを除去することです。

(2)データのセグメンテーション

機械学習では、通常、すべてのデータはトレーニング データ セット、検証データ セット、テスト データ セットの 3 つの部分に分割されます。それらの機能は

  • トレーニングデータセット: 機械学習モデルの構築に使用
  • 検証データセット: モデルの構築を支援し、構築プロセス中にモデルを評価するために使用され、モデルの偏りのない推定値を提供し、モデルのハイパーパラメータを調整します。
  • テストデータセット: トレーニングされた最終モデルのパフォーマンスを評価するために使用

データを分割する方法については後ほど共有します。

(3)特徴エンジニアリング

特徴構築とは、元のデータから物理的に重要ないくつかの特徴を手動で見つけることを指します。生データを観察し、問題の潜在的な形やデータ構造について考えるには時間がかかります。データに対する感受性と機械学習の実践経験は、特徴の構築に役立ちます。

機械学習について私が言いたいことは以上です。皆様、引き続きご注目ください〜

<<:  考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

>>:  人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

ブログ    
ブログ    

推薦する

次世代の顔認識技術とは何でしょうか?ここを見て

アクセス制御業界における顔認識の需要の高まりに応えて、このコンセプトをより高い技術レベルで拡張する新...

3つの主要な要因の影響を受けて、自動運転トラックの開発は加速し続けています

近年、自動運転は幅広い注目を集め、熱い議論を呼んでいます。自動運転は自動車産業の将来のトレンドである...

平均年収35万元、2018年のビッグデータAIの発展動向分析

近年、ビッグデータは非常に人気があり、特に2017年には、ビッグデータ産業の発展が政府活動報告に記載...

現代ロボットの父:スーパーAIは単なる空想

編集者注: この記事は、MIT Technology Review の副編集長兼編集長であり、AP ...

...

AIによる顔の変形は危険だが、VRスキーは素晴らしい

[[402233]]市民がVRスキー体験。本紙(記者 陳龍)5月27日、2021年中国国際ビッグデー...

国連の高レベル人工知能諮問機関が設立され、曽毅と張玲漢が専門家グループのメンバーに選ばれた。

国連のアントニオ・グテーレス事務総長は現地時間10月26日、ニューヨークの国連本部で、AIがもたらす...

ディープラーニングは他の画像処理アルゴリズムを置き換えることができますか?

近年、ディープラーニング技術の登場により、視覚画像処理はますます普及し、さまざまな分野で広く利用され...

...

JVM 世代別ガベージコレクションのプロセスとアルゴリズムの選択の図解説明

この記事は、JVM の世代別ガベージ コレクション プロセスを紹介し、さまざまなガベージ コレクショ...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

...

Kafka のバイナリ検索アルゴリズムの改善

[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...