機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をいくつか紹介します。何か間違っている点がありましたら、ご訂正いただければ幸いです。

[[383223]]

01 機械学習の定義

機械学習について話す前に、まず人間の学習行動とは何かを明確にしましょう。

まとめると、人間は過去の経験からルールを獲得し、それを新しい類似のシナリオに適用する、これが人間の学習行動であると言えます。

同様に、機械学習とは、機械をトレーニングおよび学習し、大量のデータから固有の特徴を見つけ、新しい事柄について判断を下せるようにすることを指します。

02機械学習の分類

機械学習のカテゴリにはどのようなものがありますか? 分類方法によって、サブカテゴリも異なります。整理してみると、主に以下のような概要図があります。

(1)学習目標による分類

機械学習の目的は何でしょうか? 簡単に言えば、機械学習を通じてどのような結果を達成したいかということです。

学習目標に応じて、主に回帰問題、分類問題、ソート問題の 3 つのカテゴリに分けられます。

  • 回帰問題: 対象が連続変数である問題を解きます。たとえば、身長に基づいて体重を予測する場合、体重は連続変数になります。
  • 分類問題: 解決すべき問題は、離散ラベルの問題です。たとえば、人が男性か女性かを予測するなどです。
  • ソートの問題: モデルはオブジェクトのソートされたリストを出力します。

(2)学習データの特性に応じた分類

前述のように、機械学習には基礎となるトレーニング データが必要です (そうでなければ、機械は学習できません)。トレーニングデータの特性に応じて、主に次の 2 つのカテゴリに分類されます。

  • 教師あり学習: 既存のトレーニング サンプルを使用して最適なモデルをトレーニングし、このモデルを使用してすべての入力を対応する出力にマッピングし、出力に対して簡単な判断を下して予測と分類の目的を達成し、未知のデータを予測および分類する機能を実現します。一般的な教師ありアルゴリズムには、線形回帰アルゴリズム、BP ニューラル ネットワーク アルゴリズム、決定木、サポート ベクター マシン、KNN などがあります。
  • 教師なし学習: トレーニング サンプルのラベル情報は不明です。目標は、ラベルのないトレーニング サンプルを学習することでデータの固有の特性と法則を明らかにし、さらなるデータ分析の基礎を提供することです。このタイプの学習タスクで最も研究され、広く使用されているのは「クラスタリング」です。クラスタリングの目的は、類似したものをグループ化することであり、これは主にサンプルとグループ間の距離を計算することによって実現されます。ディープラーニングと PCA はどちらも教師なし学習のカテゴリに分類されます。一般的な教師なしアルゴリズムには、密度推定、異常検出、階層的クラスタリング、EM アルゴリズム、K-Means アルゴリズム、DBSCAN アルゴリズムなどがあります。

(3)モデルの複雑さによる分類

モデルの複雑さに応じて、線形モデルと非線形モデルの 2 つのカテゴリに分けられます。

  • 線形モデル: 決定境界は直線です。たとえば、ロジスティック回帰モデル。
  • 非線形モデル: 決定境界は直線ではありません。たとえば、ニューラル ネットワーク モデル。

(4)モデル機能による分類

モデルの機能に応じて、主に識別モデルと生成モデルに分けられます。

  • 判別モデル: 予測のためにデータから決定関数 f(x) または条件付き確率分布 P(y|x) を直接学習するモデル。与えられた入力 x に対してどのような出力 y を予測するかを扱います。一般的な k 最近傍法、パーセプトロン、決定木、ロジスティック回帰、線形回帰、最大エントロピー モデル。
  • 生成モデル: データから入力と出力の結合確率分布 P(x, y) を学習し、事後確率分布 P(y|x) を計算して予測するモデル。一般的な生成モデルには、ナイーブベイズと隠れマルコフ (EM アルゴリズム) が含まれます。

03機械学習の基本プロセス

機械学習プロジェクトの主なプロセスは次のとおりです。

(1)データ前処理

データクリーニングとは、データセット内のノイズデータや無関係なデータを検出して削除し、欠損データを処理して、空白のデータドメインや知識背景のホワイトノイズを除去することです。

(2)データのセグメンテーション

機械学習では、通常、すべてのデータはトレーニング データ セット、検証データ セット、テスト データ セットの 3 つの部分に分割されます。それらの機能は

  • トレーニングデータセット: 機械学習モデルの構築に使用
  • 検証データセット: モデルの構築を支援し、構築プロセス中にモデルを評価するために使用され、モデルの偏りのない推定値を提供し、モデルのハイパーパラメータを調整します。
  • テストデータセット: トレーニングされた最終モデルのパフォーマンスを評価するために使用

データを分割する方法については後ほど共有します。

(3)特徴エンジニアリング

特徴構築とは、元のデータから物理的に重要ないくつかの特徴を手動で見つけることを指します。生データを観察し、問題の潜在的な形やデータ構造について考えるには時間がかかります。データに対する感受性と機械学習の実践経験は、特徴の構築に役立ちます。

機械学習について私が言いたいことは以上です。皆様、引き続きご注目ください〜

<<:  考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

>>:  人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIに関する誤解

企業は意思決定を強化し、消費者体験を向上させるために、幅広いアプリケーションで人工知能を活用すること...

...

LVS 負荷分散モードとアルゴリズムの概要

先ほど、Lvs ロード バランシングの状態監視とトラブルシューティングについて紹介しましたが、Lvs...

科学者たちは、脳波を3%という低いエラー率で直接テキストに変換する「心を読む」方法を開発した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

テキストからキーワードを抽出するにはどうすればいいですか? Daguan Dataが使用する3つのアルゴリズムから始めましょう

導入自然言語処理の分野では、膨大なテキストファイルを処理する上で、ユーザーが最も関心を持っている問題...

問題点を突き止める - Weiang 入札および評価ビデオインテリジェントアーカイブシステム

財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...

人工知能を世界で初めて活用し、特発性肺線維症治療薬の新たなメカニズムを発見

Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...

ビッグデータマイニング機械学習人工知能ベン図戦争

半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方...

人工知能について知っておくべき基礎知識はすべてここにあります

21 世紀に革命をもたらした技術を 1 つ挙げるとすれば、それは人工知能でしょう。人工知能は私たちの...

...

...

女王即位70周年にあたり、世界初となる超リアルなヒューマノイドロボットアーティストが肖像画を発表したが、「信憑性に欠ける」と批判された。

ビッグデータダイジェスト制作著者: カレブエリザベス2世女王の即位70周年を祝い、英国は早くも祝賀ム...

「最もわかりにくい」Paxos アルゴリズムと、データベースの高可用性におけるその使用法をわかりやすい言葉で理解する

最近、Paxos アルゴリズムについてみんなが議論しています。私はオンラインで多くの記事を読みました...

技術者がAIを活用してキャリアを守る方法

「自動化」や「人工知能(AI)」などの「技術革新」がビジネスや仕事の本質を変えていることは間違いあり...