機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をいくつか紹介します。何か間違っている点がありましたら、ご訂正いただければ幸いです。

[[383223]]

01 機械学習の定義

機械学習について話す前に、まず人間の学習行動とは何かを明確にしましょう。

まとめると、人間は過去の経験からルールを獲得し、それを新しい類似のシナリオに適用する、これが人間の学習行動であると言えます。

同様に、機械学習とは、機械をトレーニングおよび学習し、大量のデータから固有の特徴を見つけ、新しい事柄について判断を下せるようにすることを指します。

02機械学習の分類

機械学習のカテゴリにはどのようなものがありますか? 分類方法によって、サブカテゴリも異なります。整理してみると、主に以下のような概要図があります。

(1)学習目標による分類

機械学習の目的は何でしょうか? 簡単に言えば、機械学習を通じてどのような結果を達成したいかということです。

学習目標に応じて、主に回帰問題、分類問題、ソート問題の 3 つのカテゴリに分けられます。

  • 回帰問題: 対象が連続変数である問題を解きます。たとえば、身長に基づいて体重を予測する場合、体重は連続変数になります。
  • 分類問題: 解決すべき問題は、離散ラベルの問題です。たとえば、人が男性か女性かを予測するなどです。
  • ソートの問題: モデルはオブジェクトのソートされたリストを出力します。

(2)学習データの特性に応じた分類

前述のように、機械学習には基礎となるトレーニング データが必要です (そうでなければ、機械は学習できません)。トレーニングデータの特性に応じて、主に次の 2 つのカテゴリに分類されます。

  • 教師あり学習: 既存のトレーニング サンプルを使用して最適なモデルをトレーニングし、このモデルを使用してすべての入力を対応する出力にマッピングし、出力に対して簡単な判断を下して予測と分類の目的を達成し、未知のデータを予測および分類する機能を実現します。一般的な教師ありアルゴリズムには、線形回帰アルゴリズム、BP ニューラル ネットワーク アルゴリズム、決定木、サポート ベクター マシン、KNN などがあります。
  • 教師なし学習: トレーニング サンプルのラベル情報は不明です。目標は、ラベルのないトレーニング サンプルを学習することでデータの固有の特性と法則を明らかにし、さらなるデータ分析の基礎を提供することです。このタイプの学習タスクで最も研究され、広く使用されているのは「クラスタリング」です。クラスタリングの目的は、類似したものをグループ化することであり、これは主にサンプルとグループ間の距離を計算することによって実現されます。ディープラーニングと PCA はどちらも教師なし学習のカテゴリに分類されます。一般的な教師なしアルゴリズムには、密度推定、異常検出、階層的クラスタリング、EM アルゴリズム、K-Means アルゴリズム、DBSCAN アルゴリズムなどがあります。

(3)モデルの複雑さによる分類

モデルの複雑さに応じて、線形モデルと非線形モデルの 2 つのカテゴリに分けられます。

  • 線形モデル: 決定境界は直線です。たとえば、ロジスティック回帰モデル。
  • 非線形モデル: 決定境界は直線ではありません。たとえば、ニューラル ネットワーク モデル。

(4)モデル機能による分類

モデルの機能に応じて、主に識別モデルと生成モデルに分けられます。

  • 判別モデル: 予測のためにデータから決定関数 f(x) または条件付き確率分布 P(y|x) を直接学習するモデル。与えられた入力 x に対してどのような出力 y を予測するかを扱います。一般的な k 最近傍法、パーセプトロン、決定木、ロジスティック回帰、線形回帰、最大エントロピー モデル。
  • 生成モデル: データから入力と出力の結合確率分布 P(x, y) を学習し、事後確率分布 P(y|x) を計算して予測するモデル。一般的な生成モデルには、ナイーブベイズと隠れマルコフ (EM アルゴリズム) が含まれます。

03機械学習の基本プロセス

機械学習プロジェクトの主なプロセスは次のとおりです。

(1)データ前処理

データクリーニングとは、データセット内のノイズデータや無関係なデータを検出して削除し、欠損データを処理して、空白のデータドメインや知識背景のホワイトノイズを除去することです。

(2)データのセグメンテーション

機械学習では、通常、すべてのデータはトレーニング データ セット、検証データ セット、テスト データ セットの 3 つの部分に分割されます。それらの機能は

  • トレーニングデータセット: 機械学習モデルの構築に使用
  • 検証データセット: モデルの構築を支援し、構築プロセス中にモデルを評価するために使用され、モデルの偏りのない推定値を提供し、モデルのハイパーパラメータを調整します。
  • テストデータセット: トレーニングされた最終モデルのパフォーマンスを評価するために使用

データを分割する方法については後ほど共有します。

(3)特徴エンジニアリング

特徴構築とは、元のデータから物理的に重要ないくつかの特徴を手動で見つけることを指します。生データを観察し、問題の潜在的な形やデータ構造について考えるには時間がかかります。データに対する感受性と機械学習の実践経験は、特徴の構築に役立ちます。

機械学習について私が言いたいことは以上です。皆様、引き続きご注目ください〜

<<:  考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

>>:  人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

ブログ    

推薦する

スマートビルにはスマートクリーニングが必要な理由

スマートビルへの移行はヨーロッパ全土で加速しています。あらゆる業界の組織が顧客と従業員のエクスペリエ...

業界の視点: 人工知能がビジネスプロセスに革命をもたらす方法

今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...

2019年にロボット分野で注目すべき5つのトレンド

2019 年に注目すべき 5 つのロボット トレンドは次のとおりです。 [[259551]] 1. ...

...

エラー率が44%減少しました!ニューヨーク大学の最新の「顔生成」は、年齢を自由に変えることが可能で、10代から高齢者まであらゆる人をカバーできる。

現在の「顔認識システム」は老化防止能力が非常に弱く、人の顔が老化すると認識性能が大幅に低下し、一定期...

Baidu がカスタマイズされたトレーニングおよびサービス プラットフォーム EasyDL を全面公開: 誰もが AI を使えるように

百度は昨年7月にAIプラットフォームをオープンして以来、開発者にAIオープンテクノロジーの能力を継続...

ChatGPTがまた進化しました!オールインワンツール、ネットユーザー:今日、起業プロジェクトがいくつ消滅したか

ChatGPT は一晩で静かにアップデートされ、数多くの起業家プロジェクトが始動しようとしています。...

MetaはTransformerアーキテクチャにアクションを起こします。新しい注目メカニズムは推論をよりよく理解します。

大規模言語モデル (LLM) が強力であることは議論の余地のない事実ですが、それでも単純な間違いを犯...

炭素系生物は排除されます! AIがクロスワードパズルで初勝利

先週のバーチャルクロスワードパズル「アメリカンクロスワードパズルトーナメント」には1,000人を超え...

Microsoft、SAP、Oracle などの世界的なソフトウェア大手は、生成 AI をどのように取り入れているのでしょうか?

2023年は、生成AIテクノロジーが大きな進歩を遂げる年です。ChatGPTなどのAIツールはテク...

囲碁をプレイするのはとても簡単です。AlphaZero は量子コンピューティングをプレイし始めます!

過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...

研究者らは従来のコンピューター上で複雑な量子コンピューティングアルゴリズムを実行する

EPFL のジュゼッペ・カルレオ教授とコロンビア大学の大学院生マティヤ・メドビドビッチ氏は、従来のコ...

GPTで絵本を作るのはすごく早いですね!

今日は、世界的に人気のAIツール「ChatGPT+Midjourney」を使った絵本の制作過程をご紹...