データ サイエンスの初心者の場合は、まずはここにいくつかのアルゴリズムを紹介します。

データ サイエンスの初心者の場合は、まずはここにいくつかのアルゴリズムを紹介します。

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

機械学習は、データサイエンスの分野で最も重要なサブフィールドの 1 つです。機械学習という用語は、1959 年に IBM の研究者であるアーサー・サミュエルによって初めて使用されました。それ以来、機械学習の分野は多くの人々の間で大きな関心を集めてきました。

データ サイエンスの旅を始めるとき、おそらく最初に遭遇するサブフィールドは機械学習です。機械学習とは、実行中に情報を収集することで継続的に学習し、改善するコンピューター アルゴリズムの集合を表すために使用される名前です。

機械学習アルゴリズムはすべて何らかのデータに基づいています。最初に、アルゴリズムに「トレーニング データ」が入力され、特定の問題を解決するための直感が構築されます。アルゴリズムが学習段階を通過すると、獲得した知識を使用して、さまざまなデータ セットに基づいて同様の問題を解決できるようになります。

一般的に、機械学習アルゴリズムは次の 4 つのカテゴリに分類されます。

  • 教師ありアルゴリズム: 操作中に開発者の監督が必要です。これを実現するために、開発者はトレーニング データにラベルを付け、アルゴリズムが従うべき厳格なルールと境界を設定できます。
  • 教師なしアルゴリズム: 開発者が直接制御しないアルゴリズム。この場合、アルゴリズムの予想される結果は不明であり、アルゴリズムによって定義される必要があります。
  • 半教師ありアルゴリズム: このアルゴリズムは、教師ありアルゴリズムと教師なしアルゴリズムの側面を組み合わせたものです。たとえば、アルゴリズムを初期化するときに、すべてのトレーニング データがラベル付けされるわけではなく、ルールのサブセットは提供されません。
  • 強化アルゴリズム: このタイプのアルゴリズムは、探索/活用と呼ばれる手法を使用します。技術的な内容は単純で、機械がアクションを実行し、その結果を観察し、次のアクションを実行するときにその結果を考慮する、という動作を繰り返します。

上記の各アルゴリズムには特定の目標があります。たとえば、教師あり学習は、トレーニング データの範囲を拡大し、それを使用して将来のデータや新しいデータを予測することを目的としています。一方、教師なしアルゴリズムは、データを整理してフィルタリングし、意味を理解するために使用されます。

各カテゴリには、特定のタスクを実行するために設計されたさまざまな特定のアルゴリズムがあります。この記事では、すべてのデータ サイエンティストが知っておくべき 5 つの重要なアルゴリズムを紹介し、機械学習の基礎について説明します。

1. 回帰

回帰アルゴリズムは、独立変数が従属変数にどの程度影響を与えるかを理解するために、さまざまな変数間の可能な関係を見つけるために使用される教師ありアルゴリズムです。回帰分析は方程式として考えることができます。たとえば、方程式 y = 2x + z があり、y が従属変数、x と z が独立変数であるとします。回帰分析は、x と z が y の値にどの程度影響するかを調べることです。

より高度で複雑な問題にも同じロジックが適用されます。さまざまな問題に対して、多くの種類の回帰アルゴリズムが存在します。最もよく使用される上位 5 つは、おそらく次のとおりです。

  • 線形回帰: 最も単純な回帰手法では、線形アプローチを使用して、従属変数 (予測値) と独立変数 (予測される値) の関係を記述します。
  • ロジスティック回帰: このタイプの回帰はバイナリ従属変数に使用され、カテゴリデータの分析に広く使用されています。
  • リッジ回帰: 回帰モデルが複雑になりすぎると、リッジ回帰はモデル係数のサイズを修正します。
  • Lasso 回帰: Lasso (Least Absolute Shrinkage Selector Operator) 回帰は、変数を選択して正規化するために使用されます。
  • 多項式回帰: このタイプのアルゴリズムは、非線形データを適合させるために使用されます。使用される場合の最良の予測は直線ではなく、すべてのデータ ポイントに適合しようとする曲線です。

2. 分類

機械学習における分類とは、事前に分類されたトレーニング データセットに基づいて項目をカテゴリに割り当てるプロセスです。分類は教師あり学習アルゴリズムの一種と考えられています。これらのアルゴリズムは、トレーニング データの分類結果を使用して、新しい項目が定義されたカテゴリのいずれかに分類される確率を計算します。分類アルゴリズムのよく知られた例としては、受信メールをスパムか非スパムかに分類することが挙げられます。

分類アルゴリズムには多くの種類がありますが、最も一般的に使用されるものは次のとおりです。

  • K 近傍法: KNN は、トレーニング データセットを使用して、データセット内の k 個の最も近いデータ ポイントを見つけるアルゴリズムです。
  • 決定木: 各データ ポイントを最初に 2 つのカテゴリに分類し、次にさらに 2 つのカテゴリに分類する、というように繰り返すフロー チャートと考えてください。
  • ナイーブ ベイズ: このアルゴリズムは、条件付き確率ルールを使用して、アイテムが特定のクラスに属する確率を計算します。
  • サポート ベクター マシン (SVM): このアルゴリズムでは、データの極性の度合いに基づいてデータが分類されますが、これは X/Y 予測の範囲を超える可能性があります。

[[357500]]

画像出典: Google

3. 統合

アンサンブル アルゴリズムは、2 つ以上の他の機械学習アルゴリズムの予測を組み合わせて、より正確な結果を生成します。結果は、投票または結果の平均化によって組み合わせることができます。投票は通常分類に使用され、平均化は回帰に使用されます。

アンサンブル アルゴリズムには、バギング、ブースティング、スタッキングの 3 つの基本的なタイプがあります。

  • バギング: バギングでは、アルゴリズムは同じサイズの異なるトレーニング セットで並行して実行され、その後、すべてのアルゴリズムが同じデータセットでテストされ、投票されて全体的な結果が決定されます。
  • ブースティング: ブースティングの場合、アルゴリズムは順番に実行され、その後、加重投票を使用して全体的な結果が選択されます。
  • スタッキング: 名前が示すように、スタッキングは 2 つのレベルで構成されています。プライマリ学習者はアルゴリズムの組み合わせであり、セカンダリ学習者は基本レベルの結果に基づくメタアルゴリズムです。

4. クラスタリング

クラスタリング アルゴリズムは、同じクラスター内のポイントが異なるクラスター内のポイントよりも互いに類似するようにデータ ポイントをグループ化するために使用される、教師なしアルゴリズムのグループです。クラスタリング アルゴリズムには 4 つの種類があります。

  • 重心ベースのクラスタリング: このクラスタリング アルゴリズムは、初期条件と外れ値に基づいてデータをクラスターに編成します。最も一般的に使用される重心ベースのクラスタリング アルゴリズムは k-means です。
  • 密度ベースのクラスタリング: このクラスタリング タイプでは、アルゴリズムによって高密度領域がクラスターに接続され、任意の形状の分布が作成されます。
  • 分布ベースのクラスタリング: このクラスタリング アルゴリズムは、データが確率分布で構成されていると想定し、その分布のさまざまなバージョンにデータをクラスタリングします。
  • 階層的クラスタリング: このアルゴリズムは階層的なデータ クラスターのツリーを作成し、適切なレベルでツリーをカットすることでクラスターの数を変更できます。

5. 関係

関連付けアルゴリズムは、特定のデータ セット内で特定の項目が同時に発生する確率を検出するために使用される教師なしアルゴリズムであり、主にマーケット バスケット分析に使用されます。最も一般的に使用される関連付けアルゴリズムは Apriori です。 Apriori アルゴリズムは、トランザクション データベースでよく使用されるマイニング アルゴリズムです。 Apriori は、頻繁に使用されるアイテムセットをマイニングし、それらのアイテムセットからいくつかの関連ルールを生成するために使用されます。

たとえば、牛乳とパンを買う人は、卵も買う可能性が高いです。これは、各顧客の過去の購入履歴から導き出すことができます。次に、アルゴリズムはこれらのアイテムが一緒に購入される頻度を計算し、その信頼レベルの特定のしきい値に基づいて関連ルールを形成します。

画像出典: Google

機械学習は、データサイエンスの最もよく知られ、最も研究されているサブフィールドの 1 つです。より高い精度とより速い実行速度を実現するために、新しい機械学習アルゴリズムも常に開発されています。使用されるアルゴリズムに関係なく、一般的には、教師ありアルゴリズム、教師なしアルゴリズム、半教師ありアルゴリズム、ブースティング アルゴリズムの 4 つのカテゴリのいずれかに分類できます。各アルゴリズムには異なる目的があります。

これらのアルゴリズムは十分に研究され、広く使用されているため、実装方法ではなく、使用方法を理解するだけで済みます。よく知られている Python 機械学習モジュール (ScikitLearn など) のほとんどには、これらのアルゴリズムのすべてではないにしても、ほとんどの定義済みバージョンが含まれています。

原理を理解したら、すぐに使い方をマスターして使い始めましょう。

<<:  AIが「自由意志」を持つとき

>>:  トランスワープテクノロジーの孫元浩氏が「中国の人工知能起業家30人」の一人に選出

ブログ    

推薦する

マシンビジョンはインダストリー4.0とモノのインターネットの重要な技術です

[51CTO.com クイック翻訳] マシンビジョンは、機械学習と商用グレードのハードウェアを組み合...

勾配降下法はAI専門家やネットユーザーの間で白熱した議論を巻き起こす:全員の答えは読む価値がある

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習のための数学をどのように学ぶのでしょうか?

機械学習では数学が非常に重要です。アルゴリズムにおけるモデルコードの理解と、エンジニアリングにおける...

...

人工知能がスマートホームに加わり、未来が現実になる

[[262824]]スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシ...

...

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

今日のインターネット アプリケーション開発では、可用性の高い分散システムを構築することが、システムの...

llama.cppを勉強した後、携帯電話で大規模なモデルを実行するのはとても簡単だと分かりました

最近、オープンソース コミュニティでは、大規模モデルの最適化手法を模索する人が増えています。 LLa...

...

...

50億のブルーオーシャンが呼び寄せる、電力検査ロボットが最前線に

[[398288]]近年、気温が高くなり、多くの地域で扇風機やエアコンが使用されるようになり、それに...

ITリーダーはAIパワーの変化する需要とトレードオフを乗り切る

2023 年は世界中の IT 部門に多くの変化をもたらしました。これまでのところ、最大の驚きは Ge...

機械学習では、いくつかの分類アルゴリズムが一般的に使用されています。適切なアルゴリズムを選択するにはどうすればよいでしょうか?

今日は、機械学習における一般的な分類アルゴリズム 6 つ (K 最近傍法、決定木、単純ベイズ、ロジス...

美団におけるナレッジグラフ可視化技術の実践と探究

著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...

iQIYI CTO 唐星氏:AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある

[51CTO.com からのオリジナル記事] 歴史が示しているように、コンテンツの各形態は多数のイン...