最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去数十年にわたり、機械学習は事実上の独自の分野となってきました。現代のコンピューティング能力の進歩のおかげで、機械学習を本当に大規模に活用できるようになったのはごく最近のことです。しかし、機械学習は実際にどのように機能するのでしょうか?答えは簡単です。アルゴリズムです。 機械学習は人工知能の一種であり、本質的にはコンピュータがプログラムされることなく自ら概念を学習するプロセスです。これらのコンピュータ プログラムは、新しいデータにさらされると「思考」(または出力)が変化します。機械学習を実装するにはアルゴリズムが必要です。アルゴリズムはコンピューターに書き込まれ、データを分析するときに従うべきルールを与えます。 機械学習アルゴリズムは予測分析によく使用されます。ビジネスでは、予測分析を使用して、将来何が起こる可能性が高いかを企業に伝えることができます。たとえば、予測分析アルゴリズムを使用すると、オンライン T シャツ小売業者は現在のデータを基に来月 T シャツが何枚売れるかを予測できます。 回帰または分類 機械学習は他の目的にも使用できますが、このガイドでは予測に焦点を当てます。予測とは、入力変数に基づいて出力変数を推定するプロセスです。例えば、特定の家の特徴を入力すれば、販売価格を予測することができます。 予測の問題は、大きく 2 つのカテゴリに分類されます。
機械学習の予測への応用を紹介したので、次は機械学習アルゴリズムについて説明します。機械学習アルゴリズムは、線形モデル、ツリーベース モデル、ニューラル ネットワークの 3 つのグループに分けられます。 線形モデルアルゴリズムとは 線形モデルでは、単純な数式を使用して、一連のデータ ポイントから「最適な」線を見つけます。既知の変数 (例: 材料) の方程式を使用して、予測したい変数 (例: ケーキを焼くのにかかる時間) を解くことができます。予測値を見つけるには、既知の変数を入力して答えを取得します。つまり、ケーキを焼くのにどれくらいの時間がかかるかを知るには、材料を入力するだけでよいのです。 たとえば、ケーキを焼く場合、次の式を使用します: t = 0.5x + 0.25y。ここで、t はケーキを焼く時間、x はケーキ生地の重さ、y = 1 (チョコレート ケーキの場合)、y = 0 (チョコレート以外のケーキの場合) です。では、ケーキ生地が 1kg あり、チョコレートケーキを作りたいと仮定して、数値を入力して次の式を作成します: t = 0.5(1) + (0.25)(1) = 0.75、つまり 45 分。 線形モデル アルゴリズムにはさまざまな形式がありますが、ここでは線形回帰とロジスティック回帰について説明します。 線形回帰 線形回帰は「最小二乗回帰」とも呼ばれ、線形モデルの最も標準的な形式です。回帰問題(予測しようとしている変数が数値である問題)の場合、線形回帰は最も単純な線形モデルです。 ロジスティック回帰 ロジスティック回帰は、分類問題に適応した単純な線形回帰です (予測しようとしている変数は、はい/いいえの回答です)。ロジスティック回帰は、その構造上、分類問題に適しています。 線形回帰とロジスティック回帰の欠点 線形回帰とロジスティック回帰はどちらも同じ欠点を抱えています。どちらも「過剰適合」する傾向があり、モデルがデータに適合しすぎて、以前は未知だったデータに一般化する能力が犠牲になります。したがって、両方のモデルを正規化する必要があり、過剰適合を防ぐために一定のペナルティが課せられることになります。線形モデルのもう 1 つの欠点は、非常に単純なため、より複雑な動作を予測できないことが多いことです。 ツリーモデルとは何ですか? ツリー モデルは、データセットを探索し、予測の決定ルールを視覚化するのに役立ちます。ツリー モデルについて聞いたとき、それを決定木または分岐操作のシーケンスとして考えることができます。ツリー モデルは精度が高く、安定しており、解釈も簡単です。線形モデルとは対照的に、非線形関係をマッピングして問題を解決できます。 決定木 決定木は、分岐方法を使用して決定の可能性のあるすべての結果を示すグラフです。たとえば、レタス、トッピング、サラダドレッシングを注文したい場合、意思決定ツリーを使用すると、考えられるすべての結果 (または最終的に得られるサラダの種類) をマッピングできます。 決定木を作成またはトレーニングするには、モデルのトレーニングに使用したデータを取得し、ターゲット トレーニング セットを最も適切に分割する属性を見つけます。 たとえば、クレジットカード詐欺では意思決定ツリーを使用します。不正リスク予測にとって最も重要な属性は消費の詳細であることがわかります (たとえば、消費量が非常に多いクレジットカード ユーザーがいます)。これは、支出額が異常に高いカードとそうでないカードの最初の分割(または分岐)になるかもしれません。次に、2 番目に人気のある属性 (頻繁に使用されるクレジットカードなど) を使用して次の分割を作成します。その後、ニーズに合った十分なプロパティが得られるまで続行できます。 ランダムフォレスト ランダム フォレストは、データのランダム サンプルを使用してそれぞれトレーニングされた多数の決定木の平均です。フォレスト内の個々のツリーは完全な決定木よりも弱いですが、それらを組み合わせることで多様性を通じて全体的なパフォーマンスを向上させることができます。 ランダムフォレストは、今日の機械学習で非常に人気のあるアルゴリズムです。トレーニング(または構築)が非常に簡単で、パフォーマンスも良好です。欠点は、他のアルゴリズムに比べて出力予測が遅くなる可能性があることです。したがって、超高速の予測が必要な場合は、おそらく使用しないでしょう。 勾配ブースティング 勾配ブースティングは、「弱い」決定木で構成されている点でランダムフォレストに似ています。唯一の違いは、勾配ブースティングではツリーが次々にトレーニングされることです。後続の各ツリーは、主に前のツリーによって誤って識別されたデータを使用してトレーニングされます。これにより、勾配ブースティングは予測しやすいケースよりも予測が難しいケースに重点を置くようになります。 勾配ブースティングもトレーニングが速く、パフォーマンスも非常に優れています。ただし、トレーニング データの小さな変更によってモデルが大幅に変更される可能性があるため、最も解釈しやすい結果が得られない可能性があります。 ニューラルネットワークとは何か 生物学におけるニューラル ネットワークは、相互に情報を交換する相互接続されたニューロンです。この考え方は現在、機械学習の世界に適応されており、人工ニューラルネットワーク (ANN) として知られています。ディープラーニングはよく使われる用語で、連続して配置された複数の層の人工ニューラルネットワークを指します。 人工ニューラル ネットワーク (ANN) には、人間の脳と同様の認知能力を学習できる幅広いモデルが含まれます。ニューラル ネットワークは、他のアルゴリズムでは処理できない非常に複雑なタスク (画像認識など) を処理できます。しかし、人間の脳と同様に、モデルのトレーニングには長い時間がかかり、多くのエネルギーが必要です (脳を働かせるために私たちがどれだけ食べるかを考えてみてください)。 |
<<: HanSight 万小川: 国内のセキュリティベンダーはセキュリティ人工知能を推進すべき
>>: Google による Kaggle の買収が 3 つの世界 (AI、機械学習、データサイエンス) に衝撃を与えたのはなぜでしょうか?
[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...
概要: この記事では、機械学習とディープラーニングの定義と応用についてわかりやすい言葉で紹介するとと...
OWASP (Open Web Application Security Project): OWA...
7月11日、ネットユーザーは、MicrosoftがBuildカンファレンスで発表した新しいMicro...
清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...
[[361051]]バイナリツリーの問題の監視アドレス: https://leetcode-cn....
[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...
[[353168]]記者趙光麗最近、中国科学院自動化研究所(以下、自動化研究所)は、「妙算智慧」戦術...
[[442506]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...
先ほど、Google Brainのシニア研究科学者であるBarret Zoph氏が、言語モデルのパラ...