この記事では、主に統計アルゴリズム、分類アルゴリズム、クラスタリング アルゴリズム、協調フィルタリング アルゴリズムなど、Spark MLlib API のさまざまな機械学習アルゴリズムと、さまざまなアルゴリズムのアプリケーションについて簡単に紹介します。
あなたはデータサイエンティストではありません。 「テクノロジーおよびビジネスメディアによると、機械学習は地球温暖化を防ぐだろう」。どうやら、このようなフェイクニュースを報道するのは中国のニュースメディアだけらしい。機械学習はフェイクニュースを識別できるかもしれない(分類アルゴリズムに関連)?実際、機械学習は本当にそれができるのだ! では、機械学習で何ができるのでしょうか? どうすればわかるのでしょうか? すでにバッチ処理やストリーム処理に Apache Spark を使用している場合は、これをより効率的に実行できるものがあります。 Spark SQL と Spark Stream Processing を使用するときに使用する可能性が高いものの 1 つは、API 形式の機械学習ライブラリと統計アルゴリズムである Spark MLlib です。 以下では、主にその機能とアプリケーションを含む、最も基本的な 4 つの MLlib API の簡単な紹介を示します。追記:記事内の青いフォントの部分については、下部をクリックすると原文で詳細を読むことができます。 統計アルゴリズム これらの API は主に AB テストまたは ABC テストに使用されます。ビジネスでは、2 つのものの平均が等しい場合、それらはほぼ同等であると想定されることがよくあります。実は必ずしもそうではありません。自動車メーカーが車のシートを交換した後のシートの快適性に関する調査を行っていると想像してください。背の低いユーザーにとってはシートの快適性が高く感じられるかもしれませんが、背の高いユーザーにとっては非常に不快に感じて車の購入を諦めるかもしれません。一方、中程度の身長のユーザーはこの差をちょうどバランスさせます。通常、新しい座席はより快適かもしれませんが、身長 6 フィートを超える人が購入しない場合は、失敗したことになります。 Spark の仮説検定では、まずピアソンのカイ二乗検定またはコルモゴロフ・スミロフ検定を実行して、何かの「適合性」、またはその値が「正規分布している」かどうかを検定できます。この方法は基本的に、2 つのデータ文字列を比較する必要があるすべての状況に適用できます。 「適合性」は、「それが気に入るかどうか」、または新しいアルゴリズムが古いものよりも「優れている」という目標を達成するかどうかを示します。 分類アルゴリズム あなたの属性は何ですか? さまざまな属性を持つものがたくさんある場合、コンピューターにそれらを正しく分類させることができます。ここでの秘訣は、各属性を各「クラス」にマッピングすることです。この分類には標準的な正解はありませんが、間違った答えはたくさんあります。誰かが一連の表を見て、それをカテゴリに分類するのを想像してみてください。それが分類アルゴリズムです。スパムフィルターを使用すると、スパムによく使用される単語を含むメッセージをフィルター処理する分類アルゴリズムにすでに触れたことがあるでしょう。分類アルゴリズムは、患者の状態を診断したり、ケーブルテレビの契約を解除する可能性が高いユーザー(通常はスポーツを観ない人)を予測したりするためにも使用できます。本質的に、分類学習は過去のデータ ラベルに基づいており、それらのラベルを適用して将来の展開を予測します。 クラスタリングアルゴリズム 誰かと「機械学習」について議論するとき、相手が k-means アルゴリズムしか言えないのであれば、それは相手が「カンニングペーパー」を読んだだけで、何も理解していないことを意味します。属性のセットがある場合、これらの属性をさまざまなカテゴリに分類するためのいくつかの重要なポイントを見つけることができます。これがクラスタリング アルゴリズムです。異なるクラス間の違いはわかりますが、いくつかのクラスはより近い可能性もあります。大きいものと小さいものを同じカテゴリに分類し、別の小さいものを大きいカテゴリに分類することも可能です。他のさまざまな複雑な属性やさまざまな次元と組み合わせると、実際には多くのクラスタリング アルゴリズムが存在します。クラスタリング アルゴリズムは分類アルゴリズムとは異なりますが、クラスタリング アルゴリズムは、人々のグループをグループ化するためによく使用されます。 2 つのアルゴリズムの最大の違いは、クラスタリング アルゴリズムでは、クラスターの前のラベル (またはグループ) が何であるかがわからないのに対し、分類アルゴリズムでは、ラベルが非常に明確であることです。顧客セグメンテーションは一般的なアプリケーションです。顧客によって好みは異なります。たとえば、顧客をクレジット グループ、保持リスク グループ、購入グループ (生鮮農産物または調理済み食品) に分けることができますが、既存のデータに基づいて不正行為を識別するために分類することもできます。 協調フィルタリングアルゴリズム そうですね、協調フィルタリングは人気のあるアルゴリズムです。当社では、検索結果の精度を向上させるために協調フィルタリング アルゴリズムを使用しています。関連する講義も行いました。十分な数の人々が 2 番目の猫の写真をクリックした場合、その猫の写真は 1 番目の猫の写真よりも優れているはずです。ソーシャル メディアや電子商取引の環境では、さまざまなユーザーの「好き嫌い」をフル活用すれば、大多数のユーザーや特定のユーザー グループにとって「最適な」結果を見つけることができます。これは、パーソナライゼーション システムのマルチ属性フィルタリングによって実現されます。たとえば、Google マップや Yelp でレストランを検索するときに、この原則が使用されます (サービス品質、料理の種類、内装スタイル、子供に適しているかどうか、雰囲気があるかどうか、ユーザー レビュー、消費レベルなどでフィルタリングできます)。 上記は機械学習のアルゴリズムのすべてではありませんが、最も一般的に使用されているアルゴリズムでもあります。上記の 4 つのカテゴリにはそれぞれ、オプションのアルゴリズムまたは派生アルゴリズムがいくつか含まれています。どれを選択すればよいでしょうか。選択する特定のアルゴリズムは、数学的背景、実験プロセス、既知のデータなど、さまざまな要因の総合的な結果です。これらのアルゴリズムは問題を分析するための単なるツールであり、これらのアルゴリズムを使用した後に役に立たない結果が得られる可能性があることに留意してください。 |
<<: Uber劉延東:Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた
>>: 見逃せない 7 つのディープ ニューラル ネットワーク可視化ツール
機械学習と人工知能の急速な発展に伴い、業界では多くのオープンソースの機械学習プラットフォームが登場し...
最近、OpenAIはChatGPT Plusメンバー向けに新しいベータ機能を開始しました。これには主...
標準、再帰、畳み込み、オートエンコーダネットワークディープラーニングの急速な発展により、多種多様なタ...
現在市販されている「手動運転」の自動車には、ナビゲーション、車載インフォテインメントシステム、道路監...
次元削減とは、高次元のデータ セットを同等の低次元空間に変換するプロセスです。実際のデータ セットに...
マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでな...
翻訳者 |李睿レビュー | Chonglou AI 拡張ソフトウェア エンジニアリングは、人工知能と...
OpenAI は、人工知能 (AI) の作成と推進を専門とする非営利団体です。そのビジョンは、人間...
[[357916]]実践する前に、データ構造やアルゴリズム、あるいはこのシリーズについての誤解を避け...
今日では AI の例が非常に多く存在するため、代表的な AI の事例をいくつか選択することは困難です...
突然、タッチを恐れるようになった世界で、音声テクノロジーはまったく新しい様相を呈し始めています。 [...
[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...
コンピュータービジョンはアメリカ手話を学習して聴覚障害者を助けることができるでしょうか?データサイエ...