ディープラーニング、機械学習、人工知能 — これらの流行語は分析の未来を表しています。この記事では、実際の例を通して機械学習とディープラーニングとは何かを説明します。今後の記事では、垂直的なユースケースについて検討します。目標は、データ サイエンティストになることではなく、機械学習で何ができるかをより深く理解してもらうことです。機械学習が開発者にとってますます利用しやすくなり、データ サイエンティストがドメイン エキスパート、アーキテクト、開発者、データ エンジニアと連携して作業することが多くなるにつれて、機械学習で何が可能かを誰もが詳しく理解することが重要になります。あなたのビジネスが生み出すあらゆる情報は、付加価値をもたらす可能性があります。この投稿と今後の投稿は、皆さんが独自のデータを見直して新たな機会を発見するきっかけとなることを目的としています。
人工知能とは何ですか? 人工知能の歴史を通じて、その定義は絶えず書き換えられてきました。人工知能は包括的な用語です (この概念は 50 年代に遡ります)。機械学習は AI のサブセットであり、ディープラーニングは機械学習のサブセットです。 1985年、私がNSAでインターンをしていた頃、人工知能も非常にホットな話題でした。 NSA では、AI エキスパート システムに関する MIT のビデオ コースも受講しました。エキスパート システムは、ルール エンジン内のエキスパートの知識を取得します。ルール エンジンは金融や医療などの業界で広く使用されており、最近ではイベント処理にも使用されていますが、データが変更されると、ルールの更新と維持が非常に困難になります。機械学習の強みは、データから学習し、データに基づいた確率的予測を提供できることです。 過去 10 年間で分析はどのように変化しましたか? ハーバード ビジネス レビューのトーマス ダベンポート氏によると、分析テクノロジーは過去 10 年間で大きな変化を遂げました。コモディティ サーバーを介したより強力で安価な分散コンピューティング、ストリーミング分析、機械学習技術の向上により、企業はより多くのさまざまな種類のデータを保存および分析できるようになりました。 Apache Spark などのテクノロジーは反復アルゴリズムを使用し、反復にわたってメモリにデータをキャッシュし、軽量のスレッドを使用することで、分散データの並列処理をさらに高速化します。 グラフィックス プロセッシング ユニット (GPU) は、マルチコア サーバー上の並列処理を高速化します。 GPU は、複数のタスクを同時に処理するように特別に設計された、数千のより小型で効率的なコアで構成された超並列アーキテクチャを備えています。一方、CPU は、順次シリアル処理に最適化された少数のコアで構成されています。潜在的なパフォーマンスの点では、Cray -1 から多数の GPU を搭載した今日のクラスターへの進化は、コストのほんの一部で、これまでに製造された最速のコンピューターの約 100 万倍のパフォーマンスを実現します。 機械学習とは何ですか? 機械学習では、アルゴリズムを使用してデータ内のパターンを検出し、それらのパターンを認識するモデルを使用して新しいデータに関する予測を行います。 一般的に、機械学習は、教師あり学習、教師なし学習、その中間の 3 つのタイプに分けられます。教師あり学習アルゴリズムはラベル付きデータを使用し、教師なし学習アルゴリズムはラベルなしデータ内のパターンを検出します。半教師あり学習では、ラベル付きデータとラベルなしデータを混合して使用します。強化学習は、フィードバックに基づいて報酬を最大化するようにアルゴリズムをトレーニングします。 教師あり学習 教師ありアルゴリズムではラベル付きデータを使用します。この場合、入力とターゲットの結果またはラベルの両方がアルゴリズムに提供されます。 教師あり学習は、予測を行うことができるモデルを構築するため、予測モデリングまたは予測分析とも呼ばれます。予測モデリングの例としては、分類と回帰が挙げられます。分類では、既知の項目のラベル付けされた例 (不正かどうかがわかっている取引など) に基づいて、項目がどのクラスに属するか (取引が不正かどうかなど) を識別します。ロジスティック回帰は、確率(たとえば詐欺の確率)を予測します。線形回帰は、不正行為の量などの数値を予測します。 カテゴリの例としては次のようなものがあります。
ロジスティック回帰 (またはその他のアルゴリズム) の例には次のものがあります。
線形回帰の例としては次のようなものがあります。
他にも教師あり学習アルゴリズムと教師なし学習アルゴリズムは存在しますが、ここではすべてを取り上げることはしませんが、各カテゴリから 1 つずつ詳しく説明します。 分類例: デビットカード詐欺 分類では、既知のラベルと事前に決定された特性を持つデータのセットを取得し、この情報に基づいて新しいデータにラベルを付ける方法を学習します。機能は、あなたが尋ねる「はい」か「いいえ」の質問です。タグはこれらの質問に対する答えです。 デビットカード詐欺の例を見てみましょう。 何を予測したいのでしょうか?
予測を行うために使用できる「はい/いいえ」の質問または属性は何ですか?
分類モデルを構築するには、分類に最も貢献する有用な特徴を抽出する必要があります。 決定木 決定木は、入力された特徴に基づいてクラスまたはラベルを予測するモデルを作成します。これは、各ノードで機能を含む質問を評価し、その回答に基づいて次のノードへのブランチを選択することによって機能します。デビット カード詐欺を予測するための意思決定ツリーは次のようになります。機能の質問はノードであり、回答の「はい」または「いいえ」は子ノードへのツリー内のブランチです。 (実際のツリーにはさらに多くのノードがあることに注意してください。) 質問 1: 24 時間のコストは平均よりも高いですか?
質問 2: 現在、高リスクの販売業者からの取引は多くありますか?
決定木は視覚化と解釈が容易なため人気があります。アルゴリズムとアンサンブル法を組み合わせることで、モデルの精度を向上させることができます。アンサンブルの例としては、決定木の複数のランダムなサブセットを結合するランダム フォレスト アルゴリズムがあります。 教師なし学習 教師なし学習は記述分析とも呼ばれ、事前に提供されたラベル付きデータはありません。これらのアルゴリズムは、入力データ内の類似点やパターンを検出します。教師なし学習の例としては、購入データに基づいて類似の顧客をグループ化することが挙げられます。 クラスタリング クラスタリングでは、アルゴリズムが入力インスタンス間の類似性を分析して、入力インスタンスをカテゴリにグループ化します。クラスタリング使用例には次のようなものがあります。
K 平均アルゴリズムはデータを K 個のクラスターにグループ化し、各データ ポイントはクラスター中心に最も近い平均を持つクラスターに属します。 クラスタリングの一例としては、製品やサービスをより適切にカスタマイズするために顧客をセグメント化したい企業が挙げられます。顧客は、人口統計や購入履歴などの特性に基づいてグループ化できます。より価値のある結果を得るために、教師なしクラスタリングは教師あり学習と組み合わせられることがよくあります。たとえば、この銀行顧客 360 ユースケースでは、顧客はまずアンケートの回答に基づいてセグメント化されます。次に、顧客グループを分析し、ユーザーポートレートでラベルを付けます。これらのタグは、顧客 ID を介して、アカウントの種類や購入したコンテンツなどの機能にリンクされます。最後に、ラベル付けされた顧客に教師あり機械学習を適用し、調査ユーザープロファイルと銀行取引行動をリンクして、深い洞察を提供できるようになりました。 ディープラーニング ディープラーニングとは、入力と出力の間にあるノードの「隠し層」で構成されたネットワークである多層ニューラル ネットワークを指す用語です。ニューラル ネットワークにはさまざまなバリエーションがありますが、このニューラル ネットワーク チート シートで詳しく学ぶことができます。改良されたアルゴリズム、GPU、超並列処理 (MPP) により、数千の層を持つニューラル ネットワークが可能になりました。各ノードは入力データと重みを受け取り、出力層に到達して信頼値の誤差を計算するまで、次の層のノードに信頼値を出力します。勾配降下法と呼ばれるプロセスでバックプロパゲーションを行うことで、エラーがネットワークを通じて再度送り返され、重みが調整されてモデルが改善されます。このプロセスは何千回も繰り返され、結果として生じたエラーに基づいてモデルの重みが調整され、エラーがこれ以上削減できなくなるまで続きます。 このプロセスでは、各レイヤーがモデルの最適な特徴を学習します。これには、特徴を事前に決定する必要がないという利点があります。しかし、これはモデルの決定が解釈できないという欠点も意味します。意思決定を説明することは重要であるため、研究者はディープラーニングというブラックボックスを理解するための新しい方法を開発しています。 この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 |
<<: 人工知能技術は若者の雇用にどのような影響を与えるでしょうか?
PCMag が調査を実施したところ、ユーザーの 68% が、さまざまなスマートホーム製品が知らないう...
サイバー防御能力は、より高度なサイバー攻撃能力の発展に追いつくのに苦労している。人工知能、特に最先端...
みなさんこんにちは。私はXuanyuanです。 Sora の人気はここ数日続いています。今日は、So...
[[280794]]いくつかの困難や障害にもかかわらず、多くの企業がデジタル変革プロジェクトで大きな...
Google待望の大躍進、 Gemini大型モデルがついに発売!最も目を引くのは、次の写真とビデオで...
世界はクリーンで安全、かつ手頃な価格で持続可能な電力を緊急に必要としており、各国は化石エネルギーに代...
九寨溝マグニチュード7.0の地震、ロボット記者が25秒間で540語と写真4枚を執筆!人間記者、揺れて...
私たちの生活に浸透しているすべてのチャットボット、音声アシスタント、予測テキスト、その他の音声/テキ...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...