Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で経験豊富で影響力のある専門家です。これは、彼が今年執筆したデータサイエンスの簡単な紹介に関する一連の記事の最初のものです。主にデータサイエンスの基本法則、よく使用されるアルゴリズム、問題の種類を紹介しており、読者はデータサイエンスの全体像を垣間見ることができます。 2016年、イギリスの数学者であり、テスコクラブの建築家でもあるクライヴ・ハンブリー氏は、「データは新たなエネルギーである」と提唱した。彼はこう言った。 「データは新しいエネルギー源です。非常に価値がありますが、使用する前に精製する必要があります。石油と同様に、実際の役割を果たす前にガス、プラスチック、または化学物質に変換する必要があります。つまり、データは分解され、分析されて初めて価値が生まれます。」 iPhone革命とモバイル経済の成長は、ビッグデータ技術の発展に絶好の機会を生み出しました。 2012 年、HBR (ハーバード ビジネス レビュー) は、データ サイエンティストを最前線に位置付ける記事を公開しました。 「データ サイエンティスト: 21 世紀で最もセクシーな職業」(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) という記事では、この「新しい人間」のグループを、データ ハッカー、アナリスト、コミュニケーター、信頼性コンサルタントのハイブリッドと位置付けています。 現在、あらゆる企業がより「データ駆動型」になることを目指しています。機械学習テクノロジーはこれに大いに役立ちます。こうした内容の多くは非常に技術的であり、理解するのが困難です。したがって、この一連の記事ではデータ サイエンスを簡素化します。著者は、スタンフォード大学の授業や教科書「Introduction to Statistical Learning」(http://www-bcf.usc.edu /~gareth/ISL/)を参考にして、データサイエンスをシンプルでわかりやすい形で読者に紹介しようとしています。 データ サイエンスは、主に以下の分野を含む学際的な分野です。
このシリーズの焦点は、データ サイエンスの機械学習の側面を簡素化することです。この記事では、まずデータサイエンスの基本法則、一般的なアルゴリズム、問題の種類について紹介します。 コア法則 (画像はMenon, 2017より転載) データは戦略的なリソースです。この概念は組織の考え方です。問題は、「私たちは収集して保存したすべてのデータを使用しているか?そこから意味のあるリソースを抽出しているか?」ということです。これらの質問に対する答えは「いいえ」であると確信しています。クラウドベースの企業はデータ主導です。彼らは必然的にデータを戦略的リソースとして見るようになるでしょう。しかし、この概念はほとんどの組織には当てはまりません。 知識獲得のための体系的なプロセス: データのマイニングには、明確な手順と、各手順の明確かつ達成可能な目標を備えた体系的なプロセスが必要です。たとえば、データマイニングの業界標準プロセス (CRISP-DM) (https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining)。 データとともに眠る: 組織はデータに情熱を持つ専門家に投資する必要があります。データをリソースに変換するのは錬金術ではありません。この世に万能の錬金術師は存在しない。彼らが必要としているのは、データの価値を理解し、データ リソースを識別して作成できる信者です。そして、データ、テクノロジー、金融の分野を結び付けることができる専門家。 不確実性を受け入れる: データ サイエンスは万能薬ではありません。それは未来を予測するのに使える水晶玉ではありません。レポートや KPI と同様に、意思決定を可能にします。データ サイエンスはツールであり、目的を達成するための手段ではありません。それは絶対的なものではなく、確率の範疇に属します。経営陣と意思決定者はこの事実を受け入れる必要があります。定量化された不確実性を意思決定プロセスに組み込む必要があります。組織が実験の文化を取り入れ、失敗から素早く学ぶことができる場合にのみ、不確実性の中で成長することができます。 BAB 法 (ビジネス - 分析 - ビジネス): これは最も重要な法律だと思います。データ サイエンスの文献のほとんどは、モデルとアルゴリズムに焦点を当てています。この方程式自体にはビジネス上の文脈が欠けています。 BAB は商業的な部分を強調します。アルゴリズムをビジネスの文脈に配置することは非常に重要です。ビジネス上の問題を定義し、分析を使用して解決し、最終的にその答えをビジネス プロセスに統合します。これはいわゆる BAB (ビジネス分析ビジネスプロセス) です。 プロセス (画像はMenon, 2017より転載) このセクションでは、第 2 法則を参考にして、データ サイエンスのプロセス部分の紹介に焦点を当てます。典型的なデータ サイエンス プロジェクトの段階は次のとおりです。 1. ビジネス上の問題を定義する アインシュタインはかつてこう言いました。「すべてのことを本質に留め、できるだけシンプルにしなさい。」この引用は、ビジネス上の問題を定義するための鍵であると言えます。問題の説明は正確に作成する必要があり、達成すべき目標は明確に定義されなければなりません。私の経験では、ビジネス チームは目の前のタスクに夢中になりすぎて、対処が必要な課題を見失ってしまいます。ブレーンストーミング セッション、ワークショップ、インタビューは、これらの課題を明らかにし、仮説を立てるのに役立ちます。たとえば、通信会社が顧客基盤の縮小により前年比で収益が減少したとします。この場合、ビジネス上の問題は次のように定義できます。
2. 機械学習タスクに分解する 定義されたビジネス上の問題は、さまざまな機械学習タスクに分割する必要があります。たとえば、企業が新しい市場を開拓し、顧客離れを減らすことで顧客基盤を拡大する必要がある場合、それを機械学習の問題に分解するにはどうすればよいでしょうか。分解計画は次のとおりです。
3. データの準備 ビジネス上の問題を定式化し、それを機械学習のタスクに分解した後、適切な分析戦略を開発するために、関連データを深く理解する必要があります。データのソース、データの品質、データの偏りなどの重要な問題に注意を払うことが重要です。 4. 探索的データ分析 宇宙を探索する宇宙飛行士と同じように、データ サイエンティストはデータ パターンの未知の部分を探索し、その隠れた特徴に対する洞察を得て、新たな発見を記録する必要があります。探索的データ分析 (EDA) は魅力的なタスクです。データをより深く理解し、そのニュアンスを調査し、隠れたパターンを発見し、新しい機能を開発し、モデリング戦略を開発することができます。 5. モデリング 探索的データ分析の後、モデリングに進みます。この段階では、一般的な回帰、決定木、ランダムフォレストなどのアルゴリズムなど、特定の機械学習の問題に最も適したアルゴリズムを選択します。 6. 展開と評価 最後に、構築したモデルを展開し、継続的に監視して、実際の環境でのパフォーマンスを観察し、ターゲットを絞った調整を行います。 通常、モデリングとデプロイメントは全体の作業の 20% のみを占め、残りの 80% の作業はデータの調査と詳細な理解です。 機械学習の問題の種類 (画像はMenon, 2017より転載) 簡単に言えば、機械学習は教師あり学習と教師なし学習の 2 つのカテゴリに分けられます。 1. 教師あり学習 教師あり学習タスクには事前に定義された目標があります。モデラーは、特定の目標を達成するために、機械学習モデルの生成プロセスを意図的に観察し、影響を与えます。教師あり学習はさらに 2 つのカテゴリに分けられます。 回帰: 回帰モデルは機械学習タスクで非常に一般的であり、数値変数を推定および予測するために使用されます。ここに 2 つの例を示します。
分類: 名前が示すように、分類モデルはオブジェクトをいくつかの特定のカテゴリに分類してグループ化します。あらゆるタイプのアプリケーションに適しています。以下に典型的な例をいくつか示します。
2. 教師なし学習 教師なし学習には特定の目標がないため、生成される結果を解釈するのが難しい場合があります。教師なし学習タスクには多くの種類があります。最も一般的なものは次のとおりです。
機械学習タスクからモデル、アルゴリズムまで ビジネス上の問題が機械学習タスクに分解されると、1 つ以上のアルゴリズムで特定の機械学習タスクを解決できるようになります。通常、モデルは複数のアルゴリズムを使用してトレーニングされます。最良の結果をもたらすアルゴリズムまたはアルゴリズムのセットを選択して展開します。 Microsoft Azure Machine Learning には、機械学習モデルのトレーニングに使用できる 30 を超える構築済みアルゴリズムが用意されています。 (画像はMenon, 2017より転載) Azure Machine Learning チートシートは、これらのアルゴリズムを調べるのに役立ちます。 結論は データサイエンスは非常に幅広い分野です。それは魅力的な科学であり芸術です。この記事では、氷山の一角についてのみ取り上げました。 「なぜ」という原理を理解せずに「どのように」という方法を探究しても意味がありません。今後の投稿では、機械学習の「方法」について引き続き探っていきます。 |
<<: 人工知能による影の検出と除去、反射に基づく影の検出と除去方法を実現
>>: 「2018年中国人工知能サミット」が9月6日に南京で開催される。
Google サービスには 20 億行のコードが含まれており、自動車システムには 1 億行のコードが...
サイエンス フィクションの世界では、デジタル ツインの概念は長い間定番であり、作家たちは、人間が操作...
[[185877]]コンピュータ処理、音声認識、モバイル通信、クラウドコンピューティング、ニューラル...
[[158318]]ほぼすべてのトップクラスのインターネット企業やソフトウェア企業は、ソフトウェアエ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
人工知能は、産業用ロボットやロボットプロセス自動化 (RPA) における新たなアプリケーションを推進...
ChatGPT が AI を話題にしてから 1 年以上経ちましたが、今年の Consumer Ele...
1. APEモデル「アクション、目的、期待」(APE) モデルは、アクション、目標、期待を明確にする...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...
天津の不動産管理会社は、コミュニティへの出入りの唯一の方法として顔認証を使用していたとして住民から訴...