ついにデータサイエンス、機械学習、人工知能を説明する人が現れる

01 データサイエンスとは何ですか? データサイエンスは何をするのですか?

まずはデータサイエンスの分野について議論しましょう。まず、データサイエンスとデータサイエンティストの役割と責任を定義することから始めましょう。これは、AI と機械学習の分野と、その取り組みを実行するために必要なスキルを説明するものです (機械学習エンジニアなどの専門的な役割が一般的になりつつあることに注意してください)。

データサイエンティストは一般的にさまざまな学歴や職歴を持っていますが、そのほとんどは 4 つの基本領域で強み (理想的には専門家) を持っている必要があります。私はこれを「データサイエンス専門知識の 4 つの柱」と呼んでいます。データサイエンティストは、次の分野 (順不同) の専門知識を持っている必要があります。

ビジネスまたは関連ビジネス分野
数学（統計学と確率論を含む）
コンピュータサイエンス（ソフトウェアプログラミングを含む）
書面および口頭でのコミュニケーション

他にも非常に必要とされるスキルや専門知識はありますが、私の意見では、上記の 4 つが主なものです。

現実には、人々は通常、4 つの柱のうち 1 つまたは 2 つに強みを持っていますが、4 つすべてに強みを持っている人は稀です。 4 つの領域すべてに強いデータサイエンティストに出会った場合、その人は真の専門家であり、ユニコーンと呼ばれる人を見つけたことになります。 4 つの柱すべてにおいて相当の専門知識と能力を備えた人材を見つけるのは難しく、深刻な不足に陥っています。

その結果、多くの企業がデータサイエンスの特定の柱を中心に専門的な役割を作り始めており、これらを組み合わせるとデータサイエンティストが存在することになります。

たとえば、MBA を持つ人、統計学者、機械学習またはソフトウェアエンジニアの 3 人でチームを編成できます。もちろん、チームにデータエンジニアを含めることもできます。チームは複数のタスクを同時に実行することができ、各メンバーはいつでも計画の特定の側面に集中することができます。

これらの柱に基づいて、データサイエンティストは既存のデータソースを活用し、必要に応じて新しいデータソースを作成して、意味のある情報を抽出し、深く実用的な洞察を生み出し、データ主導の意思決定をサポートし、AI ソリューションを構築できる必要があります。

これには、ビジネス分野における専門知識、結果の効果的な伝達と解釈、関連するすべての統計手法、プログラミング言語、パッケージ、ライブラリ、およびデータインフラストラクチャの使用が必要です。簡単に言えば、それがデータサイエンスのすべてです。

02 機械学習の定義とその主な特徴

機械学習は、多くの場合、人工知能のサブセットと見なされます。まず機械学習についてお話しましょう。

AI は機械によって発揮される知能であるという単純な定義を思い出してください。これは基本的に、機械が情報から学習し、学習したことを応用して物事を実行し、経験から学習し続ける能力を表します。

多くの AI アプリケーションでは、機械学習は AI アプリケーション中の学習に使用される一連の技術です。図 4-1 に示すように、いくつかの特定のテクノロジは、通常、ニューラルネットワークとディープラーニングを含む人工知能と機械学習のサブセットと見なすことができます。

▲図4-1 人工知能、機械学習、ニューラルネットワーク、ディープラーニングの関係

Google Design Blog の投稿で読んだ、機械学習のこの簡潔な定義がとても気に入りました。「機械学習とは、データから自動的に発見されるパターンと関係性に基づいて予測を行う科学です。」

機械学習の一般的な非技術的な定義は、明示的なプログラミングなしでデータから自動的に学習するプロセスであり、経験に基づいて知識を拡張する機能を持つということです。

機械学習とルールベースの手法の主な違いは、特に特定のドメイン、業界、ビジネス機能に関して明示的なプログラミングが不要であることです。ディープラーニングなどの高度な技術ではドメインの専門知識がまったく必要ありませんが、他の場合には、ドメインの専門知識は、トレーニングモデルの機能 (機械学習以外のアプリケーションでは、変数、データフィールド、またはデータ属性と呼ばれる) を選択またはエンジニアリングする形で提供されます。

どちらの場合も、明示的なプログラミングを必要としないことは絶対に重要であり、実際、機械学習を理解する上で最も重要な側面です。次の事例を通して説明しましょう。

機械学習が登場する前、特定の種類のローンの申請者が債務不履行になるかどうかを予測し、その結果ローンを承認するかどうかを決定できる予測モデルを作成するという任務を負ったプログラマーだったと想像してください。これを実現するには、個人の FICO スコア、信用履歴、ローン申請の種類などの情報を入力する、金融業界専用の長いソフトウェアプログラムを作成する必要があります。

コードには、非常に明示的なプログラミングステートメント (条件文やループなど) が多数含まれています。疑似コード（平易な英語で書かれたもの）は次のようになります。

 FICOスコアが800を超える場合、おそらく デフォルト 
承認されるべきである
それ以外の場合、その人のFICOスコアは  700から800の間
    一度も債務不履行をしたことがない場合 ローンを借りる場合、彼らはおそらく 
デフォルト 承認されるべきである
そうでなければデフォルトになる可能性が高い 承認されるべきではない
それ以外の場合、FICOスコアが700未満の場合
        ...

これは、融資業界のドメイン固有の専門知識をコードで表現したプログラミング (ルールベースの予測モデル) の非常に明確な例です。プログラムは 1 つのことだけを実行するようにハードコードされています。ルール（シナリオ）を決定するには、ドメインと業界の専門知識が必要です。

このプログラムは非常に厳格であり、潜在的なローン不履行につながる可能性のあるすべての要因を必ずしも反映しているわけではありません。また、ローン業界におけるさまざまな新しい変更に合わせて、手動入力によってプログラムを更新する必要があります。

このアプローチは特に効率的でも最適でもなく、可能な限り最良の予測モデルを生成しないことがわかります。一方、機械学習では、明示的なプログラミング、特にローン業界の専門知識を含むコードなしで、適切なデータを使用してこれを実行できます。

これは、機械学習のやや単純化された説明です。機械学習とは、関連するデータやドメインを知らなくてもデータセットを入力として受け取り、関連するデータやドメインを知らない機械学習アルゴリズムでそれを処理して予測モデルを生成する機能です。モデルは専門知識を持ち、入力を出力にマッピングする方法を理解しているため、可能な限り最も正確な予測を行うことができます。

これを理解できれば、機械学習の目的を高レベルで理解できたことになります。

機械学習アルゴリズム自体は明示的なプログラミングなしで学習できますが、機械学習ベースの AI ソリューションの構想、構築、テストのプロセス全体には依然として人間の関与が非常に必要であることは言及する価値があります。

03 機械学習法

機械はさまざまな手法を通じてデータから学習しますが、最も重要なものには、教師あり学習、教師なし学習、半教師あり学習、強化学習、転移学習などがあります。機械学習モデルのトレーニングと最適化に使用されるデータは、通常、図 4-2 に示すように、ラベル付きとラベルなしの 2 つのカテゴリに分類されます。

▲図4-2 ラベル付きデータとラベルなしデータ

ラベル付けされたデータにはターゲット変数または値があり、特定の特徴値（変数、属性、フィールドとも呼ばれる）の組み合わせに対して、ターゲット変数または値に関する予測を行うことができます。予測モデリング（機械学習の応用）は、ラベル付けされたデータセットでモデルをトレーニングし、特徴値の新しい組み合わせのターゲット値を予測します。データセットにはターゲットデータが含まれているため、ラベル付きデータと呼ばれます。

一方、ラベルなしデータにも特徴値はありますが、特定の対象データやラベルはありません。これにより、ラベルなしデータはグループ化 (クラスタリングとセグメンテーション) と異常検出に特に適しています。

残念ながら、十分な量のラベル付きデータを取得することが困難な場合があり、このデータを生成するには多額の費用と時間がかかる可能性があることに注意する必要があります。タグはデータレコードに自動的に追加することも、手動で追加することもできます (データレコードはサンプルとも呼ばれ、スプレッドシートの行として考えることができます)。

教師あり学習はラベル付きデータを使用する機械学習を指し、教師なし学習はラベルなしデータを使用します。半教師あり学習では、ラベル付きデータとラベルなしデータを混合して使用します。

さまざまな学習タイプについて簡単に概要を説明しましょう。教師あり学習には、予測、パーソナライズされた推奨システム、パターン認識など、多くの潜在的な用途があります。

教師あり学習は、回帰と分類という 2 種類のアプリケーションにさらに分けられます。両方の方法を使用して予測を行います。回帰は主に単一の離散値または実数値を予測するために使用されますが、分類は入力データのセットに 1 つ以上のクラスを割り当てるために使用されます (電子メール内のスパムか非スパムかなど)。

教師なし学習の最も一般的な用途は、クラスタリングと異常検出です。一般的に、教師なし学習はパターン認識に重点を置いています。その他のアプリケーションには、主成分分析 (PCA) と特異値分解 (SVD) を使用した次元削減 (データ変数の数を減らし、モデルの複雑さを簡素化する) が含まれます。

基礎となるデータはラベル付けされていませんが、ラベル、機能、または構成を適用して、教師なし学習プロセス自体以外のプロセスを通じてクラスター (グループ化) を検出すると、教師なし学習手法を適用して有用な予測を行うことができます。

教師なし学習の課題の 1 つは、教師なし学習生成モデルのパフォーマンスを判断するための特に優れた方法がないことです。出力はあなたの理解次第であり、正しいとか間違っているとかはありません。これは、データにラベルやターゲット変数がないため、モデルの結果を比較するデータが存在しないためです。この制限にもかかわらず、教師なし学習は依然として非常に強力であり、多くの実用的な用途があります。

ラベルなしデータは豊富だがラベル付きデータは不足している場合、半教師あり学習は非常に便利なアプローチになります。

ラベル付きデータとラベルなしデータを含む機械学習タスクでは、プロセスによってデータ入力が取得され、何らかのタイプの出力にマッピングされます。ほとんどの機械学習モデルの出力は非常に単純で、数値（3.1415 などの連続または離散）、1 つ以上のカテゴリ（クラス、例：「スパム」、「ホットドッグ」）、または確率（例：35% の確率）のいずれかです。

より高度な AI の場合、出力は構造化された予測 (つまり、単一の値ではなく予測値のセット)、予測された文字と単語のシーケンス (フレーズ、文など)、または最新のシカゴカブスの試合の人間が生成した要約 (Go Cubs!) などになります。

04 人工知能の定義と概念

先ほど、AI を機械が示す知能として簡単に定義しました。これには機械学習と、ディープラーニングなどの特定の技術のサブセットが含まれます。人工知能の定義をさらに明確にする前に、まず汎用知能の概念を定義しましょう。知能の定義は次のとおりです。

1 つ以上の目標を達成するために、学んだことを学習し、理解し、適用します。

したがって、知能とは基本的に、学習した知識を使用して目標を達成し、タスクを実行するプロセスです (人間の場合は、意思決定、会話、行動などがその例です)。汎用知能が定義された今、人工知能は単に機械によって発揮される知能であることが簡単にわかります。

より具体的には、AI は、機械が情報 (データ) から学習し、ある程度の理解を深め、その知識を使用して何かを実行できるようになることを表します。

人工知能の分野には、神経科学、心理学、哲学、数学、統計学、コンピューターサイエンス、コンピュータープログラミングなど、さまざまな科学が関わっています。 AI は、認知、つまり知識と理解の形成に関わる精神プロセスを基盤としているため、機械知能または認知コンピューティングと呼ばれることもあります。

より具体的には、認知およびより広い意味での認知科学は、情報を収集、処理、保存、使用して知性を生み出し、行動を促進することを可能にする脳のプロセス、機能、およびその他のメカニズムを説明するために使用される用語です。認知プロセスには、注意、知覚、記憶、推論、理解、思考、言語、記憶などが含まれます。その他の関連するより深い哲学的概念には、思考、感情、感覚、意識などがあります。

では、インテリジェンスを推進するものは何でしょうか? AI アプリケーションの場合、その答えはデータの形での情報です。人間も動物も、五感を通じて経験や周囲の環境から常に新しい情報を収集しています。この情報はその後、脳の認知プロセスと機能に渡されます。

驚くべきことに、人間は既存の情報や知識を利用して、例えば脳から既存の情報や知識を学習することで、他の事柄についての知識を理解して形成したり、新しいトピックに関するアイデアや意見を形成したりすることもできます。すでに理解している情報について考えていたときに、「なるほど！」という瞬間が訪れ、まったく新しい理解に至った経験は、何回ありますか?

経験要因も人工知能に大きな影響を与えます。人工知能は、特定のタスクに関連するデータを使用したトレーニングと最適化のプロセスを通じて実現されます。 AI アプリケーションは、新しいデータが利用可能になると継続的に更新および改善されます。これは、経験から AI を学習する側面です。

新しいデータから継続的に学習できることは、さまざまな理由で重要です。まず、世界と人間は常に変化しています。新しいテクノロジーが生まれては消え、イノベーションが生まれ、古い産業は混乱します。

たとえば、今日オンラインで購入したデータは、明日や数年後に表示されるデータとはまったく異なる可能性があります。自動車メーカーは、空飛ぶ車の購入に最も寄与する要因は何かと問い始めるかもしれないが、それは現在ますます人気が高まり、広く使用されている電気自動車ではないかもしれない。

最終的には、データとそこからトレーニングされたモデルは古くなります。これはモデルドリフトと呼ばれる現象です。したがって、経験と知識を継続的に得るためには、新しいデータから継続的に学習して AI アプリケーションを更新することが重要です。

05 データがAIを動かす

人工知能、機械学習、ビッグデータ、IoT、その他の分析主導型ソリューションにはすべて、データという共通点があります。実際、データはデジタルテクノロジーのあらゆる側面を支えています。

1. ビッグデータ

世界は今日ほど大量のデータを収集したり保存したりしたことはかつてありません。さらに、データ生成の種類、量、速度は驚くべき速度で増加しています。

ビッグデータの分野では、大規模で多様かつ動きの速いデータセットから情報を効率的に収集、統合、準備、分析する方法を研究しています。ただし、ハードウェアとコンピューティングの制限により、データセットから値を処理および抽出することが実行不可能または達成できない場合があります。

これらの課題に対処するには、革新的なハードウェアツール、ソフトウェアツール、分析手法が必要です。ビッグデータとは、データセット、関連テクノロジー、カスタマイズされたツールの組み合わせを表すために使用される用語です。

さらに、あらゆる種類のデータは、何らかの分析が伴わなければ本質的に役に立たない（データが収益化されない限り）。前述の説明に加えて、ビッグデータは非常に大規模なデータセットに対して実行される分析を表すためにも使用されます。これには、人工知能や機械学習などの高度な分析手法が含まれる場合があります。

図 4-4 に示すように、データは大まかに構造化データ、非構造化データ、半構造化データの 3 つのカテゴリに分類できます。

▲図4-4 データ型

2. 特定のデータソース

データソースにはさまざまな種類があり、大企業では同時に多数のデータソースが使用されています。特定の種類のデータは、顧客向けの製品やサービスを自動化および最適化するために使用できますが、他の種類のデータは、内部アプリケーションの最適化に適しています。以下に、考えられるデータソースのリストを示します。これらについて 1 つずつ説明します。

クライアント
セールスおよびマーケティング業務
イベントとお得情報
モノのインターネット
非構造化
第三者
公共

ほとんどの企業は顧客関係管理ツール (CRM) を使用しています。これらのツールは、既存および潜在的な顧客、サプライヤー、サービスプロバイダー間のやり取りを管理するために使用されます。

さらに、多くの CRM ツールをオンプレミスで導入したり統合したりして、複数のチャネルにわたる顧客マーケティング、コミュニケーション、ターゲティング、パーソナライゼーションを管理できます。したがって、CRM ツールは顧客中心の AI アプリケーションにとって非常に重要なデータソースとなります。

多くの企業が CRM ツールを主要な顧客データベースとして使用していますが、Agilone などの顧客データプラットフォーム (CDP) ツールは、顧客の行動、エンゲージメント、売上に関するデータソースを統合することで、単一の統合された顧客データベースを作成します。データウェアハウスと同様に、顧客データプラットフォーム (CDP) ツールは、技術者以外の人が効率的な分析、洞察の収集、ターゲットを絞ったマーケティングを行うために使用できるように設計されています。

売上データは企業にとって最も重要なデータではないとしても、比較的重要なデータであるはずです。一般的なデータソースには、物理的な場所を持つ企業の POS データ、オンラインショッピングアプリケーションの電子商取引データ、サービス販売の売掛金データなどがあります。多くの実店舗企業はオンラインでも製品を販売しているため、両方のデータソースを使用できます。

マーケティング部門は、複数のチャネルを通じて顧客とコミュニケーションを取り、オファーを提供し、対応するチャネル固有のデータを生成します。一般的なマーケティングデータソースには、電子メール、ソーシャル、有料検索、プログラマティック広告、デジタルメディアエンゲージメント (ブログ、ホワイトペーパー、ウェビナー、インフォグラフィックなど)、モバイルアプリ通知などがあります。

運用データは、ビジネス機能とプロセスを中心に展開されます。例としては、顧客サービス、サプライチェーン、在庫、注文、IT (ネットワーク、ログ、サーバーなど)、製造、物流、会計に関連するデータが挙げられます。運用データは、多くの場合、企業の内部運用に関する洞察を得て、運用効率の向上や運用コストの削減などの目標を達成するためにプロセスを改善または自動化するのに最適です。

SaaS (Software as a Service) やモバイルアプリケーションなどのデジタル製品を主に扱う企業では、通常、大量のイベントベースおよびトランザクションベースのデータを生成および収集します。

個々の売上に関するデータは本質的にトランザクションとして考えられますが、すべての売上データがトランザクションであるとは限らないことに注意することが重要です。イベントおよびトランザクションデータには、銀行振込、申し込みの送信、オンラインショッピングカートの放棄、ユーザーインタラクションおよびエンゲージメントデータ (クリックストリームなど)、Google アナリティクスなどのアプリケーションによって収集されたデータが含まれます。

調査によると、IoT 革命が本格化するにつれ、2025 年までに世界中で 750 億台を超える接続デバイスが最大 11 兆ドルの経済価値を生み出すことになります。接続されたデバイスやセンサーによって生成されるデータの量が増加していることは言うまでもありません。このデータは人工知能アプリケーションにとって非常に貴重です。

企業には、ほとんど使われずに残っている非常に貴重な非構造化データが大量に存在します。前述の非構造化データには、画像、ビデオ、オーディオ、テキストが含まれます。製品やサービスに関する顧客レビュー、フィードバック、アンケート結果などのテキストデータは、自然言語処理アプリケーションに特に役立ちます。

最後に、企業では、このセクションでは言及されていない複数のサードパーティ製ソフトウェアツールを使用することがよくあります。多くのソフトウェアツールでは、データを他のツールと統合したり、エクスポートして簡単に分析および転送したりできます。多くの場合、サードパーティからデータを購入できます。

最後に、インターネットとオープンソース運動の爆発的な成長により、無料で利用可能で非常に価値のある膨大な量の公開データも利用可能になりました。

<<: ニューラルコンピュータAIモデルのブレークスルー！トレーニング時間は1秒あたり120万フレームに達し、新記録を樹立

>>: PyTorch 公式チュートリアルの大きなアップデート: ラベルインデックスを追加し、初心者にとってより使いやすくなりました