ビッグデータアーキテクチャの詳細解説：データ取得からディープラーニングまで

機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む多分野にわたる学際的な科目です。コンピュータが人間の学習行動をシミュレートまたは実装して、新しい知識やスキルを習得し、既存の知識構造を再編成し、パフォーマンスを継続的に向上させる方法を研究することに特化しています。さらに、データマイニングと機械学習には多くの重複があります。この記事では、これら 2 つの領域をアーキテクチャとアプリケーションの観点から解釈します。

機械学習とデータマイニングのつながりと違い

データマイニングは、大量のデータから有効で、斬新で、潜在的に有用で、最終的には理解可能なパターンを抽出する重要なプロセスです。データマイニングでは、機械学習コミュニティが提供する多くのデータ分析手法と、データベースコミュニティが提供するデータ管理手法が使用されます。データ分析の観点から見ると、データマイニングと機械学習には多くの類似点がありますが、違いも非常に明白です。たとえば、データマイニングには、機械学習のような人間の学習メカニズムを探索する科学的発見タスクはありません。データマイニングにおけるデータ分析は、大量のデータに対して実行されます。ある意味では、機械学習にはより強い科学的要素があり、データマイニングにはより強い技術的要素があります。

学習能力は、知的な行動の非常に重要な特徴です。学習能力のないシステムは、真に知的なシステムとは言えません。機械学習は、（コンピュータ）システムが経験を利用して自身のパフォーマンスを向上させることを期待しています。そのため、この分野は常に人工知能の中心的な研究分野の 1 つとなっています。コンピュータシステムでは、「経験」は通常データの形で存在します。したがって、機械学習には、人間の認知学習プロセスの探究だけでなく、データの分析と処理も含まれます。実際、機械学習はコンピューターデータ分析技術におけるイノベーションの源の一つとなっています。ほぼすべての分野でデータ分析タスクに直面する必要があるため、機械学習はコンピューターサイエンスの多くの分野、さらにはコンピューターサイエンス以外の多くの分野にも影響を及ぼし始めています。機械学習はデータマイニングにおいて重要なツールです。ただし、データマイニングは、一部の機械学習手法を研究、拡張、適用するだけでなく、多くの非機械学習技術を通じて、データウェアハウス、大規模データ、データノイズなどの実用的な問題を解決することも含まれます。機械学習は幅広い分野をカバーしており、データマイニングでよく使用される手法は、通常、「データから学習する」というものです。ただし、機械学習はデータマイニングにのみ使用できるわけではありません。強化学習や自動制御など、機械学習の一部のサブフィールドは、データマイニングとはほとんど関係がありません。したがって、著者は、データマイニングは目的に関するものであり、機械学習は方法に関するものであると考えています。この 2 つの分野にはかなりの重複がありますが、同じではありません。

典型的なデータマイニングと機械学習のプロセス

図 1 は、「適格」な潜在的な人材を見つける必要がある典型的な推奨アプリケーションです。ユーザーデータからこのリストを導き出すには、まず顧客の特徴をマイニングし、次に予測を行うための適切なモデルを選択し、最後にユーザーデータから結果を導き出す必要があります。

図1

上記の例のユーザーリスト取得プロセスは、次の部分に分かれています (図 2 を参照)。

図2

ビジネス理解: ビジネス自体を理解します。その本質は何ですか? 分類問題ですか、それとも回帰問題ですか? データはどのように取得しますか? 解決するためにどのモデルを適用できますか?
データの理解: データを取得した後、データの内容とデータが正確かどうかを分析して、次の前処理手順に備えます。
データ前処理: 生データはノイズが多く、フォーマットも適切ではないため、予測の精度を確保するには、データの前処理が必要です。
特徴抽出: 特徴抽出は、機械学習の最も重要かつ時間のかかる段階です。
モデル構築: 適切なアルゴリズムを使用して、期待される正確な値を取得します。
モデル評価: テストセットに基づいてモデルの精度を評価します。
モデルの適用: モデルを実際の運用環境にデプロイして適用します。
適用効果評価：最終的なビジネスに基づいて最終的な適用効果を評価します。

プロセス全体が繰り返され、理想的な効果が達成されるまでモデルは継続的に調整されます。

機械学習の概要

機械学習アルゴリズムは数多くありますが、ここでは学習方法とアルゴリズムの類似性という 2 つの側面から紹介します。

学習方法

データの種類に応じて、問題をモデル化するさまざまな方法があります。機械学習や人工知能の分野では、まずアルゴリズムがどのように学習するかについて考えます。機械学習の分野にはいくつかの主な学習方法があります。

教師あり学習:教師あり学習では、入力データは「トレーニングデータ」と呼ばれ、トレーニングデータの各セットには、スパム対策システムにおける「スパム」、「スパムではない」、手書き数字認識における「1」、「2」、「3」、「4」などの明確なラベルまたは結果があります。予測モデルを構築する際、教師あり学習では、予測結果と「トレーニングデータ」の実際の結果を比較し、モデルの予測結果が期待される精度率に達するまで予測モデルを継続的に調整する学習プロセスを確立します。教師あり学習の一般的な応用シナリオには、分類問題と回帰問題が含まれます。一般的なアルゴリズムには、ロジスティック回帰やバックプロパゲーションニューラルネットワークなどがあります。

教師なし学習:教師なし学習では、データは具体的に識別されず、学習モデルはデータの固有の構造を推測するように設計されています。一般的なアプリケーションシナリオには、関連ルールの学習とクラスタリングが含まれます。一般的なアルゴリズムには、Apriori アルゴリズムと K-Means アルゴリズムがあります。

半教師あり学習:半教師あり学習では、入力データの一部にはラベルが付けられ、一部にはラベルが付けられません。この学習モデルは予測を行うために使用できますが、予測のためにデータを適切に整理するために、モデルはまずデータの固有の構造を学習する必要があります。その応用シナリオには分類と回帰が含まれます。一般的なアルゴリズムには、一般的に使用される教師あり学習アルゴリズムの拡張がいくつか含まれています。これらのアルゴリズムは、まずラベルのないデータをモデル化し、次にグラフ理論的推論アルゴリズムやラプラスサポートベクターマシンなどのこのモデルに基づいてラベル付きデータについて予測を行います。

強化学習:強化学習では、入力データがモデルへのフィードバックとして機能します。これは、入力データがモデルが正しいか間違っているかをチェックする手段としてのみ使用される教師ありモデルとは異なります。強化学習では、入力データがモデルに直接フィードバックされ、モデルは即座に調整を行う必要があります。一般的なアプリケーションシナリオには、動的システムやロボット制御などがあります。一般的なアルゴリズムには、Q 学習と時間差分学習が含まれます。

エンタープライズデータアプリケーションのシナリオでは、教師あり学習と教師なし学習がおそらく最も一般的に使用されます。画像認識などの分野では、識別できないデータが大量に存在する一方で識別できるデータが少ないことから、半教師あり学習が現在注目されています。強化学習は、ロボット制御などシステム制御が必要な分野で広く使用されています。

アルゴリズムの類似性

アルゴリズムは、ツリーベースのアルゴリズム、ニューラルネットワークベースのアルゴリズムなど、機能と形式の類似性に応じて分類できます。もちろん、機械学習の範囲は非常に広く、アルゴリズムによっては明確に分類することが難しいものもあります。一部のカテゴリでは、同じカテゴリのアルゴリズムが異なるタイプの問題を対象にすることができます。ここでは、よく使用されるアルゴリズムを最もわかりやすい方法で分類してみます。

回帰アルゴリズム:回帰アルゴリズムは、誤差の尺度を使用して変数間の関係を調査しようとするアルゴリズムのクラスです。回帰アルゴリズムは、統計的機械学習のための強力なツールです。一般的な回帰アルゴリズムには、最小二乗法、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン、局所散布点平滑化推定などがあります。

インスタンスベースのアルゴリズム:インスタンスベースのアルゴリズムは、意思決定の問題のモデルを構築するためによく使用されます。このようなモデルでは、通常、最初にサンプルデータのバッチを選択し、次に特定の近似値に基づいて新しいデータとサンプルデータを比較して、最適な一致を見つけます。このため、インスタンスベースのアルゴリズムは、「勝者総取り学習」または「メモリベースの学習」と呼ばれることがよくあります。一般的なアルゴリズムには、k-近傍法 (kNN)、学習ベクトル量子化 (LVQ)、自己組織化マップ (SOM) などがあります。

正則化アルゴリズム:正則化アルゴリズムは他のアルゴリズム (通常は回帰アルゴリズム) の拡張であり、その複雑さに応じてアルゴリズムを調整します。正規化アルゴリズムは通常、単純なモデルに報酬を与え、複雑なモデルにはペナルティを与えます。一般的なアルゴリズムには、リッジ回帰、最小絶対収縮および選択演算子 (LASSO)、Elastic Net などがあります。

決定木アルゴリズム:決定木アルゴリズムは、ツリー構造を使用してデータの属性に基づいて決定モデルを確立し、分類問題や回帰問題を解決するためによく使用されます。一般的なアルゴリズムには、分類および回帰ツリー (CART)、ID3 (反復二分法 3)、C4.5、カイ二乗自動相互作用検出 (CHAID)、決定スタンプ、ランダムフォレスト、多変量適応回帰スプライン (MARS)、勾配ブースティングマシン (GBM) などがあります。

ベイズアルゴリズム:ベイズアルゴリズムはベイズの定理に基づくアルゴリズムの一種で、主に分類問題と回帰問題を解決するために使用されます。一般的なアルゴリズムには、ナイーブベイズアルゴリズム、平均 1 依存推定量 (AODE)、ベイズ信念ネットワーク (BBN) などがあります。

カーネルベースのアルゴリズム:最も有名なカーネルベースのアルゴリズムは、サポートベクターマシン (SVM) です。カーネルベースのアルゴリズムは、入力データを高次ベクトル空間にマッピングし、一部の分類問題や回帰問題をより簡単に解決できるようになります。一般的なカーネルベースのアルゴリズムには、サポートベクターマシン (SVM)、ラジアル基底関数 (RBF)、線形判別分析 (LDA) などがあります。

クラスタリングアルゴリズム:クラスタリングアルゴリズムは通常、中心点またはレイヤーに従って入力データをマージします。すべてのクラスタリングアルゴリズムは、データの固有の構造を見つけ、最大の共通性に従ってデータを分類しようとします。一般的なクラスタリングアルゴリズムには、K-Means アルゴリズムと期待値最大化 (EM) アルゴリズムがあります。

関連ルール学習:関連ルール学習は、データ変数間の関係を最もよく説明するルールを見つけることで、大規模な多変量データセット内で有用な関連ルールを見つけます。一般的なアルゴリズムには、Apriori アルゴリズムと Eclat アルゴリズムがあります。

人工ニューラルネットワークアルゴリズム: 人工ニューラルネットワークアルゴリズムは、生物学的ニューラルネットワークをシミュレートし、パターンマッチングアルゴリズムの一種で、通常は分類問題や回帰問題を解決するために使用されます。人工ニューラルネットワークは機械学習の大きな分野であり、何百もの異なるアルゴリズム (ディープラーニングもその 1 つです) があります。一般的な人工ニューラルネットワークアルゴリズムには、パーセプトロンニューラルネットワーク、バックプロパゲーション、ホップフィールドネットワーク、自己組織化マップ、学習ベクトル量子化などがあります。

ディープラーニングアルゴリズム:ディープラーニングアルゴリズムは、人工ニューラルネットワークの進化形です。コンピューティング能力がますます安価になるにつれて、ディープラーニングアルゴリズムは、はるかに大規模で複雑なニューラルネットワークの構築を試みています。多くのディープラーニングアルゴリズムは、少量のラベルなしデータを含む大規模なデータセットを処理するように設計された半教師あり学習アルゴリズムです。一般的なディープラーニングアルゴリズムには、制限付きボルツマンマシン (RBN)、ディープビリーフネットワーク (DBN)、畳み込みネットワーク、スタックオートエンコーダーなどがあります。

次元削減アルゴリズム:クラスタリングアルゴリズムと同様に、次元削減アルゴリズムはデータの固有の構造を分析しようとしますが、次元削減アルゴリズムは、教師なし学習を通じてより少ない情報を使用してデータを要約または説明しようとします。このようなアルゴリズムは、高次元データを視覚化したり、教師あり学習のためにデータを簡素化したりするために使用できます。一般的な次元削減アルゴリズムには、主成分分析 (PCA)、部分最小二乗回帰 (PLSR)、サモンマッピング、多次元尺度法 (MDS)、射影追跡などがあります。

アンサンブルアルゴリズム:アンサンブルアルゴリズムは、比較的弱い学習モデルを使用して同じサンプルを個別にトレーニングし、その結果を統合して全体的な予測を行います。統合アルゴリズムの主な難しさは、どの独立した弱い学習モデルを統合するか、そして学習結果をどのように統合するかにあります。これは非常に強力なアルゴリズムのクラスであり、非常に人気があります。一般的な統合アルゴリズムには、ブースティング、ブートストラップ集約 (バギング)、AdaBoost、スタック一般化 (ブレンディング)、勾配ブースティングマシン (GBM)、ランダムフォレストなどがあります。

機械学習とデータマイニングの応用事例

機械学習とデータマイニングの基本的な概念を学んだので、機械学習とデータマイニングを直感的に理解するために、業界の成熟した事例をいくつか見てみましょう。

おむつとビールの物語

まず、データマイニングに関するストーリー「おむつとビール」を見てみましょう。

米国アーカンソー州に本社を置く世界的に有名な商業小売チェーンであるウォルマートは、世界最大のデータウェアハウスシステムを保有しています。ウォルマートは店舗での顧客の購買習慣を正確に把握するために、顧客のショッピング行動に関するショッピングバスケット分析を実施し、顧客が一緒に購入することが多い商品を調べています。 Walmart のデータウェアハウスには、店舗の詳細なオリジナル取引データが含まれています。Walmart は、これらのオリジナル取引データに基づいて、NCR データマイニングツールを使用してこれらのデータを分析およびマイニングします。おむつと並んで最も多く購入されているのはビールだという意外な発見！これは、データ固有の法則を反映するデータマイニング技術を用いて過去のデータを分析した結果です。それで、この結果は現実と一致しているでしょうか? 役に立つのでしょうか?

その後、ウォルマートは市場調査員とアナリストを派遣してデータマイニングの結果を調査・分析し、「おむつとビール」の背後に隠れた米国人の行動パターンを明らかにした。米国では、若い父親の中には仕事が終わった後に赤ちゃん用のおむつを買いにスーパーマーケットに行く人が多く、そのうち30％から40％は自分用にビールも買っている。この現象が起こる理由は、アメリカ人の妻が仕事が終わった後に夫に子どものおむつを買って来るように頼むことが多く、夫はおむつを買った後にお気に入りのビールを持って帰ってくるからです。

おむつとビールは一緒に購入されることが多いため、ウォルマートは店舗でおむつとビールを一緒に置いていました。その結果、おむつとビールの両方の売上が増加しました。

通信分野における迅速な障害箇所特定のための決定木

電気通信分野における一般的なアプリケーションシナリオは、障害の特定に使用される決定木です。たとえば、ユーザーがインターネットアクセスが遅いと不満を言う場合、その理由はさまざまです。ネットワークの問題、ユーザーの電話の問題、またはユーザー自身のエクスペリエンスの問題である可能性があります。問題を素早く分析して特定し、ユーザーに満足のいく回答を提供するにはどうすればよいでしょうか。そのためには、意思決定ツリーを使用する必要があります。

図 3 は、インターネットアクセスが遅いというユーザーの苦情に対する典型的な意思決定ツリーの例です。

図3

画像認識分野

Xiaomi フェイスアルバム

この機能の名前は「フェイスアルバム」です。画像分析技術を使用して、クラウドアルバムの写真の内容を顔に応じて自動的に分類して整理することができます。「フェイスアルバム」機能をオンにすると、クラウドアルバム内のさまざまな顔を自動的に識別、整理、分類できるようになります。

「フェイスアルバム」では、手動でのグループ分け調整、間違った顔の削除、システム推奨による顔の確認などの機能もサポートしており、機械認識の欠点を補います。

この機能は実際にディープラーニング技術を使用して、写真内の顔を自動的に識別し、自動的に識別して分類します。

Alipayの顔スキャン決済

2015年CeBIT展示会の開会式で、ジャック・マー氏はアント・ファイナンシャルの最新決済技術「Smile to Pay」を初めて実演し、観客を驚かせた。 Alipayは、Face++ Financialの顔認識技術がLFW国際公開テストセットで99.5%の精度を達成し、「インタラクティブ指示+連続性判断+3D判断」技術も使用できると主張している。顔認識技術はニューラルネットワークに基づいており、コンピューターが人間の脳から学習し、「ディープラーニングアルゴリズム」を通じて広範囲にわたるトレーニングを受けることで、非常に「賢くなり」、「人を認識」できるようになります。顔認識を実現するために、ユーザーは自分で写真を提出する必要はありません。資格のある機関は、顔認識が必要な場合に国民ID番号照会サービスセンターに申請し、収集した写真を部門の権威ある写真ライブラリと比較することができます。

つまり、ユーザーが顔認識を行う際には、携帯電話やコンピューターのカメラを開いて自分の顔の写真を撮るだけで済みます。今日のスマートフォンの普及により、この参加のハードルは無視できるほど低くなっています。

顔認識の分野では、写真の出所が信頼できるものであるため、ユーザーが心配しがちなプライバシーの問題も効果的に回避できます。同時に、独自の「脱感作」技術により、写真をぼかして、肉眼では認識できず、コンピューターでのみ認識できる画像にすることができます。

画像コンテンツ認識

前の 2 つの事例はどちらも画像認識を紹介したものですが、画像認識よりもさらに難しいのは、画像の意味を理解して抽出することです。Baidu と Google はどちらもこの分野で研究を行っています。

Baidu の Baidu Image Recognition は、図 4 に示すように、特定のオブジェクト (顔、テキスト、製品など) の検出と認識、および一般的な画像の分類と注釈付けを効果的に処理できます。

図4

Google Research の科学者たちは、グラフィック認識の分野における Google の最新の研究の進歩を紹介するブログ記事を公開しました。おそらく将来、Google の画像認識エンジンは、画像内のオブジェクトを識別できるだけでなく、図 5 に示すように、シーン全体の簡潔で正確な説明も提供できるようになるでしょう。この画期的なコンセプトは、機械言語翻訳の研究結果から生まれました。リカレントニューラルネットワーク (RNN) を使用して、1 つの言語の文章をベクトル表現に変換し、2 番目の RNN を使用して、ベクトル表現をターゲット言語の文章に変換します。

図5

Google は、上記のプロセスの最初の RNN を、画像内のオブジェクトの識別に使用できる深層畳み込みニューラルネットワーク (CNN) に置き換えました。この方法を使用すると、画像内のオブジェクトを文章に変換し、画像のシーンを説明することができます。概念は単純ですが、実装は非常に複雑です。科学者によると、実験で生成された文章は妥当なものですが、完璧とは程遠いとのことです。この研究はまだ初期段階にあります。図 6 は、この方法を使用して画像オブジェクトを識別し、説明を生成するプロセスを示しています。

図6

自然言語認識

自然言語認識は常に非常にホットな分野です。最も有名なのはAppleのSiriです。リソース入力をサポートし、携帯電話に内蔵された天気予報、毎日のスケジュール、検索情報などのアプリケーションを呼び出し、新しい音声とイントネーションを継続的に学習して会話的な応答を提供できます。 Microsoft の Skype Translator は、中国語と英語間のリアルタイム音声翻訳を実現し、英語と中国語 (北京語) 間のリアルタイム音声会話を実現します。

Skype Translatorの動作メカニズムを図7に示します。

図7

準備されたデータが機械学習システムに入力されると、機械学習ソフトウェアはこれらの会話や環境に含まれる単語から統計モデルを構築します。ユーザーが話すと、ソフトウェアは統計モデル内で類似のコンテンツを探し、それを事前に学習した変換ルーチンに適用して音声をテキストに変換し、そのテキストを別の言語に変換します。

音声認識はここ数十年重要な研究テーマとなってきましたが、この技術の開発は一般的に、高いエラー率、マイクの感度の違い、騒がしい環境などの要因によって妨げられてきました。音声認識にディープニューラルネットワーク (DNN) 技術を導入することで、エラー率が大幅に低下し、信頼性が向上し、最終的にこの音声翻訳技術の広範な使用が可能になりました。

ディープラーニング

人工知能は人類の美しい願いの一つです。コンピュータ技術は大きく進歩しましたが、今のところ「自己」意識を生み出すことができたコンピュータはありません。確かに、人間の助けと大量の既存データがあれば、コンピューターは驚くほど優れたパフォーマンスを発揮できますが、それらがなければ、2 匹の小動物の違いさえも判別できません。

ディープラーニングアルゴリズムは、分類に必要な低レベルまたは高レベルの特徴を自動的に抽出します。高レベル機能とは、他の機能に階層的に依存できる機能です。たとえば、マシンビジョンの場合、ディープラーニングアルゴリズムは元の画像から学習して、エッジ検出器、ウェーブレットフィルターなどの低レベルの表現を取得し、これらの低レベルの表現に基づいて、これらの低レベルの表現の線形または非線形の組み合わせなどの表現を構築し、このプロセスを繰り返して、最終的に高レベルの表現を取得します。

ディープラーニングは、データを表現するより優れた特徴を得ることができます。同時に、モデルには多くのレベルとパラメータがあり、十分な容量があるため、モデルは大規模なデータを表現することができます。したがって、画像や音声など、特徴が明らかでない問題（手動設計が必要であり、その多くは直感的な物理的意味を持たない）の場合、大規模なトレーニングデータでより良い結果を達成できます。さらに、パターン認識機能と分類器の観点から見ると、ディープラーニングフレームワークは、機能と分類器を1つのフレームワークに統合し、データを使用して機能を学習し、使用時に手動で機能を設計する膨大な作業負荷を軽減します。そのため、効果が向上するだけでなく、使用も非常に便利です。

もちろん、ディープラーニング自体は完璧ではなく、機械学習の問題を解決するための強力なツールでもありません。また、ディープラーニングを全能であるとまで誇張すべきでもありません。

まとめ

この記事では主に機械学習、データマイニング、そして最も人気のあるディープラーニングについて紹介します。ディープラーニングは人工知能の新たな波を起こしたと言えますが、真のAI（人工知能）にはまだまだ程遠いことを誰もがはっきりと認識すべきです。しかし、全体的には、私たちは映画で描かれた未来の世界に一歩近づいているのではないでしょうか。

<<: 戦闘計画システムにおける人工知能技術の応用に関する研究

>>: 4つの高性能なデータ型、Pythonコレクションはコードの最適化とタスクの簡素化に役立ちます