【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

今回、「ビッグネームがやってくる」のライブ放送にゲストとして参加したのは、iResearch CTOの郭偉氏です。郭氏は「ビッグデータミドルプラットフォームの構築方法」というテーマについて、主にビッグデータミドルプラットフォームを構築する理由、技術的なビッグデータミドルプラットフォームを構築するための参照モデルと考え方、大規模・中規模プラットフォームと小規模フロントエンドのシナリオで技術者が行うべきことの3つの側面について、自身の見解を共有しました。

なぜビッグデータプラットフォームを構築するのでしょうか?

現在および将来、ほとんどの企業は徐々にデータ企業となり、デジタルユーザー資産はこれらの企業の中核資産となり、人工知能やビッグデータなどの最先端技術もインフラストラクチャとなり、各企業のビジネスユーザーと事業ラインの急速な成長を促進します。実際、ビッグデータミドルプラットフォームは、企業が従来の情報化からデジタル化へと進化する中で必然的に生まれた産物です。

中間段階は、技術者が舞台裏から舞台前面へと移動する過渡期です。なぜそう言うのでしょうか?下の図は投資銀行を例に挙げています。

投資銀行のフロントオフィス、ミドルオフィス、バックオフィスの定義をインターネットやシステムに当てはめると、フロントオフィスはお金を稼ぐためのものであり、バックオフィスはお金の稼ぎをサポートするものであり、ミドルオフィスはより迅速なお金の稼ぎをサポートするものであることが簡単にわかります。ビッグデータミドルプラットフォーム構築の本質は、これまでバックエンドで行われていた作業をミドルプラットフォームに移行し、さらにフロントエンドをサポートしてデータ分析をより効率的に行うことです。

ビッグデータプラットフォームが大流行していますが、なぜビッグデータミドルプラットフォームを構築する必要があるのでしょうか?ビッグデータプラットフォームを構築する際には、さまざまな問題点があるためです。主なポイントは次の 3 つです。

ビッグデータプロジェクトを開始するのは困難です。ビッグデータプラットフォームの構築サイクルが長く、コストが高く、スタッフにインターネット運用の経験が不足しています。
ビッグデータプロジェクトの効果を実証することは困難です。ビッグデータがどのようにインターネット運用上の問題を解決できるか、ビッグデータシステム構築の結果はより多くのBIレポートであり、ビッグデータ構築のROIは測定できません。
ビッグデータプロジェクトは実行が困難です。データソースが複雑かつ多様であり、元のシステムには複数の部門間の調整とコミュニケーションが伴い、データガバナンスの問題もあります。

ビッグデータプラットフォーム全体は、データへのアクセス、計算、分析、操作から始まり、下図に示すように、各レイヤーには特定の操作プロセスを持つさまざまなモジュールがあります。

このような典型的なビッグデータプラットフォームの構造に直面して、どうすれば効率を改善できるでしょうか?考慮すべき5つのポイントを以下に示します。

ビジネスをビジネスに戻し、ビジネス担当者がオンデマンド注文に関する技術的なフィードバックを待つという時間のかかるプロセスを可能な限り回避します。
オペレーターのニーズを満たすリアルタイムのデータ分析を実現します。
人工知能や拡張知能でカバーされる一般的なアルゴリズムをより適切にサポートできます。
データガバナンスは、技術面ではなくビジネス面から実行する必要があります。
ビジネス担当者とデータサイエンティストが、従来のソフトウェア処理方法ではなく、直接フィードバックを確認できるようにします。

ビッグデータプラットフォームからデータミドルプラットフォームへの移行は、テクノロジーからビジネスへの飛躍です。以前はテクノロジーのみに注目していましたが、ミドルプラットフォームの時代では、ビジネスの側面からテクノロジーに注目します。

技術的ビッグデータミドルプラットフォーム構築の参考モデルと考え方

ビッグデータミドルプラットフォームは、下図に示すように、ラージミドルプラットフォームとディープミドルプラットフォームの2つのモードに大別できます。

BATと同様のビッグデータミドルプラットフォームはビッグミドルプラットフォームと呼ばれ、最下層にLaaSやPaaSを展開したより拡張性の高いデータミドルプラットフォームであり、各事業ラインはこれを基盤として二次開発を行っています。しかし、中小企業の場合、各事業ラインをサポートする汎用ミドルプラットフォームを開発する人材が不足しており、各事業ラインは独自のニーズを中心に開発することしかできません。このような状況をディープミドルプラットフォームと呼びます。

深センミドルプラットフォームモデルについて語るとき、ここで言及する必要があるのはデータリバー理論です。では、データリバー理論とは何でしょうか?

データリバー理論はデータレイクに関連しています。データレイクは、過去のさまざまなチャネルからのすべてのデータをまとめて、関連する計算を容易にします。ただし、時間が経つにつれて、徐々にデータスワンプに変わり、データ操作がますます困難になります。

データリバーの出現により、データ操作が容易になり、データの質とデータガバナンスが失われるデータがますます少なくなります。単一のデータモデルがデータリバーを流れ、データはリアルタイムでユーザーに直接流れます。さまざまなデータリバーが企業内のデータウォーターエコロジーをサポートします。

深圳-中台モデルは、実際にはデータが直接流れるデータリバーモデルです。 Data River の抽象概念は、以下に示すように IOTA アーキテクチャに実装できます。

IOTA は、固定データモデル、データ生成時の定期的なアトミックキャリバー、ビジネスキャリバーをビジネス担当者に返す機能、エッジコンピューティングと即時フィードバックをサポートする機能を備えた、典型的な de-ETL ディープエンドアーキテクチャです。

下図に示すように、Analysys ARGOフリーユーザーデータミドルプラットフォームサンプルの構造は、

この iResearch ARGO フリーユーザーデータミドルプラットフォームサンプルでは、フリー部分と非コア部分がオープンソース化されており、プライベート展開、クロスターミナルユーザーアカウント統合、リアルタイムの複雑な計算とドリルダウン分析、および二次開発をサポートします。

IOTA アーキテクチャと同様に、技術担当者はデータが生成されると原子口径を整理し、カスタムインジケーターを介してリアルタイムクエリを実行し、ビジネス口径をビジネス担当者に返します。

大規模、中規模、小規模のフロントエンドシナリオで技術者は何をすべきでしょうか?

皆さんも疑問に思うことがあるかもしれません。データミドルプラットフォームが普及する中、ビッグデータエンジニアやデータアナリストなど、データ関連の職種に就く人々の動向はどうなるのでしょうか。

データミドルプラットフォームの出現により、人材の技術と業務の融合と飛躍が可能になり、データ技術者はデータ技術の幅を広げるだけでなく、フロントエンド業務への理解を深め、新たなクロスドメインの「ドラゴン」種であるデータミドルプラットフォームエンジニアになることができました。データミドルオフィスエンジニアが備えていなければならない基本的なスキルは、ビジネスモデル、トラフィックモデル、データ分析システムの 3 つです。

ビジネスモデルには、注目操作、取引操作、利益操作が含まれます。注意管理: これらの製品は、メディア、ゲーム、広告を通じて収益化されるあらゆる製品にユーザーが費やす時間を最大化しようとします。フォーカスインジケーターは、UV、PV、訪問期間、訪問頻度、ユーザー訪問サイクル、訪問間隔などの粘着性です。トランザクション操作: このタイプの製品は、電子商取引プラットフォーム、さまざまな取引プラットフォーム、ライフサービス、SaaS など、ユーザーが購入の決定を下すのに役立ちます。注目すべき指標は、新製品の割合、検索された製品の割合、GMV、ARPU などの取引と取引アクティビティです。効率的な運用: このタイプの製品は、ツール、B2B などの既存のタスクやワークフローを完了するためのシンプルで信頼性の高い方法をユーザーが作成するのに役立ちます。フォーカスインジケーターは、ユーザーが完了したワークフローの数や、ユーザーがワークフローを完了するのにかかる時間など、ユーザーの使用状況の深さを示すインジケーターです。

次の図は、データセンターエンジニアにとって必須のスキルであるトラフィックモデルを示しています。

ウェブサイトを分析する場合、このグラフに従うことができます。横軸は収益化能力、縦軸はトラフィック転換能力です。さまざまな役割があります。一般的に、金融カテゴリには強力な収益化機能があり、エンターテイメントカテゴリには強力なトラフィック転換機能があり、旅行カテゴリには強力なトラフィック転換機能があります。

次の図は、データセンターエンジニアにとって必須のスキルであるデータ分析システムを示しています。

すべての製品は、MVP の有効性の検証、シードユーザーの獲得、製品の品質向上、ユーザーエクスペリエンスの向上、収益を達成するための新規顧客の獲得、規模による利益の最大化など、最初から各段階でユーザー分析、エンゲージメント分析、チャネル分析、構成分析、収益分析などの分析を行う必要があります。

各段階ではビジネスを調査するための分析システムが必要となるため、技術者はデータ分析能力とデータ分析システムに関する知識を補う必要があります。

新しいデータミドルプラットフォームの場合、反復検証サイクルは数時間から数日の反復サイクルです。技術担当者は原子レベルの口径を確立するだけでよく、業務担当者はリアルタイムのビジネスデータ分析を行ってビジネス分析をサポートします。

データミドルプラットフォームを構築する前に、以下の手順を検討する必要があります。1つ目は、技術/ビジネスマネージャーとミドルプラットフォームが本当に必要かどうかを話し合うことです。2つ目は、ミドルプラットフォームモデルを選択することです。ディープミドルプラットフォームかシャローミドルプラットフォームかを選択します。3つ目は、データミドルプラットフォームを選択することです。どの選択をしたとしても、最終結果は、ビジネス担当者が直接関連データ分析を実行し、ビジネスをビジネスに戻し、テクノロジーにテクノロジーを実行させることでなければなりません。4つ目は、人材とアイデアの変革です。

<<: [ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

>>: AIスタートアップが成熟するための4つの段階と懸念事項