独自のビッグデータ知識システムを迅速かつ包括的に構築するにはどうすればよいでしょうか?

多くの人がさまざまな種類の本を読み、ビッグデータに関する多くの記事に出会ったことがありますが、それらはすべて散在していて体系的ではなく、あまり役に立ちません。そのため、著者は時間をかけて、システム全体の観点からビッグデータ製品の設計アーキテクチャと技術戦略をすべての人に理解できるように導きます。

ビッグデータ製品は、体系的かつシステム的な観点から、主に 5 つのステップに分けられます。

フロントエンドでさまざまなチャネルのデータポイントが埋め込まれ、さまざまなチャネルに応じて多次元データが収集されます。これがビッグデータの最初のステップです。完全なデータがなければ、ビッグデータ分析をどのように議論できるでしょうか?
2 番目のステップは、ETL を使用して、収集された多次元データに基づいてさまざまな種類のデータの構造化処理とロードを実行することです。
3 番目のステップは、ETL 処理後の標準化された構造化データ用のデータストレージ管理サブシステムを確立し、それを基盤となるデータウェアハウスに集約することです。このステップは非常に重要です。データウェアハウスに基づいて、その内部データは基本的な同質のデータマートに分解されます。
次に、集約および分解されたさまざまなデータマートを基に、さまざまな R 関数パッケージを使用して、データセットのデータモデリングとさまざまなアルゴリズム設計を実行します。アルゴリズムは自分で設計する必要があり、一部のアルゴリズムでは R 関数を使用できます。このプロセスには、ほとんどの製品および運用担当者が関与します。このステップが適切に実行されれば、多くの企業のユーザーポートレートシステムの基盤レイヤーにもなります。
***確立されたさまざまなデータモデルとアルゴリズムに基づき、フロントエンドのさまざまなチャネルのさまざまなビジネス特性と組み合わせることで、バックエンドモデルはチャネルのタッチポイントに応じて自動的にマッチングされ、ユーザーにパーソナライズされた製品とサービスを自動的に表示します。

体系的なデータ収集指標システムを確立する

データ収集および分析指標システムを確立することは、マーケティングデータマートを形成するための基礎であり、マーケティングデータマートがユーザー行動データの広さと深さをカバーするための前提条件でもあります。データ収集および分析システムには、ユーザーの完全な活動行動タッチポイントデータ、ユーザーの構造化関連データ、および非構造化関連データが含まれている必要があります。データ分析指標システムに従ってのみ、分類および要約して、ユーザーの条件をフィルタリングするための属性と属性値を形成でき、これは新しいマーケティングイベントを発見するための基礎でもあります。

マーケティングデータ指標分析モデルを構築し、データ指標収集を改善およびアップグレードし、ユーザーの全プロセス行動タッチポイントに依存してユーザー行動消費特性と個人属性を確立し、ユーザー行動分析、業務運営データ分析、マーケティングデータ分析の3つの次元からユーザー行動特徴分析モデルを形成します。ユーザーディメンションデータインジケーターは、さまざまなディメンション分析要素とユーザーのライフサイクル全体の軌跡の各タッチポイントの 2 次元交差によって取得されます。

現在、ビッグデータプラットフォームに取り組む企業が収集したデータ指標や出力する視覚的なレポートのほとんどには、いくつかの重要な問題があります。

収集されたデータはチャネル、日付、地域別に集計されており、特定のユーザーを特定することはできません。
計算された統計データはすべてスケールデータであり、スケールデータのマイニングと分析はサポートされていません。
データは、ユーザーの獲得、維持、マーケティングの推進のためのシステムの使用をサポートできません。

したがって、システムが収集したデータ指標がプラットフォームフロントエンドのパーソナライズされた行動分析をサポートするためには、ポートレートデザインをユーザーを中心に据える必要があります。初期のビジュアルレポートの結果に基づいて、異なるスケールの統計データをセグメント化してユーザーごとに配置して、各データにユーザー属性を持たせる必要があります。

散在し、乱雑な統計データをユーザーごとに関連付けます。既存の製品インターフェースでは、各統計データにラベルが追加されます。ラベルをクリックすると、各ユーザーの対応する行動データが表示され、他の統計データページにリンクできます。

このことから、ユーザーを主軸として、ユーザー ID 情報、ユーザーの社会生活情報、ユーザーの資産情報、ユーザーの行動嗜好情報、ユーザーのショッピング嗜好、ユーザー価値、ユーザーのフィードバック、ユーザーのロイヤルティなどのデータ収集指標ディメンションを確立できることが推測できます。確立された収集データディメンションに基づいて、データ指標またはデータ属性項目に細分化できます。

① ユーザーID情報ディメンション

性別、年齢、星座、居住都市、活動地域、ID情報、学歴、収入、健康状態など。

②ユーザーの社会生活情報次元

業種、職業、子供の有無、子供の年齢、乗り物、住宅の種類、通信状況、データ使用量...

③ ユーザー行動嗜好情報

オンラインショッピング行動、リスク感度、価格感度、ブランド感度、利益感度、製品嗜好、チャネル嗜好などがあるかどうか...

④ ユーザーのショッピング嗜好情報

カテゴリの好み、製品の好み、買い物頻度、閲覧の好み、マーケティング広告の好み、買い物時間の好み、1 回の買い物の最大金額...

⑤ ユーザーフィードバック情報ディメンション

ユーザーが参加するアクティビティ、参加するディスカッション、収集する製品、購入する製品、推奨する製品、レビューする製品...

収集された多次元データに基づいて、ETL を使用してさまざまな種類のデータの構造化処理とロードを実行します。

データ補完：空データや欠損データのギャップを埋め、処理できないデータをマークします。
データ置換: 無効なデータを置換する
フォーマットの正規化: ソースデータから抽出されたデータフォーマットを、ウェアハウスに入力して処理しやすいターゲットデータフォーマットに変換します。
主キー制約と外部キー制約: 主キー制約と外部キー制約を確立することで、不正なデータを置き換えたり、エラーファイルにエクスポートして再処理したりできます。
データのマージ: 複数のテーブルの関連付けの実装 (関連付けられたクエリの効率性を確保するために各フィールドにインデックスが付けられます)
データ分割: 特定のルールに従ってデータを分割する
行と列を入れ替え、シーケンス番号を並べ替え/変更し、重複レコードを削除します

データ処理層は、Hadoop クラスターで構成されています。Hadoop クラスターは、データ収集ソースから業務データを読み取り、並列コンピューティングによって業務データの処理ロジックを完了し、データをフィルタリングしてマージし、ターゲットデータを形成します。

データモデリング、ユーザープロファイリング、機能アルゴリズム

マーケティングに関連する顧客、製品、サービスデータを抽出し、クラスター分析と関連分析の方法を使用してデータモデルを構築し、ユーザールール属性の構成、ルールテンプレートの構成、ユーザーポートレートのラベル付けを通じてユーザーデータルールセットを形成し、ルールエンジンを使用してマーケティングプッシュと条件トリガーのリアルタイムマーケティングプッシュを実装し、フロントエンドチャネルインタラクションプラットフォームと同期してマーケティングルールを実行し、マーケティング実行効果情報をリアルタイムでビッグデータシステムに返します。

フロントエンドユーザーのさまざまなパーソナライズされた行動に基づいてルールを自動的に一致させ、プッシュコンテンツをトリガーします。

ユーザーの全プロセス活動行動軌跡に基づいて、ユーザーとオンラインおよびオフラインチャネル間のすべての行動タッチポイントを分析し、マーケティングユーザーにラベルを付け、ユーザー行動ポートレートを形成します。ユーザーポートレートに基づいて、マーケティングスクリーニングルールの属性と属性値が洗練および要約され、最終的にユーザーグループをセグメント化するための条件が形成されます。各ユーザー属性は複数の異なる属性値に対応しており、属性値はさまざまなアクティビティに応じてパーソナライズでき、ユーザーのブラックリストとホワイトリストの管理機能をサポートします。

異なるユーザー ID 特性に基づくアクティビティルールとモデルを事前に設定できます。現在のユーザーが設定されたマーケティングイベントをトリガーすると、データシステムは最適なマッチングの原則に従ってマーケティングルールをリアルタイムで自動的にプッシュし、リアルタイムプッシュ機能を通じてプッシュされたアクティビティコンテンツ、割引情報、製品情報を設定します。同時に、フロントエンドからフィードバックされた効果データを集計して、プッシュルールとコンテンツを最適化および調整します。

ビッグデータシステムは、既存のユーザーポートレート、ユーザー属性のラベリング、顧客とマーケティングルールの設定プッシュ、および同じタイプのユーザー特性のコレクションとサブライブラリモデルに基づいて、顧客マーケティングシステムと統合されます。将来的には、マシンディープラーニング機能を徐々に拡張します。システムは、フロントエンドのユーザーデータのリアルタイムの変更を自動的に収集して分析し、構築されたマシンディープラーニング機能モデルに基づいて、ユーザーのニーズに合った機能パラメータと対応ルールを自動的に計算します。マーケティングシステムは、計算されたルールモデルに基づいて、一致性の高いマーケティング活動とコンテンツ情報をリアルタイムで自動的にプッシュします。

機械自己学習モデルアルゴリズムは、将来のビッグデータシステムにおけるディープラーニングの中核です。大規模なサンプリングトレーニング、複数のデータ検証、パラメータ調整を通じてのみ、比較的正確な機能因子とパラメータ値を最終的に決定できます。したがって、フロントエンドユーザーが生成したリアルタイムの行動データに基づいて、システムは対応するマーケティングルールと推奨モデルを自動的に計算できます。

ビッグデータシステムは、ディープセルフラーニングに加えて、今後徐々に協力概念を開拓し、外部のサードパーティプラットフォームと接続し、顧客データと行動タッチポイントの範囲を拡大し、ユーザーのライフサイクル全体にわたるオンラインとオフラインの行動軌跡を可能な限りカバーし、ユーザーの行動タッチポイントデータを把握し、顧客データマートとイベントライブラリを拡張します。このようにしてのみ、顧客のニーズ全体を深く探究し、機械のセルフラーニング機能と組み合わせて、製品の販売能力と顧客の全方位的な体験認識を根本的に向上させることができます。

<<: ハンシのシリーズB資金調達は、「安全とインテリジェンス」ブランドをアピールすることで注目を集めている

>>: 強化学習の概念から応用まで包括的に理解する

独自のビッグデータ知識システムを迅速かつ包括的に構築するにはどうすればよいでしょうか?

体系的なデータ収集指標システムを確立する

収集された多次元データに基づいて、ETL を使用してさまざまな種類のデータの構造化処理とロードを実行します。

データモデリング、ユーザープロファイリング、機能アルゴリズム

フロントエンドユーザーのさまざまなパーソナライズされた行動に基づいてルールを自動的に一致させ、プッシュコンテンツをトリガーします。

2021年の10のAIトレンド

Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

人間と機械の翻訳対決は韓国で行われる。人工知能の未来は過小評価できない

オラクル、企業の言語モデルの導入と微調整を支援するクラウドベースの生成AIサービスを開始

玩具におけるIoTとAIの統合が世界のスマート玩具市場の成長を促進

現在、CIOは企業におけるGenAIの応用価値を慎重に検討している。

PaddlePaddleディープラーニングオープンソースプラットフォーム：中国のAI船が皆の漕ぎを待っている

RLHF は万能薬ではありません! MIT、ハーバード大学などの32人の研究チームが、250本以上の論文を網羅し、大規模モデルの仕組みに疑問を投げかけ、最大の弱点を明らかにした。

推薦する

感じてください：XiaoIce、XiaoAi、Xiaodu、LingyuanがAIサミットのテーマソングを共同で歌いました

ガートナーの2020年人工知能技術ハイプサイクルを通して新たな変化を見る

ロボットが2000万の仕事に取って代わる：最大の懸念は30代なのに何も知らないこと

ゲーム内で優れたリアルタイム音声体験を提供する方法

なぜ人工知能は過大評価されているのでしょうか?

SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

純粋な乾物 | ディープラーニング研究の概要

人工知能産業は活況を呈しているが、スタートアップ企業は資金調達が難しくなっている

人工知能の知能を実現する方法

Microsoft の 37 ページの論文では、Sora をリバースエンジニアリングしています。どのような結論に達したのでしょうか。