Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

1. キーワード

Zhihu、Bridge、コンテンツ プール、コンテンツ管理プラットフォーム、コンテンツ分析プラットフォーム、コンテンツ監視とアラーム、コンテンツ介入、Doris、Elasticsearch (ES)、DOE (Doris On ES)、Spark、Flink、Golang

2. 背景と起源

1. はじめに

Bridge プラットフォームは、コンテンツ、ユーザー、クリエイターをワンストップで管理、運用、分析できるプラットフォームです。これには、コンテンツ運用、社内マーケティング、クリエイター運用、コンテンツ サプライ チェーン、データ センター、コンテンツ階層化運用などのシナリオに重点を置いた、スクリーニング、パッケージ化、分析、監視、マーケティング、配信、介入などの複数の機能が含まれます。市場の認識と将来予測、コンテンツとクリエイターのエコシステムの規制、トップクリエイターとの関係維持、企業の事業開発のマーケティングとプロモーション、知識の共有とコミュニケーションに無限の可能性を生み出します。今回はBridge製品システムにおけるコンテンツ運用プラットフォームに焦点を当て、次回は社内マーケティングプラットフォームについて紹介します。

2. 起源

Zhihu コミュニティ製品システムは、結局のところ、推奨アルゴリズムと検索エンジンを組み合わせてユーザーとコンテンツをマッチングするプラットフォームです。このようなプラットフォーム経済は市場経済モデルに基づいて運営されており、柔軟性と効率性の利点がありますが、一定の盲点と遅れも存在します。このシステムでは、推奨戦略が市場調整器として機能します。しかし、循環面の調整だけでは、プラットフォームを期待する方向に迅速かつ効果的に動かすことは難しい場合が多くあります。したがって、運用システムを組み込むことが重要です。

運用システムは製品システムの外部で機能し、その主な目的は健全なコンテンツ エコシステムを構築および維持することです。このシステムは、コンテンツ エコシステムにおいていくつかの重要な役割を果たします。

  • コンテンツ品質維持:コンテンツ基準を設定・維持することで、低品質または有害コンテンツの拡散を抑制・削減しながら、高品質なコンテンツの生成を促進します。
  • ユーザー ガイダンス: ユーザー行動の分析と理解を通じて、運用部門はユーザーを効果的に誘導し、価値あるインタラクションを生み出し、高品質なコンテンツの発見と共有を促進できます。
  • クリエイターの育成とサポート: 運営システムは、クリエイター、特に新進気鋭の潜在的クリエイターにサポートとトレーニングを提供し、彼らの成長とプラットフォームへのコンテンツ貢献を促進します。
  • 競争メカニズムの最適化: 合理的な報酬とインセンティブのメカニズムを設計することで、運営者はコンテンツの競争環境を調整し、創造的な活力とユーザーの参加を刺激することができます。
  • コミュニティの雰囲気の形成と促進: 運営チームは、コミュニティ内での積極的かつ健全な行動を促し、奨励することに重点を置いています。コミュニティ内のポジティブな環境をさらに促進するために、良い行動を称賛し、報酬を与えます。同時に、私たちはコミュニティの調和や健全な雰囲気を損なう可能性のあるいかなる行為も支持または擁護せず、コミュニティ環境の良好な運営を維持するための解決策を積極的に模索します。
  • 市場動向の認識と対応: 運用チームは市場動向に敏感で、変化に適応し、コンテンツの適時性と関連性を確保するためにプラットフォーム戦略を迅速に調整できる必要があります。
  • オペレーションチームは、上記の責任に加えて、ブランド構築、規模の拡大など、この記事では詳しく紹介しない他の多くの側面にも責任を負っています。

3. 能力マップ

この記事では、Bridge 製品システムにおけるコンテンツ運用プラットフォームに焦点を当てます。

3. ソリューションと実装

1. ビジネスアーキテクチャ

2. ビジネスレイヤーの分解

現在のビジネス ニーズにさらに適切に対応するために、最上位レベルのビジネス構造を 4 つの製品カテゴリと対応する製品インターフェイスに絞り込み、さまざまなチームとの効率的なコラボレーションを促進しています。

  • コンテンツ プール、プラットフォーム インターフェイス レイヤーは配信チームを対象としています。ポイントチェック、検索・想起、多機能ラフソートなど実用的な機能が多数搭載されています。使用時には、チームはこれを配布用のリコール ソースや大まかな分類ツールとして使用することも、単にリコール ソースとして使用することもできます。ビジネス側は、実際のニーズに応じて、リコールソースと大まかなソートロジックを調整および変更できます。
  • 運用チーム向けに特別に設計されたコンテンツ管理プラットフォーム。このプラットフォームには、コンテンツのスクリーニング、整理、パッケージ化などの豊富な基本機能があり、また、チームがコンテンツの編集、コンテンツの優先順位の調整(重み付けの増加または減少)、コンテンツの配信など、コンテンツに対する一連の操作を実行することもできます。
  • 運用チームに分析ツールを提供するために設計されたコンテンツ分析プラットフォーム。このプラットフォームでは、単一コンテンツやコンテンツコレクションのトレンド分析や構成分析、消費者ポートレート分析などの詳細な調査を行うことができます。さまざまな分析方法に基づいてさまざまなデータの結論が得られ、ビジネス運営の結果を理解して最適化するのに役立ちます。
  • コンテンツ監視とアラームは、運用チームにタイムリーなビジネス監視とアラーム機能を提供することを目的としています。このプラットフォームは、コンテンツやユーザーのさまざまなイベントによってトリガーされます。複数のビジネステンプレートと柔軟な構成により、キーワード世論アラーム、リリースと評価の監視アラームなどのビジネスアラーム機能を迅速に構築できます。運用チームが特定の特性を持つビジネス パフォーマンスを迅速に発見できるように支援します。
  • コンテンツ介入: オペレーションでは、マーキング、ラベリング、その他の手段を使用して、配信チャネルに信号を送信します。クリエイターやコンテンツの抑制と推進の戦略を通じて、質の高いコンテンツが選別され、最初にユーザーにプッシュされるため、本当に価値のある質の高いコンテンツがより多くのターゲットユーザーに見られるようになります。

4. ビジネス能力の効果とアーキテクチャ

1. コンテンツプール

コンテンツ プール: プラットフォーム インターフェイス レイヤーは、配信チームを対象としています。ポイントチェック、検索・想起、多機能ラフソートなど実用的な機能が多数搭載されています。使用時には、チームはこれを配布用のリコール ソースや大まかな分類ツールとして使用することも、単にリコール ソースとして使用することもできます。ビジネス側は、実際のニーズに応じて、リコールソースと大まかなソートロジックを調整および変更できます。

2. コンテンツ管理プラットフォーム

運用チーム向けに特別に設計されたコンテンツ管理プラットフォーム。このプラットフォームには、コンテンツのスクリーニング、整理、パッケージ化などの豊富な基本機能があり、また、チームがコンテンツの編集、コンテンツの優先順位の調整(重み付けの増加または減少)、コンテンツの配信など、コンテンツに対する一連の操作を実行することもできます。

3. コンテンツ分析プラットフォーム

運用チームに分析ツールを提供するために設計されたコンテンツ分析プラットフォーム。このプラットフォームでは、単一コンテンツやコンテンツコレクションのトレンド分析や構成分析、消費者ポートレート分析などの詳細な調査を行うことができます。さまざまな分析方法に基づいてさまざまなデータの結論が得られ、ビジネス運営の結果を理解して最適化するのに役立ちます。

4. コンテンツの監視とアラーム

コンテンツ監視とアラームは、運用チームにタイムリーなビジネス監視とアラーム機能を提供することを目的としています。このプラットフォームは、コンテンツやユーザーのさまざまなイベントによってトリガーされます。複数のビジネステンプレートと柔軟な構成により、キーワード世論アラーム、リリースと評価の監視アラームなどのビジネスアラーム機能を迅速に構築できます。運用チームが特定の特性を持つビジネス パフォーマンスを迅速に発見できるように支援します。

5. コンテンツ介入

コンテンツ介入: オペレーションでは、マーキング、ラベリング、その他の手段を使用して、配信チャネルに信号を送信します。クリエイターやコンテンツの抑制と推進の戦略を通じて、質の高いコンテンツが選別され、最初にユーザーにプッシュされるため、本当に価値のある質の高いコンテンツがより多くのターゲットユーザーに見られるようになります。

5. サポート層の選択と実装

コンテンツ プールの構築、コンテンツ管理プラットフォームの運用、コンテンツ分析プラットフォームの開発、コンテンツの監視やアラームなどの多様な要求など、当社が直面するさまざまなビジネス シナリオに基づいて、ストリーミング コンテンツのターゲティングとパッケージ化、バッチ コンテンツのターゲティングとパッケージ化、コンテンツ分析と前処理という 3 つの共通の基盤サポート機能をまとめました。これら 3 つのインフラストラクチャを通じて、特定のビジネス ニーズを満たすビジネス モジュールを上位層に構築できます。詳細は以下の通りです。

ストリーミングコンテンツのターゲティングとパッケージングは​​「タイムリーさとスピード」が特徴で、コンテンツパッケージの更新は数秒以内に完了します。ただし、このモードでは、コンテンツ パッケージを生成する前に検索条件を詳細に定義する必要があります。

バッチコンテンツのターゲティングとパッケージ化により、より多様な設定条件が提供され、より高い自由度が求められるビジネスシナリオに適しています。ただし、このモデルの適時性は比較的低く、「翌日更新」アプローチによる適切な調整と調整が必要です。

コンテンツ分析と前処理コンテンツ分析と前処理を組み合わせた 2 つのコンテンツ パッケージング方法の目標は、分析機能が正常に動作し、コンテンツ ファクト、ユーザー ファクト、トラフィック ファクトなどのさまざまな種類の機能が、品質の面で一貫しており、リンクが揃っていることを保証することです。

1. ストリーミングコンテンツのターゲティングとパッケージの選択

ストリーミング コンテンツの取得では、メッセージ キューをデータ ソースとして使用し、コンテンツの属性と機能の変更をイベントのトリガー ソースとして使用します。その複雑さは主にリアルタイムの計算と処理にあります。

重複コンテンツの計算の問題を解決するために、Flink を使用してメッセージ ソースを集約しました。ウィンドウ メカニズムを使用すると、同じウィンドウ内のコンテンツは 1 回だけ計算されるため、短期間に同じコンテンツが複数回変更されても計算が繰り返されることはありません。

プールに出入りするコンテンツのパフォーマンスを向上させるために、頻繁なデータベース操作を回避するためのルールを満たしたコンテンツをキャッシュします。この最適化戦略により、システムの応答速度とスループットが大幅に向上します。

2. コンテンツのターゲティングとパッケージの選択を一括で行う

ストリーミング検索とは異なり、バッチ検索にはより多くの条件があり、探索的な検索に適しています。バッチ検索では、対応する検索機能を提供する前に、オフラインでの計算と機能および属性の構築が必要となるため、適時性は低くなります (T+1)。

バッチコンテンツの取得条件は複雑で、テキストなどの要素が含まれるため、実装ソリューションとして Elasticsearch (ES) を選択しました。しかし、ES はドキュメント更新時のパフォーマンスが悪いため、この問題を解決するために、毎日新しいインデックスを作成し、インデックスをローリング切り替えする戦略を採用しました。 ESのエイリアス機能を活用することで、シームレスなインデックス切り替えを実現しました。


3. コンテンツ分析と前処理の選択

(1)個別分析

単一のコンテンツを分析する場合、Bridge は次の関連機能を提供します。

  • 基本的なコンテンツ情報とコンテンツ ポートレート: サイト上のさまざまなビジネス パーティからのコンテンツ情報のコレクション。ビジネス パーティによってオンライン インターフェイスの形式で提供されます。この情報には、コンテンツの基本情報、タグ情報などが含まれます。
  • コンテンツ配信データ:前日時点のコンテンツ配信量とインタラクション量を日別、端末別、チャネル別にオフラインで計算します。コンテンツの配信と視聴者のインタラクションを理解するのに役立ちます。
  • コンテンツライフサイクル: コンテンツ制作、ラベリング、ガバナンスシグナル、さまざまなチャネルの配信シグナルなど、さまざまなビジネス関係者によって生成されたコンテンツシグナルを収集します。これらのシグナルは、コンテンツの制作から消費まで、コンテンツのライフサイクル全体にわたって実行されるため、コンテンツのライフサイクル特性と傾向を理解しやすくなります。
  • 読者のポートレート: DMP の既存のユーザー タグ付け機能を活用し、コンテンツ配信履歴データとユーザー タグの関連付けを使用して、コンテンツ リーダーの好みを分析します。性別、年齢比、読者の興味の好みなどの情報を含めることで、さまざまな読者グループのコンテンツの好みやニーズを理解するのに役立ちます。

(2)グループ分析

コンテンツのコホート分析は、コンテンツのグループのデータ統計を計算して洞察を得る方法です。ブリッジ プラットフォームでは、さまざまなビジネスの観点に基づいて、ドメイン分析、アクティビティ コンテンツ統計、テーマ情報プロファイリングなどの方法を使用してグループ分析を実行できます。これらの手法の共通点は、コンテンツを異なる視点からグループ化し、各コンテンツグループの露出数、PV(ページビュー)、コンテンツカバレッジ数などの観測指標を個別に計算することです。

さまざまな視点からのコンテンツのグループ化とグループ分析の目的を達成するために、次のアーキテクチャが使用されます。

  • コンテンツ次元の広いテーブル構造:特性は大きく包括的であり、コンテンツのあらゆる角度の属性をカバーします。
  • コンテンツのビジネス ドメイン定義: 統合 DSL を使用すると、企業は必要に応じて独自のビジネス スコープ内でコンテンツを定義できます。
  • コンテンツのパッケージ化: ドメイン定義に従ってコンテンツをグループ化してパッケージ化します。
  • コンテンツ分析: コンテンツ インジケーターを使用してコンテンツ グループ化情報をクロス プロダクトし、各グループのコンテンツ パフォーマンスを取得します。計算された観測インジケーターを視覚化します。

6. 今後の動向

1. ビジネス能力開発の動向

(1)業務プロセスの自動化と戦略化

Bridge 製品システムのコンテンツ操作プラットフォームでは、現在のすべての機能がアトミック機能に基づいて構築されており、対応するインターフェイスが装備されています。このアプローチにより、プラットフォームは柔軟かつ強力になりますが、将来に向けてさらに大きな期待が寄せられています。

当社では、上記に示した戦略プロセスキャンバスと同様のシステムを開発し、業務プロセスを正確かつ効率的に調整していく予定です。これにより、自動化されたスケジュールと実行が行われるだけでなく、各操作の有効性を追跡し、詳細な観察と分析を行うことができるようになります。また、AB実験をシステムに導入し、簡潔な実験結果を通じて戦略のガイダンスを提供することで、より広い視点で最適な運用計画を見つけられるようにしています。

将来の運用プロセスでは、戦略的な構成、プロセスの自動化、追跡および監視可能な結果、実験のデジタル化が実現します。このような戦略的な運用プロセスの自動化と戦略的なオーケストレーション機能のセットにより、ビジネス上の意思決定がより正確になり、会社の運用効率とビジネスパフォーマンスの向上に役立ちます。当社は技術の進歩に自信を持ち続け、変化を通じて新たな可能性を切り拓くことを楽しみにしています。

(2)AIを活用した業務プロセス

OpenAI が提唱するアシスタント API モデルを活用し、モデル機能の継続的な改善と組み合わせることで、アシスタント プラス関数呼び出しモデルが徐々に実現可能になりました。これにより、人工知能テクノロジーを活用してビジネス プロセスを最適化し、運用効率を向上させる方法について考える新たな視点が得られます。このプロトタイプを基に、AI ベースの新しい運用プロセス モデルを構築する予定です。

このようなモデルは、上記の概念に基づいて独自のアシスタント API を構築し、基礎となるレイヤーは特定のデータと関数を使用して基本的なプロセス アトミック API を提供します。これらのアトミック API を使用すると、さまざまなシナリオの豊富なニーズを満たす一貫したワークフローを構築できます。

このアーキテクチャでは、アシスタントは、運用チームによって提起された問題とニーズを定期的に評価し、最も効果的なソリューションを見つけることで重要な役割を果たします。この目標を達成するために、アシスタントは関数呼び出しを通じて外部環境の情報と知識を継続的に取得し、理解します。下の図では、実行アクションには、モデル思考、外部関数呼び出し、ローカル サンドボックスでの Python コードの実行などが含まれます。

最終的に、アシスタントはこの知識を適用して、運用チームのニーズを満たすソリューションと戦略を提供し、さまざまな運用上の問題を解決し、運用チームの効率と成果の向上を支援します。この運用方法は、運用効率を向上させるだけでなく、運用チームの作業負荷を軽減し、戦略的な作業と意思決定に集中できるようにします。

2. サポート層の開発動向

(1) Doris + ES + DOE (Doris on ES) -> Doris 2.0 逆インデックス

まず、転置インデックス(逆インデックスとも呼ばれる)は、情報検索の分野で一般的に使用されるインデックス作成技術です。テキストを複数の単語に分割し、単語からドキュメント番号までのインデックスを構築します。これにより、特定の用語がどのドキュメントに出現するかをすばやく照会できます。

Doris の転置インデックス実装では、テーブルの行がドキュメントとみなされ、列がドキュメント内のフィールドに対応します。そのため、転置インデックスを使用すると、キーワードに基づいてキーワードを含む行をすばやく見つけることができ、WHERE 句の効率的な検索を実現できます。

Doris の他のインデックス形式とは異なり、転置インデックスはストレージ レベルで独立したファイルを使用します。論理的にはセグメント ファイルに対応しますが、保存されるファイルは互いに独立しています。この設計の利点は、インデックスを作成または削除するときにタブレット ファイルとセグメント ファイルを書き換える必要がないため、処理のオーバーヘッドが大幅に削減されることです。

Doris 2.0 バージョンでは、エンジニアリングの実践価値の高い新しい機能である逆インデックスが導入されています。これまでは、全文機能の処理に Elasticsearch (ES) を使用し、インデックス機能には Doris を使用して、この 2 つを Doris On ES の形で組み合わせていました。しかし、Doris 転置インデックスの導入により、処理に Doris を直接使用できるようになり、エンジニアリング実装の複雑さが簡素化されます。

(2)ストリーミングコンテンツターゲティング+バッチコンテンツターゲティング→マイクロバッチコンテンツターゲティング+ドリスに基づくパッケージングのジレンマ

現在のコンテンツ運用のサポート レイヤーを実装するプロセスでは、ターゲットを絞った方法でコンテンツを配信する最も効果的な方法を見つける方法という難しい問題に直面することがよくあります。一般的な戦略には、ストリーミング コンテンツ ターゲティングとバッチ コンテンツ ターゲティングが含まれますが、どちらの方法にもいくつかの制限があります。

ストリーミング コンテンツ ターゲティング: リアルタイム要件の高いビジネス シナリオに適用可能で、ユーザーが対応する動作を生成するとすぐにコンテンツを調整して、タイムリーなリコール ソースの高いビジネス シナリオに適応し、リアルタイム戦略とユーザーのパーソナライズされたニーズを解決します。しかし、このアプローチは現在、サーバー負荷が重いという問題に直面しています。特に、ユーザー データが頻繁に変更され、コンテンツ情報や統計情報も頻繁に変更される場合、データ フローが比較的大きくなり、コンピューティングの負荷が高くなります。さらに、ストリーミング コンテンツのターゲティングはリアルタイムで変化するため、継続的な投資が必要となり、全体的なコストが大幅に増加します。

バッチ コンテンツ ターゲティング: バッチ操作に適用可能で、大量のコンテンツが事前にパッケージ化され、スケジュールされた時間にプッシュされます。これにより、処理リソースを節約し、運用コストを削減できますが、リアルタイムのパフォーマンスに欠け、ユーザーの行動やコンテンツ情報の変化に対する認識が低く、正確で即時のコンテンツに対するユーザーのニーズを満たすことができません。バッチプッシュされたコンテンツは、ユーザーの行動の変化にリアルタイムで対応できないため、マーケティングの効率が低下します。

現在、ビジネス シナリオの観点から見ると、ユーザー データの頻繁な変更であれ、コンテンツ情報や統計情報の頻繁な変更であれ、実際の状況ではすべてのビジネス シナリオで第 2 レベルの更新が必要なわけではありません。コールド スタート、高転送、高呼び出しなど、適時性に対する要件が高いシナリオを除けば、ほとんどのビジネス シナリオでは、10 分から 20 分ごとにバッチを更新することで、ビジネス ニーズを十分に満たすことができます。

ストリーミング コンテンツ ターゲティングとバッチ コンテンツ ターゲティングの課題に直面した当社の解決策は、マイクロバッチ コンテンツ ターゲティング + パッケージング モデルを採用することです。 Doris が提供するマイクロバッチ コンテンツ ターゲティング + パッケージング ソリューションを使用すると、ストリーミング コンテンツ ターゲティングとバッチ コンテンツ ターゲティングの間のジレンマから最適なパスを見つけることができます。このモードでは、Doris の強力なリアルタイム データ クエリ機能とインデックス サポートを使用して、コンテンツを小さなバッチで処理および配信し、ユーザーのニーズに合わせてコンテンツをリアルタイムで調整しながら、サーバーの負荷を軽減し、リソースの使用率を最適化できます。パッケージ化することで、コンテンツを効果的に整理して送信し、運用効率を高め、運用コストを削減できます。

<<:  Gpts ストアの立ち上げが遅れています。適切な Gpts アプリケーションはどこで見つかりますか?

>>:  SantaGPTが来ました! GPT-4は完璧なクリスマスの実現をお手伝いします

ブログ    
ブログ    

推薦する

医療AIの深淵:まだ解決すべき大きな問題

5Gに加えて、人工知能は今年も引き続きホットな話題です。筆者は最近、医療人工知能のコンテストを間近で...

AIがAIを攻撃、サイバーセキュリティ戦争が激化

最近のサイバーセキュリティ会議では、調査対象となった業界専門家100人のうち62人が、AIを活用した...

概要: インターネット時代です!人工知能に関する4つの大きな誤解

インターネットは現在、非常に急速に発展しており、特に過去2年間で、人工知能はインターネットのトレンド...

AIの世界はデータから知識へと移行しており、独自のデータセットは組織間で共有されるデータへと移行している。

人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...

アルゴリズムの問​​題を解決するための Python 3 コード フレームワーク

序文現在インターンシップをしており、仕事量はそれほど多くないので、空き時間を利用してPATのウェブサ...

テスラのオプティマスロボットプロジェクトは強化学習などの分野でエンジニアを募集している

テスラは11月1日、強化学習の専門家を含むヒューマノイドロボットプロジェクト「オプティマス」のエンジ...

究極のAlp​​haGo、DeepMindの新アルゴリズムMuZero、著者の解釈

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

Python+AIで静止画像を動かす

こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...

グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...

データ サイエンティストに必須の機械学習アルゴリズム 10 選

出典: towarddatascienceシャシャンク・グプタ「Rake World」編集部:そうだ...

海外メディア:マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

7月13日、イーロン・マスク氏が新たに設立した人工知能企業xAIは、「宇宙を理解する」ことができ、O...

Google はなぜいつも AI に芸術を強制するのでしょうか?

Google の人工知能といえば、チェスマシンの AlphaGo や Waymo の自動運転車を思...

...

...