新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

著者 | 宋涛、尚賢、小斌他

アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たちは「スクリプトスタイル」の思考を試し、良い結果を得ました。アイデアを実装する場合、関連する研究開発の作業量が大きく、端末の技術スタックが多様であるため、「ゼロコード」と「技術スタックの独立性」を実現する必要があります。最終的には、「画像マッチング」や「標準プロトコル」などのコアソリューションを通じてブレークスルーを達成しました。この記事では、プロジェクトの思考プロセスを紹介し、主要な技術的ソリューションを分析および解釈し、関連する開発作業に従事する学生に刺激を与えることを目的としています。

プロジェクトの目標
収益計算ロジック
課題

背景
現状
目標と課題
全体デザイン
表示形式の選択
プログラムの説明
いくつかの技術的解決策の分析
視覚情報に基づく地域位置特定ソリューション
タスク実行の堅牢性を確保する
コードなしでスクリプトの作成と編集を完了
フェーズ結果
能力開発
一部のビジネスのオンラインパフォーマンス
要約と展望

背景

インターネット業界のペースは速く、アプリのアップデートはますます頻繁になっています。ユーザーがアップデートのペースに追いつき、製品の機能を理解し、認知の反復を完了できるようにすることは、ビジネス開発において無視できない重要な部分です。同時に、「ローコード/ゼロコード」の概念は徐々に一般に認知され始めており、関連する研究報告では、「ローコード/ゼロコード」が企業のデジタル変革を加速できると指摘されています。美団の宅配事業グループを例に挙げると、巣ごもり経済が再び活発化した後、即時配達アプリの成長率は配達時間が長い他のアプリよりも高かった。多数の新規ユーザーの流入は、チャンスであると同時に課題でもあります。現在、美団の道家事業グループは、医薬品、グループ食事、フラッシュショッピング、用事、グループ商品、無人配達など10以上の事業ラインをカバーしています。新しいビジネスモデルは、新しい分野への挑戦を意味します。フードデリバリーの主要ビジネスも、平均して数日ごとに新しい機能モジュールをリリースします。これらすべてにおいて、ユーザーの意識構築と効率性の向上に注意を払う必要があります。

現状

業界では、豊富で多様な軽いインタラクションや「ナニースタイル」のゲームガイドによる指導など、ユーザーの認知度を高め、サービスの認知度を高めるために多くの試みを行ってきました。これらの実装方法は、技術的なレベルでは、すべてアプリ内の機能ガイドであり、ユーザーは短時間で製品の機能と使用方法をすばやく理解できます。「広告」「スローガンの発信」「現地プロモーションの紹介」などの従来のソリューションと比較して、アプリの機能ガイダンスは、低コスト、正確なカバレッジ、再利用性などの特徴を備えています。

一般的な機能ガイドアプリ機能ガイドは、ユーザーマインドを構築するための「足がかり」です。ユーザーがプラットフォームの操作に慣れ、製品の機能を前提として理解して初めて、感情化、シーン認識、操作スキルなどの手段をさらに活用して、ユーザーマインドを構築することができます。アプリの機能が継続的に改良されるにつれ、ユーザーの間で「使い方が分からない」という現象が徐々に現れてきています。この現象は、特に美団のテイクアウト業者のクライアントで顕著です。

クライアントは、マーチャントの生産と運営の主要ツールとして、複雑で多様な業務機能を搭載しており、設定項目はさらに複雑です。マーチャントがクライアントの使い方を理解していない場合、運営システム全体に非常に悪影響を及ぼします。加盟店が「わかりやすく使える」ように、2021年第1四半期、Meituan Takeaway加盟店は機能ガイダンスのニーズに多くの人材を費やしました。プラットフォーム製品は加盟店のサポートに重点を置き、「感情ガイダンス」などのプロジェクトを試行しました。ビジネスの結果はプラスの利益を達成しましたが、その後の研究開発に長い時間がかかると見積もられたため、アイデアの実現は困難でした。同様のマーケティング、広告、商品、受注などの業務においても、需要を誘導するために一連の製品機能の迅速な反復と生産が必要であり、人員の問題によりバックログ状態になっています。

いくつかのガイダンス要件

目標と課題

上記のような背景と現状を踏まえ、コストを抑えながら、ビジネス関係者がアイデアをより迅速に実現し、ユーザーの心をよりよく掴むことができるソリューションを早急に提供する必要があります。同時に、操作指導、機能紹介、感情化、真剣さなどのシナリオを含むがこれらに限定されない、現在のビジネスタスクのバックログを解決します。そこで、ASG ( Application Scripted Guidance ) スクリプトベースのガイダンスプロジェクトが誕生しました。

プロジェクトの目標

私たちのプロジェクトの目標は、使いやすいスクリプトベースのガイダンスツールセットを構築することです。技術に詳しくない学生でも、制作と配信を自力で完了できます。従来のソリューションと比較して、コストが低く、効果も優れています。現在は主に「操作ガイダンス」や「マインドビルディング」などのシナリオで使用されています。

ここでの「スクリプト」という言葉をどのように理解しますか?実際のシナリオを導入し、望ましい目標をシミュレートし、ユーザーがこの目標を達成するための一連の操作指示を実行するように導くことです。ユーザーは、全体的なプロセスと、その中の接続とタイミングの関係を感じることができます。これは、ユーザーに段階的に提示される、事前に準備された小さなプログラムであり、対話が必要な場合と必要がない場合もあることも理解できます。スクリプトによる誘導方法は、以前はゲームアプリで一般的でした。たとえば、火の敵に遭遇した場合、武器インターフェイスに移動して武器を選択し、それを水の宝石に置き換える必要があります。ここ2年ほどで、ディスプレイアプリやツールアプリでもスクリプトガイダンスが徐々に使われるようになりました。以前、美団のフードデリバリー業者側の「営業開始」、「模擬注文受付」などの指導要求は、同様のアイデアを採用していました。この方法はより先進的でしたが、開発コストが高く、その後の指導要求が滞る原因となっていました。

収益計算ロジック

ASG スクリプトベースの指導プロジェクトの利益計算ロジックは「コスト削減と効率向上」です。ここでの「効率」は「効率」と「効果」の両方を指します。結果データの計算式は、効率向上倍数 x = (1 / (1 - コスト削減率)) * (1 + 製品指標成長率) であるため、目標は次の 2 つの方向に分解できます。

生産コストが低く、端末機能と構成機能がある程度あり、対話が簡単なため、製品担当者と運用担当者は独立してスクリプトを起動できます。「ゼロコード」と「テクノロジースタックに依存しない」ことが、このプロジェクトの中核的な競争力です。当社は標準化されたフレームワークを提供し、いくつかのパラメータとタイプを調整することでさまざまな需要シナリオに対応し、大規模なフレームワーク内で限定的なカスタマイズ機能を提供します。
より高いアプリケーション効果。従来の機能ガイダンスと比較して、スクリプトベースのガイダンスはより鮮明で、より多くの要素（非固定音声、タイムリーなモーション効果、フレンドリーな IP 画像）を統合できるため、没入感のある体験をもたらし、ユーザーの認識を向上させます。ユーザーとのインタラクションにもっと注意を払ってください。操作後のフィードバックは、ユーザーの理解を深めるために、実際のページの変更であることが望ましいです。タイミングはより制御可能で、ルールが満たされると自動的にトリガーされます。バックグラウンドでは、特定の特性を持つユーザー（機能を理解していないユーザーなど）をスクリーニングし、ターゲットを絞った方法でスクリプトガイダンスを送信できます。

課題

現在、Flutter/React Native/Mini Programs/PWA などのターミナルテクノロジースタックには、それぞれ独自の適用シナリオがあります。ほとんどのアプリは、複数のテクノロジースタックの組み合わせです。違いを解消し、テクノロジースタックの独立性を実現するにはどうすればよいでしょうか。（つまりコンテナの独立性コンテナレス)。
スクリプト実行の成功率と堅牢性をどのように確保すればよいでしょうか? (デモの MVP バージョンの成功率はわずか 50% ですが、安定バージョンの目標は 99% 以上に到達することです)。
独立した制作と運用リリースをサポートする「ゼロコード」スクリプト制作ソリューションを実装するにはどうすればよいでしょうか? （以前は、このような単一のタスクには、20〜50人日の研究開発が必要でした）。

全体デザイン

表示形式の選択

プロジェクトの主題はどのような形式に基づくべきでしょうか?私たちの考えは、まず「良い結果」を決定し、次にこの形式で「より低いコスト」を達成することです。「良い結果」が製品指標に反映されることは当然期待できますが、当初はデータ比較において各シナリオの指標が大きく異なり、異なる形態を横並びで比較するための基準を揃えることが困難でした。そこで私たちは、「学べば学ぶほど、より多くのことを知ることができる」という視点から推論し、プラットフォームを通じて届けられる情報がより多くのユーザーに受け入れられるかどうかで最終製品の効果を測定します。

過去に動画チュートリアルを収録したビジネスデータをいくつか選択しました。平均再生時間比率は約 50% ～ 66% で、ほとんどのユーザーは動画を最後まで視聴していませんでした。分析の結果、ユーザーによって理解速度が異なるため、動画コンテンツが魅力的でなかったり、ユーザーの理解速度に合わなかったりすると、長い動画コンテンツを視聴することが難しくなると考えられます。同時に、ビデオ通信は一方通行であり、対話性に欠け、スクリプトベースではありません。そこで、製品について話し合った後、いくつかのガイダンスのニーズに対応するために、実際のページ開発に基づいた、特定のスクリプト（左上隅に永続的なボタンがあり、ユーザーはいつでもガイダンスを終了できます）を使用したインタラクティブなガイダンスシステムを試験的に導入しました。

パイロットの結果は私たちの期待通りでした。実際のページに基づいて開発されたインタラクティブなガイダンスは、確かにユーザーに受け入れられやすくなります。ガイド完了ステップの割合は76%～83%に達し、再生時間の割合は平均よりも大幅に高くなりました。実際、従来の表示形式には画像グループも含まれており、基本的にユーザーは機能に入る前にクリックする必要があります。これは、いくつかの推奨ガイダンスシナリオに適用できますが、中程度以上の複雑さのガイダンスケースでは、ここでのデータは参考になりません。収集したデータと基礎知識に基づいて、上記の 3 つのカテゴリを比較しました。結果は次の表のとおりです。

私たちの結論は、より良い結果を達成し、ユーザーに受け入れられやすいユーザー中心のガイダンスを設計したい場合、実際のページに基づいて開発することには明らかな利点がありますが、その欠点は開発コストが比較的高いことです。現時点では、このシンプルなパイロットで良好な改善結果が得られているため、当社の研究員は、より多くのクライアント機能と最適化を導入すれば、全体的な効果にさらなる改善の余地が生まれると確信しています。

プログラムの説明

ASG スクリプトガイダンスプロジェクトの対象者は、製品運用担当者です。私たちは、彼らの視点から、便利で効率的な「スクリプトガイダンスの作成および配信ツール」とは何かを考えました。

製品運用の観点から見ると、上図に示すように、製品運用担当者に提供するインタラクションは、記録、編集、プレビュー、公開の 4 つのステップのみです。製品運用担当者がビジネスモジュールの起動をガイドする必要がある場合、スクリプトを作成し、この「要件」を 4 つのステップで完了するだけで済みます。プロセス全体では、R&D および設計担当者の参加はほとんど必要ありません。具体的な実施計画では、スクリプトガイダンスをテンプレート化して設計・配置し、ガイダンスの各アクションをイベントとして抽象化し、複数のイベントを組み合わせてスクリプトを形成しました。同時に、さまざまな端末との互換性を確保するために、スクリプト要素を記述するための標準的で簡単に拡張できるプロトコルのセットを設計しました。実行時に、PC 管理バックグラウンドとアプリはスクリプトを自動的に解析して実行可能なイベント (座標のクリック、ページナビゲーション、音声の再生など) に変換できます。コア機能モジュールはスクリプトの実行側にあります。より高いアプリケーション効果を確保するには、ガイダンスプロセスとユーザーインタラクションがすべて実際のビジネスページで実行される必要があり、表示される要素もリアルタイムで計算および描画される必要があるため、システムのパフォーマンスと精度に対する要件が高くなります。システムの全体像は下図の通りで、端末側、管理バックグラウンド、クラウドサービスの 3 つの部分で構成されています。

システムパノラマターミナル側: スクリプトの記録と再生の機能を含む 2 つの機能が含まれており、4 つの機能モジュールで構成されています。前処理モジュールは、スクリプトリソースのダウンロード、プロトコル解析、エンコードとデコードを担当し、スクリプトの正常な実行を保証するための前提条件です。リアルタイムコンピューティングモジュールは、スクリーンキャプチャ、機能マッチング、画像インテリジェンスを通じてスクリプトのアンカー要素に関する情報を動的に取得し、スクリプトガイダンスの正確な表示を保証します。これは、スクリプトガイダンステクノロジスタックの独立性を実現するためのコアリンクです。タスクスケジューリングモジュールは、主にイベントキューの実装を通じて、スクリプトの整然とした正確な実行を保証します。マルチメディアモジュールは、音声合成とモーション効果の描画を担当し、特定のビジネスシナリオでのスクリプト再生に没入感を提供します。同時に、PC側もクライアント側をベースに機能を拡張し、一般的なReact/Vue/SvelteのWebアプリケーションに低コストでアクセスして利用できるようになりました。管理バックエンド: スクリプトの編集、インポートと公開、権限制御、データダッシュボード、その他の機能モジュールが含まれます。スクリプト編集モジュールは、スクリプトプロトコルの分析、編集、プレビューという主要な機能を備えています。操作インターフェースは、機能に応じて次の領域に分かれています。

イベントフロー制御領域: スクリプト処理内のイベントをページフレームの形式で表示し、動的な追加や削除、ページフレームの順序調整などの編集機能を提供します。
プロトコル設定領域: スクリプトの標準プロトコルに従って、視覚的なページフレーム設定項目を通じて、ニーズを満たすガイドイベントを生成します。同時に、メンタルスクリプトの感情的な創造を満たす豊富な素材を提供します。
スクリプトプレビュー領域: QR コードのスキャンをサポートし、便利で差別のない効果プレビューを実現し、最終的にユーザーに表示されるガイダンス効果との一貫性を確保します。

管理バックエンドクラウドサービス：Meituanの基盤となるクラウドサービスプラットフォームに依存し、スクリプトの編集が完了した後、リソースホスティングサービス、CDNなどを使用してリソースを管理および配布し、スクリプトの配布と更新を完了する必要があります。エンドサイド SDK とバックエンドポリシー構成の共同作業により、ビジネスミドルプラットフォームは、時間、都市、アカウントとストア、ビジネスタグなどのディメンションに基づく構成に対するビジネス側の要求を満たすために、よりきめ細かい配信構成とより豊富な連絡機会を提供します。

いくつかの技術的解決策の分析

視覚情報に基づく地域位置特定ソリューション

ガイダンスプロセスでは、クリティカルパス上の対象領域にハイライト効果を設定する必要があります。技術スタックは無関係であるという前提の下で、基本的な考え方は、オフラインで対象領域をキャプチャし、オンラインで実行しているときに全画面のスクリーンショットを撮り、画像マッチングアルゴリズムを使用して全画面のスクリーンショットで対象領域の位置を見つけて、その領域の座標を取得することです（次の図を参照）。認識効果を強調するという全体的な考え方は単純に思えますが、具体的な実践では多くの課題に直面しています。

角が丸いアイコンを持つ UI 要素 ( RadioButton、Switch ) では、エッジ領域で検出できる特徴点が少なすぎるため、マッチング成功率が低くなります。
フォントが小さい領域では、低解像度では十分な特徴点を検出できません。解像度を上げるとマッチング精度は向上しますが、消費時間も飛躍的に増加します。
初期位置を指定しないと、画像全体の検出とブルートフォースマッチングしか実行できません。特に複雑な画像や高解像度の画像の場合、検出して保存する必要がある特徴点の数が多すぎます。モバイルデバイスのパフォーマンスとメモリのオーバーヘッドは許容できません。
現在、端末モバイルデバイスには数十種類の画面解像度があり、アルゴリズムは複数の解像度に適応する必要があります。
デバイス側の展開には、アルゴリズムライブラリのパッケージサイズ、パフォーマンス、メモリ使用量に関する要件があります。たとえば、OpenCV は慎重にトリミングした後でも 10 ～ 15 MB あり、オンラインアプリに直接統合することはできません。

理論的な研究と実践的な試行を経て、最終的に従来の CV (コンピュータービジョン) + AI ソリューションを採用しました。ほとんどのシーンは、従来の CV に基づくコーナーフィーチャの検出とマッチングによって解決できます。見逃したものについては、ディープラーニングネットワークを使用した検出と追跡を通じて結果を継続的に得ています。エンジニアリング展開でも対応する最適化が行われました。このソリューションの実装については、以下で詳しく紹介します。

画像マッチングプロセスの概要

画像マッチングアルゴリズムは、情報抽出とマッチング基準の 2 つの部分で構成されます。情報キャリアの2次元構造的特徴が保持されるかどうかに応じて、マッチングアルゴリズムは、次の図に示すように、領域ベースの情報マッチングと特徴ベースの情報マッチングに分けられます。画像マッチングプロセスの概要領域ベースの画像マッチング方法では、元の画像またはドメイン変更後の画像をキャリアとして使用し、情報の差が最も小さい領域をマッチング結果として選択します。この方法では、画像の変形、ノイズ感度などがうまく処理されません。特徴ベースの画像マッチング方法は、画像の2次元構造情報を破棄し、画像のテクスチャ、形状、色などの特徴と位置情報の記述を抽出し、マッチング結果を取得します。特徴ベースのアルゴリズムは、より堅牢で、情報マッチングのステップが速く、適応性が高く、より幅広い用途に使用できます。

従来の履歴書の特徴に基づいた画像マッチング

実際、このプロジェクトのアプリケーションシナリオは、典型的な ROI ( Region Of Interesting ) 領域の検出と配置です。従来の CV アルゴリズムには、輪郭の特徴、接続領域、色の特徴、コーナーポイントの検出など、さまざまな使用シナリオに対応する成熟したアルゴリズムがすでに多数あります。コーナーポイント特徴は、中心ピクセルと周囲のピクセルの明るさの劇的な差に基づく特徴点であり、回転、拡大縮小、明るさなどの変化に基本的に影響されません。コーナーポイントの検出方法としては、SIFT、SURF、ORB などが代表的であり、業界では関連する研究が数多く行われています。 2017年にE Karamiら[5]が発表した比較研究結果（下図参照）によると、ほとんどの場合、ORBが最も速く、SIFTが最良のマッチング結果を示している。ORBの特徴点は画像の中心に集中しているのに対し、SIFT、SURF、FASTは画像全体に分布している。 Meituan Daojia シナリオでは、ターゲット領域は画像の中央または四隅のどこにでも配置される可能性があるため、ORB がエッジ領域でターゲット領域と一致しない可能性が比較的高く、特別な処理が必要になります。

(a) SIFT (b) SURF (c) ORB マッチング結果: 異なる強度 (左) スケーリング (中央) 回転 (右)一般的に、優れた特徴検出およびマッチングアルゴリズムには、スケール不変性、回転不変性、および明るさ不変性という特性が必要です。これにより、より多くのアプリケーションシナリオに適応でき、優れた堅牢性を実現できます。以下では、ORB を例に、アルゴリズムの計算プロセスを簡単に説明します (ご興味があれば、より関連性の高い情報を参照してください)。 ORB = 方向付けされた FAST + 回転された BRIEF (以下では OFAST と rBRIEF が代わりに使用されます)、ORB は FAST 特徴検出アルゴリズムと BRIEF 特徴記述アルゴリズムを組み合わせ、改良された OFAST 特徴検出アルゴリズムを使用して方向性を持たせ、回転不変性を備えた rBRIEF 特徴記述子を使用するなど、いくつかの改良を加えています。 FAST と BRIEF はどちらも非常に高速な特徴計算方法であるため、ORB は大幅なパフォーマンスの向上を実現しました。ピクセル p が FAST 特徴点であるかどうかを判断するには、周囲の 7x7 近傍に、p のグレースケール値と p のグレースケール値の差の絶対値がしきい値を超える N 個の連続したピクセルがあるかどうかを判断するだけで済みます。また、FASTが高速な理由は、まず上下左右の4点の結果から判断し、コーナーポイントの条件を満たさない場合は直接排除する。満たしている場合は、残りの12点を計算する。画像内のほとんどのピクセルは特徴点ではないため、このようにすることで、ディープラーニングの「錬金術師」の言葉を借りれば「基本的にポイントが失われない」という結果になり、計算時間が大幅に短縮される。隣接する特徴点の重複の問題については、最大値抑制を使用して重複を除去することができます。

近傍の 16 点の位置 (左)、上下左右の 4 点の位置 (右)改良された OFAST は、各特徴点の方向ベクトルを計算します。研究によると、特徴点の方向として明るさの中心と幾何学的中心を結ぶベクトルを使用すると、ヒストグラムアルゴリズムや MAX アルゴリズムよりも良い結果が得られます。

OFAST 方向ベクトルの計算ORB アルゴリズムの 2 番目のステップは、特徴記述子を計算することです。このステップでは rBRIEF アルゴリズムが使用され、各特徴記述子は 1 と 0 のみを含む長さ 128 ～ 512 ビットのベクトルになります。特徴点と特徴記述子を取得した後、特徴マッチングを実行できます。さらに、特徴マッチングアルゴリズムは数多く存在するが、ここでは計算を簡略化するためにLPM[6]アルゴリズムを使用する。フィルタリングされた特徴ペアを取得した後、それらの外接長方形の境界ボックスを計算し、元の画像座標系に逆変換して、ターゲット領域の位置座標を取得します。純粋な従来の CV アルゴリズムテストの結果から、特徴点の数がマッチング再現率に直接影響を与えることがわかります。特徴点が少ないと、再現率が低すぎてビジネスニーズを満たすことができません。特徴点が 10,000 を超えると、特にモバイルデバイスではアルゴリズムのパフォーマンスに重大な影響が及び、ハイエンドモデルでは 1 秒以上かかることになります。対象領域画像と元画像に異なる数の特徴点を設定し、マッチングを行うことで、パフォーマンスとマッチング精度の両方を考慮できます。異なる設定パラメータで測定された特徴点とマッチング結果を下の図に示します。ほとんどの画像およびテキストコンテンツ領域では、特徴点が 5,000 を超えるとマッチング結果は良好ですが、マッチングに失敗する一般的な領域がまだあります。特徴点が 10,000 を超えると、一部の特殊なケースを除いて、ほとんどのシーンのマッチング結果は非常に満足のいくものになります。対象エリアのおおよその初期位置（実際の状況）が提供されない場合、ほとんどのエリアではマッチングに10,000～20,000個の特徴点が必要となり、エンドサイドのパフォーマンスが問題になります。

テスト結果: マッチング再現率は特徴点の数に直接関係している

ディープラーニングに基づく画像マッチング

従来の CV の欠点といくつかの解決不可能な問題に基づいて、画像マッチングを実行するには、より強力な画像特徴表現機能を備えたアルゴリズムが必要です。近年、ディープラーニングアルゴリズムは大きな進歩を遂げ、画像特徴マッチングの分野でも大きな成功を収めています。このアプリケーションシナリオでは、フルスクリーンのスクリーンショットでサブ領域の特定の位置をすばやく見つけるアルゴリズムが必要です。つまり、領域内のローカルエリアの特徴を通じて、グローバル特徴内の対応する位置をすばやく見つけるモデルが必要です。この問題はターゲット検出アルゴリズムを使用して解決できるようですが、一般的なターゲット検出アルゴリズムではターゲットのカテゴリ/意味情報が必要ですが、ここで一致させる必要があるのはターゲット領域の見かけ上の特徴です。この問題を解決するために、ターゲット検出に基づく画像追跡アルゴリズムを採用しました。つまり、ターゲット領域をアルゴリズムが追跡する必要があるターゲットと見なし、フルスクリーンのスクリーンショットで追跡するターゲットを見つけました。具体的な実装プロセスでは、GlobalTrack[7]に似たアルゴリズムを使用します。まず、対象領域に対応する特徴を抽出し、対象領域の特徴を使用して全画面スクリーンショットの特徴を変調し、変調された特徴に基づいて対象領域を特定します。モバイルデバイスの限られた計算能力に基づいて、プロセスを高速化するために GlobalTrack に基づくシングルステージターゲット検出器を設計しました。 GlobalTrack 図ターゲット領域の特徴を直接使用してターゲット検出プロセスをガイドするため、純粋なテキスト、純粋な画像またはアイコン、テキストと画像の混合など、より複雑なターゲット領域を処理できます。下の図のいくつかの例に示すように、UI に表示される可能性のある要素はすべてターゲット領域になる可能性があります。

さまざまなサイズカテゴリの組み合わせを含むターゲット領域の例とトレーニングデータは、モバイルデバイス上のアプリ UI 画面の任意のローカル領域を正確に配置する必要があるビジネスシナリオと組み合わされます。上記で分析したように、この問題はターゲットの検出とマッチングの問題とターゲットの追跡の問題の両方として考えることができます。同時に、アルゴリズムは、さまざまなコンテンツ、さまざまな画面解像度、さまざまなモバイルデバイスを持つ ROI 領域に適応できる必要があります。

当社が選んだソリューション

前述のように、当社は CV + AI ソリューションを使用しています。このソリューションには、従来の CV 検出ではすべてのシナリオをカバーできないという問題を解決し、パフォーマンスを最適化してモバイルデバイスの消費時間を削減するという利点があります。エンジニアリング展開の面では、純粋な C を使用して検出およびマッチングアルゴリズムを実装し、ORB アルゴリズムにいくつかのカスタマイズされた変更を加えました。さらに、マルチスレッド、Neon 最適化などの手段を使用して、パフォーマンスを 800 ミリ秒から約 100 ミリ秒に向上させました。最終バージョンでは OpenCV やサードパーティのライブラリに依存しないため、アルゴリズムライブラリのパッケージサイズが大幅に削減されます。ディープラーニングモデルは、MTNN エンドサイド推論エンジンに基づいて、最適な推論パフォーマンスと精度を実現します。ミッド～ハイエンドモデルでは、異種ハードウェア並列アクセラレーションを有効にして、CVとAIを並列計算し、CPUで特徴検出計算を行い、GPUまたはNPUでモデル推論を行った後、融合を行うことが可能です。これにより、CPU負荷を増やすことなく、パフォーマンスと精度を向上させることができます。

タスク実行の堅牢性を確保する

タスク実行の認識

従来のソリューションを使用して開発を進める場合、関数コールバック、ブロードキャスト、コンポーネントの変更など、さまざまな方法でタスクの実行ステータスを取得できます。しかし、テクノロジースタックに関係なく、ブートプロセスの障害を検出したり、ユーザーの実行/クリックが正しいかどうかを検出することは比較的困難です。同時に、エラーの種類を正確に特定し、特定のステップの再試行プランを追加し、スクリプトが可能な限りスムーズに実行されるようにする必要があります。まれにブロックやエラーが発生した場合は、ユーザーへの影響を軽減するために、タイムリーな確認、エラー報告、終了ガイダンスが必要です。

タスク実行フローチャートまず、より洗練された「ブラックボックス」ソリューションは、画像類似性比較テクノロジを使用することです。この機能モデルは、ビジュアルインテリジェンスでは比較的基本的なものです。ターゲットページにジャンプした後、スクリーンショットが撮影され、ターゲット機能と比較されて、迅速なフォールトトレランスが実現されます。いくつかの極端なケースを除いた大量のオフラインテストデータに基づいて、さまざまなしきい値の下で規則性があることがわかりました。

類似度が 80% を超える範囲では、基本的に対象ページが正確であり、一部のコーナーマークや画像ブロックの読み込みによる影響を受けていないと判断できます。
類似度の範囲が 60% ～ 80% なのは、一部のリストスタイルや背景画像とバナー画像のわずかな違いによるものです。ヒットはあいまいに判断できます (データは報告されますが、例外は報告されません)。
類似度が 40% から 60% の範囲では、対応するモジュールの UI インターフェースが改訂されたか、ローカルポップアップが発生している可能性が高くなります。このとき、例外をタイムリーに報告するには、何らかの再試行戦略が必要です。
類似度が 40% 未満の場合、リダイレクト先のページがエラーページであることはほぼ確実です。ブートプロセスを直接終了し、例外を報告できます。

同時に、コンテナルーティング URL の比較など、イメージ比較の決定を支援するためにクライアント側にもいくつかの判断ルールがあります。イメージ比較が一致しないがコンテナルーティング URL が正確な場合は、ポリシー調整と再試行ロジックが実行されます。ページが正確であることを確認した後、ハイライト領域の検索とその後の描画ロジックが実行されます。最後に、タイムアウトの失敗を通じてバックアップが自然に検証されます。スクリプトキーフレームの完全な判定プロセスのために、5 秒のタイムアウト戦略を設定しました。

スケールと回転の不変性について

スケールの堅牢性を高めるために、計算プロセスは最初にイメージをガウスぼかしてノイズの影響を除去し、画像をダウンサンプリングして各レイヤーで機能を検出し、すべての特徴ポイントのセットが出力されます。画像の回転の状況に対処するために、rbriefを追加することができます。以下の図は、青い四角いピクセルを使用してランダムなポイントペアをサンプリングする方法を示しています機能のマッチングレートを改善します。もちろん、他のオプションがありますが、ここにはリストされません。最初に、回転マトリックスは特徴点の方向ベクトルに従って構築され、回転変換はNポイントペアで実行され、各ポイントペアが特徴点の主要方向と一致し、ポイントペアに基づいて特徴ベクトルが計算されます。特徴ベクトルの主な方向は特徴ポイントと一致しているため、RBRIEFが任意の角度で回転した画像の同じ特徴点を検出できることを意味します。

図rbriefランダムピクセルペアの選択（左）;

その他のフォールトトレランス

ページに複数の同一の要素または類似の要素があるシナリオの場合、どの領域を選択することはできません。したがって、ターゲット領域を見つけるときは、ターゲット領域の取得に基づいて参照領域を提供し、ターゲット周辺の情報と組み合わせる必要があります。操作中、ターゲット領域の画像情報が提供されます。ページに表示されるさまざまなテクノロジースタックのポップアップシナリオの場合、外観のタイミングが不確実であるため、ターゲット領域をブロックし、さまざまなポップアップウィンドウをフィルタリングして傍受する必要があります。ネイティブテクノロジースタックの場合、統一されたポップアップコンポーネントを傍受し、実行プロセス中にポップアップを禁止します。フラッターでは、グローバルな傍受が使用されます NavigatorObserver didPush NavigatorObserver didPush さまざまなタイプのフラッターdidPush 、傍受、フィルタリングします Widget Dialog Alert ウィンドウ。 Web上の処理に関しては、Webポップアップウィンドウビジネスに参加しており、特に統一されたポップアップウィンドウの仕様はありません。一部のページ要素が複雑で、読み込み時間がわずかに長くなるシナリオの場合、スクリプトが再生されたときに記録側が提供する遅延内フィールドに基づいて、いくつかの遅延決定戦略が実装されます。以前の取り組みに基づいて、スクリプト実行リンクの成功率（下の図に示すように）は、基本的に98％以上に達する可能性があります。

いくつかのリンクインジケーターの監視

ゼロコードでスクリプトの作成と編集を完了します

スクリプトのライフサイクルは、「生産」と「生産」段階の2つの段階に分かれています。最初の2つの課題が主に「消費」に焦点を当てている場合、ここでの課題は主に「生産」に焦点を当てています。次に、「エンドサイドエンパワーメントの記録」と「標準プロトコル設計」という2つの側面から詳細な紹介を行います。

エンドサイドエンパワーメントの記録

統合された録音SDKは、モバイルデバイスの画面サイズによって制限されているため、詳細な作成を実行することが困難であるため、基本的なスクリプトフレームワークを作成および記録することです。このプロセスでは、SDKは最初にページの基本情報を記録する必要があります。レコーダーを調整して、バックグラウンドで詳細な作成を実行します。同時に、録音SDKは、ユーザーの意図を積極的に推測し、レコーダーの編集を減らす必要があります。キーフレームのエントリを2つのタイプに分割し、ページジャンプを生成し、異なるタイプの異なるパスを自動的に生成します。レコーダーの操作がページジャンプを引き起こすと、録音SDKは操作の分類を決定し、レコーダーの操作を減らすために次のキーフレームの説明として、その場所の音声入力を積極的にマークします。記録プロセス全体で、各ページの開幕時間は、レコーダーがスクリプトのリズムを調整するのに役立つ参照情報としてキーフレームの一部として記録されます。

スクリプト記録サイド図

標準プロトコル設計

「ゼロコード」の礎石として、標準プロトコルは、記録から編集までのプロセス全体を接続します。現在のアプリには、数十の操作ベースのガイダンスシナリオがあります。コアフィールドを抽出し、転送モデルとビューモデルを組み合わせて削除します。標準化と互換性を確保するという前提の下で、多数のシナリオが4つの一般的なイベントタイプに抽象化され、キーフレームの配置とビジネスシナリオのカバレッジが容易になります。メンタルスクリプトの場合、ユーザーのインタラクティブな操作により新しいブランチが引き続き生成され、最終的に複雑で冗長なバイナリツリー構造になります。このタイプのプロトコルを設計すると、バイナリツリーノードを平らにし、2つのキーフレーム間の接続を識別できます。ユーザーが特定のニーズに導かれるアプリを使用する場合、精神的および運用上のスクリプトがそれらの間を交互に行われます。たとえば、商人（ユーザー）がプロモーションページを開いた後、Xiaodaiアニメーションは声を伴っています。この時点で、ユーザーが1をクリックすると、「操作タイプ」スクリプトに切り替わります。そのため、プロトコルを設計するときは、2つのスクリプト間の接続に特別な注意を払う必要があります。ここでは、プロトコルを改良し、基本的な機能プロトコルをディスプレイプロトコルから分離しました。 2つのスクリプトは、互換性の問題を防ぐための一連の基本機能プロトコルを共有しています。

一部のプロトコルノード設計管理の背景にあるエディターエンジンがスクリプトプロトコルを解析すると、組み込みロジックの初期化が完了し、スクリプト内のイベントキーフレームのレンダリングをガイドします。エディターエンジンは、イベントメカニズムに基づいてサブスクライティング機能を実装しています。キーフレームが挿入、編集、調整など、他のすべてのキーフレームが上記のコアイベントをサブスクライブすることができます。編集および処理されたスクリプト契約は、Meituanの統一された動的配布プラットフォームに接続され、グレースケール、フルボリューム、およびパッチされたスクリプトの動的リリース機能を実現します。編集者は完全に組み込みのライフサイクルを備えており、操作のさまざまな段階で完全なイベントフックを公開し、優れたアクセスと拡張機能をサポートしています。

位相結果

能力開発

上記のように、2つの標準的なスクリプトスタイルを抽出しました。現在、新しいモジュールのテスト期間中に簡単にアクセスできる標準化されたフォームを繰り返しました。また、既存の複雑なモジュールのブートを設定することもできます。これは、デフォルトで「？」アイコンのナビゲーションバーに隠され、適切なタイミングでトリガーされます。

同時に、ユーザーのメンタル構築は、定期的な製品操作ガイダンスであるだけでなく、メンタルスクリプト（コンセプトスクリプトとも呼ばれます）も提供します。これは、「概念送信」または「コンセプト移植」が必要なシナリオに適用できます。適切なビジネスシナリオでは、プラットフォームのシステムと基準は、ユーザーがプラットフォームの概念をより簡単に受け入れることができるようにし、例えば、商人が悪いレビューを読む場合、コンテンツは一般的な現象であり、XXは悪いレビューである場合、規制の断固として、深刻なスクリプトはコンセプトの強化で実行できます（コンテンツは非常に公正なプラットフォームであり、複数の検査対策があるため、アピールに誤った資料をアップロードして、運でテストに合格しようとしないでください）。このプロセスで作成された画像機能の位置付け、ビデオアニメーション、その他の機能が技術保護区を完了しており、使用する他のシーンに提供できることに言及する価値があります。前の記事のコア技術コンテンツには、2つの国家発明特許が適用されています。

一部のビジネスのオンライン効果

新しいストア成長計画は、スクリプト指向のガイダンスアプリケーションに対する最初の主要な需要です。新しい店舗成長計画の成功をサポートするプロジェクト、そして現在の結果は非常に肯定的です。 ASGは、プロジェクト全体のガイド付き再生量の78.1％をサポートしており、単一のスクリプトを開発するコストは0.5d未満です。包括的な観察指標「マーチャントタスクの完了度」は、前年比観察期間中に18％から35.7％に増加し、その他のプロセス指標もさまざまな程度に改善されました。
Super Value Exchangeは、精神的なガイダンスを提供し、プロセスデータに基づいて交換活動を作成するために商人をガイドします。
配信情報のガイダンス、配信情報タスクの全体的なプロセスのアクションポイントガイダンスを最適化し、商人の行動の閉塞を引き起こすことを避け、ユーザーの運用コストを削減し、コストを理解し、営業段階での商人の満足度を改善し、同時に商人の配信サービスに対する認識を向上させます。
...

2021年11月の発売以来、ASGは新しい店舗、イベント、マーケティング、広告などの多くのビジネスをサポートしており、Meituanの20以上のビジネスシナリオで実装しています。全体として、従来のガイダンスソリューションと比較して、ASGスクリプトスタイルのガイダンスは、約1/10のコストで約20％増加する可能性があるとほぼ推定できます。前の結果計算式を持ち込み、効率の多数（ x =（1 /（1-90％）） *（1 + 20％）を改善します）12回です。最終結果から判断すると、コストの削減は効果の改善よりもはるかに明白であるため、この記事では前者については後者よりも大幅に多く説明しています。現在、効果を改善するという点では、主にエンド機能の基本的な組み合わせを使用しています。

要約と展望

この記事では、ユーザーメンタルコンストラクションの分野におけるMeituan Takeoutターミナルチームの調査と実践を紹介します。現在のビジネス状況とスクリプトベースの思考から始めて、スクリプトアクセスのしきい値を簡素化するために、ターミナルと管理バックエンドのワンストップデザインについて話しました。その後、スクリプトの実行において、従来のCVとディープラーニングが果たす重要な役割についても説明しました。全体として、このプロジェクトは、ターミナルの能力を拡大する大胆な試みです。現在の段階的な結果に基づいて、次のステップの正確さを検証しました。「より低い生産コスト」と「より高いアプリケーション効果」の2つの視点（組み合わせた要素スクリプトの使いやすさ、スクリプトの更新コストの最適化、ルールエンジンとのガイダンスタイミングの組み合わせ、折り畳み、折りたたみ式のシナリオなど）さらに、ターミナルの「コンテナに依存しない」利益レバレッジが明らかであり、将来の開発の余地がまだたくさんあることを喜んでいます。誰もが私たちと話し合い、コミュニケーションをとることを歓迎します。