新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

著者 | 宋涛、尚賢、小斌 他

アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たちは「スクリプトスタイル」の思考を試し、良い結果を得ました。アイデアを実装する場合、関連する研究開発の作業量が大きく、端末の技術スタックが多様であるため、「ゼロコード」と「技術スタックの独立性」を実現する必要があります。最終的には、「画像マッチング」や「標準プロトコル」などのコアソリューションを通じてブレークスルーを達成しました。この記事では、プロジェクトの思考プロセスを紹介し、主要な技術的ソリューションを分析および解釈し、関連する開発作業に従事する学生に刺激を与えることを目的としています。

  1. プロジェクトの目標
  2. 収益計算ロジック
  3. 課題
  • 背景
  • 現状
  • 目標と課題
  • 全体デザイン
  • 表示形式の選択
  • プログラムの説明
  • いくつかの技術的解決策の分析
  • 視覚情報に基づく地域位置特定ソリューション
  • タスク実行の堅牢性を確保する
  • コードなしでスクリプトの作成と編集を完了
  • フェーズ結果
  • 能力開発
  • 一部のビジネスのオンラインパフォーマンス
  • 要約と展望

背景

インターネット業界のペースは速く、アプリのアップデートはますます頻繁になっています。ユーザーがアップデートのペースに追いつき、製品の機能を理解し、認知の反復を完了できるようにすることは、ビジネス開発において無視できない重要な部分です。同時に、「ローコード/ゼロコード」の概念は徐々に一般に認知され始めており、関連する研究報告では、「ローコード/ゼロコード」が企業のデジタル変革を加速できると指摘されています。美団の宅配事業グループを例に挙げると、巣ごもり経済が再び活発化した後、即時配達アプリの成長率は配達時間が長い他のアプリよりも高かった。多数の新規ユーザーの流入は、チャンスであると同時に課題でもあります。現在、美団の道家事業グループは、医薬品、グループ食事、フラッシュショッピング、用事、グループ商品、無人配達など10以上の事業ラインをカバーしています。新しいビジネスモデルは、新しい分野への挑戦を意味します。フードデリバリーの主要ビジネスも、平均して数日ごとに新しい機能モジュールをリリースします。これらすべてにおいて、ユーザーの意識構築と効率性の向上に注意を払う必要があります。

現状

業界では、豊富で多様な軽いインタラクションや「ナニースタイル」のゲームガイドによる指導など、ユーザーの認知度を高め、サービスの認知度を高めるために多くの試みを行ってきました。これらの実装方法は、技術的なレベルでは、すべてアプリ内の機能ガイドであり、ユーザーは短時間で製品の機能と使用方法をすばやく理解できます。 「広告」「スローガンの発信」「現地プロモーションの紹介」などの従来のソリューションと比較して、アプリの機能ガイダンスは、低コスト、正確なカバレッジ、再利用性などの特徴を備えています。

一般的な機能ガイドアプリ 機能ガイドは、ユーザーマインドを構築するための「足がかり」です。ユーザーがプラットフォームの操作に慣れ、製品の機能を前提として理解して初めて、感情化、シーン認識、操作スキルなどの手段をさらに活用して、ユーザーマインドを構築することができます。アプリの機能が継続的に改良されるにつれ、ユーザーの間で「使い方が分からない」という現象が徐々に現れてきています。この現象は、特に美団のテイクアウト業者のクライアントで顕著です。

クライアントは、マーチャントの生産と運営の主要ツールとして、複雑で多様な業務機能を搭載しており、設定項目はさらに複雑です。マーチャントがクライアントの使い方を理解していない場合、運営システム全体に非常に悪影響を及ぼします。加盟店が「わかりやすく使える」ように、2021年第1四半期、Meituan Takeaway加盟店は機能ガイダンスのニーズに多くの人材を費やしました。プラットフォーム製品は加盟店のサポートに重点を置き、「感情ガイダンス」などのプロジェクトを試行しました。ビジネスの結果はプラスの利益を達成しましたが、その後の研究開発に長い時間がかかると見積もられたため、アイデアの実現は困難でした。同様のマーケティング、広告、商品、受注などの業務においても、需要を誘導するために一連の製品機能の迅速な反復と生産が必要であり、人員の問題によりバックログ状態になっています。

いくつかのガイダンス要件

目標と課題

上記のような背景と現状を踏まえ、コストを抑えながら、ビジネス関係者がアイデアをより迅速に実現し、ユーザーの心をよりよく掴むことができるソリューションを早急に提供する必要があります。同時に、操作指導、機能紹介、感情化、真剣さなどのシナリオを含むがこれらに限定されない、現在のビジネスタスクのバックログを解決します。そこで、ASG ( Application Scripted Guidance ) スクリプトベースのガイダンス プロジェクトが誕生しました。

プロジェクトの目標

私たちのプロジェクトの目標は、使いやすいスクリプトベースのガイダンスツールセットを構築することです。技術に詳しくない学生でも、制作と配信を自力で完了できます。従来のソリューションと比較して、コストが低く、効果も優れています。現在は主に「操作ガイダンス」や「マインドビルディング」などのシナリオで使用されています。

ここでの「スクリプト」という言葉をどのように理解しますか?実際のシナリオを導入し、望ましい目標をシミュレートし、ユーザーがこの目標を達成するための一連の操作指示を実行するように導くことです。ユーザーは、全体的なプロセスと、その中の接続とタイミングの関係を感じることができます。これは、ユーザーに段階的に提示される、事前に準備された小さなプログラムであり、対話が必要な場合と必要がない場合もあることも理解できます。スクリプトによる誘導方法は、以前はゲーム アプリで一般的でした。たとえば、火の敵に遭遇した場合、武器インターフェイスに移動して武器を選択し、それを水の宝石に置き換える必要があります。ここ2年ほどで、ディスプレイアプリやツールアプリでもスクリプトガイダンスが徐々に使われるようになりました。以前、美団のフードデリバリー業者側の「営業開始」、「模擬注文受付」などの指導要求は、同様のアイデアを採用していました。この方法はより先進的でしたが、開発コストが高く、その後の指導要求が滞る原因となっていました。

収益計算ロジック

ASG スクリプトベースの指導プロジェクトの利益計算ロジックは「コスト削減と効率向上」です。ここでの「効率」は「効率」と「効果」の両方を指します。結果データの計算式は、効率向上倍数 x = (1 / (1 - コスト削減率)) * (1 + 製品指標成長率) であるため、目標は次の 2 つの方向に分解できます。

  • 生産コストが低く、端末機能と構成機能がある程度あり、対話が簡単なため、製品担当者と運用担当者は独立してスクリプトを起動できます。 「ゼロコード」と「テクノロジースタックに依存しない」ことが、このプロジェクトの中核的な競争力です。当社は標準化されたフレームワークを提供し、いくつかのパラメータとタイプを調整することでさまざまな需要シナリオに対応し、大規模なフレームワーク内で限定的なカスタマイズ機能を提供します。
  • より高いアプリケーション効果。従来の機能ガイダンスと比較して、スクリプトベースのガイダンスはより鮮明で、より多くの要素(非固定音声、タイムリーなモーション効果、フレンドリーな IP 画像)を統合できるため、没入感のある体験をもたらし、ユーザーの認識を向上させます。ユーザーとのインタラクションにもっと注意を払ってください。操作後のフィードバックは、ユーザーの理解を深めるために、実際のページの変更であることが望ましいです。タイミングはより制御可能で、ルールが満たされると自動的にトリガーされます。バックグラウンドでは、特定の特性を持つユーザー(機能を理解していないユーザーなど)をスクリーニングし、ターゲットを絞った方法でスクリプトガイダンスを送信できます。

課題

  1. 現在、Flutter/React Native/Mini Programs/PWA などのターミナル テクノロジー スタックには、それぞれ独自の適用シナリオがあります。ほとんどのアプリは、複数のテクノロジー スタックの組み合わせです。違いを解消し、テクノロジー スタックの独立性を実現するにはどうすればよいでしょうか。 (つまりコンテナの独立性 コンテナレス)。
  2. スクリプト実行の成功率と堅牢性をどのように確保すればよいでしょうか? (デモの MVP バージョンの成功率はわずか 50% ですが、安定バージョンの目標は 99% 以上に到達することです)。
  3. 独立した制作と運用リリースをサポートする「ゼロコード」スクリプト制作ソリューションを実装するにはどうすればよいでしょうか? (以前は、このような単一のタスクには、20〜50人日の研究開発が必要でした)。

全体デザイン

表示形式の選択

プロジェクトの主題はどのような形式に基づくべきでしょうか?私たちの考えは、まず「良い結果」を決定し、次にこの形式で「より低いコスト」を達成することです。 「良い結果」が製品指標に反映されることは当然期待できますが、当初はデータ比較において各シナリオの指標が大きく異なり、異なる形態を横並びで比較するための基準を揃えることが困難でした。そこで私たちは、「学べば学ぶほど、より多くのことを知ることができる」という視点から推論し、プラットフォームを通じて届けられる情報がより多くのユーザーに受け入れられるかどうかで最終製品の効果を測定します。

過去に動画チュートリアルを収録したビジネスデータをいくつか選択しました。平均再生時間比率は約 50% ~ 66% で、ほとんどのユーザーは動画を最後まで視聴していませんでした。分析の結果、ユーザーによって理解速度が異なるため、動画コンテンツが魅力的でなかったり、ユーザーの理解速度に合わなかったりすると、長い動画コンテンツを視聴することが難しくなると考えられます。同時に、ビデオ通信は一方通行であり、対話性に欠け、スクリプトベースではありません。そこで、製品について話し合った後、いくつかのガイダンスのニーズに対応するために、実際のページ開発に基づいた、特定のスクリプト(左上隅に永続的なボタンがあり、ユーザーはいつでもガイダンスを終了できます)を使用したインタラクティブなガイダンス システムを試験的に導入しました。

パイロットの結果は私たちの期待通りでした。実際のページに基づいて開発されたインタラクティブなガイダンスは、確かにユーザーに受け入れられやすくなります。ガイド完了ステップの割合は76%~83%に達し、再生時間の割合は平均よりも大幅に高くなりました。実際、従来の表示形式には画像グループも含まれており、基本的にユーザーは機能に入る前にクリックする必要があります。これは、いくつかの推奨ガイダンス シナリオに適用できますが、中程度以上の複雑さのガイダンス ケースでは、ここでのデータは参考になりません。 収集したデータと基礎知識に基づいて、上記の 3 つのカテゴリを比較しました。結果は次の表のとおりです。

私たちの結論は、より良い結果を達成し、ユーザーに受け入れられやすいユーザー中心のガイダンスを設計したい場合、実際のページに基づいて開発することには明らかな利点がありますが、その欠点は開発コストが比較的高いことです。現時点では、このシンプルなパイロットで良好な改善結果が得られているため、当社の研究員は、より多くのクライアント機能と最適化を導入すれば、全体的な効果にさらなる改善の余地が生まれると確信しています。

プログラムの説明

ASG スクリプト ガイダンス プロジェクトの対象者は、製品運用担当者です。私たちは、彼らの視点から、便利で効率的な「スクリプト ガイダンスの作成および配信ツール」とは何かを考えました。

製品運用の観点から見ると、上図に示すように、製品運用担当者に提供するインタラクションは、記録、編集、プレビュー、公開の 4 つのステップのみです。製品運用担当者がビジネス モジュールの起動をガイドする必要がある場合、スクリプトを作成し、この「要件」を 4 つのステップで完了するだけで済みます。プロセス全体では、R&D および設計担当者の参加はほとんど必要ありません。具体的な実施計画では、スクリプトガイダンスをテンプレート化して設計・配置し、ガイダンスの各アクションをイベントとして抽象化し、複数のイベントを組み合わせてスクリプトを形成しました。同時に、さまざまな端末との互換性を確保するために、スクリプト要素を記述するための標準的で簡単に拡張できるプロトコルのセットを設計しました。実行時に、PC 管理バックグラウンドとアプリはスクリプトを自動的に解析して実行可能なイベント (座標のクリック、ページナビゲーション、音声の再生など) に変換できます。コア機能モジュールはスクリプトの実行側にあります。より高いアプリケーション効果を確保するには、ガイダンスプロセスとユーザーインタラクションがすべて実際のビジネスページで実行される必要があり、表示される要素もリアルタイムで計算および描画される必要があるため、システムのパフォーマンスと精度に対する要件が高くなります。システムの全体像は下図の通りで、端末側、管理バックグラウンド、クラウドサービスの 3 つの部分で構成されています。

システムパノラマターミナル側: スクリプトの記録と再生の機能を含む 2 つの機能が含まれており、4 つの機能モジュールで構成されています。前処理モジュールは、スクリプト リソースのダウンロード、プロトコル解析、エンコードとデコードを担当し、スクリプトの正常な実行を保証するための前提条件です。リアルタイム コンピューティング モジュールは、スクリーン キャプチャ、機能マッチング、画像インテリジェンスを通じてスクリプトのアンカー要素に関する情報を動的に取得し、スクリプト ガイダンスの正確な表示を保証します。これは、スクリプト ガイダンス テクノロジ スタックの独立性を実現するためのコア リンクです。タスク スケジューリング モジュールは、主にイベント キューの実装を通じて、スクリプトの整然とした正確な実行を保証します。マルチメディア モジュールは、音声合成とモーション効果の描画を担当し、特定のビジネス シナリオでのスクリプト再生に没入感を提供します。同時に、PC側もクライアント側をベースに機能を拡張し、一般的なReact/Vue/SvelteのWebアプリケーションに低コストでアクセスして利用できるようになりました。管理バックエンド: スクリプトの編集、インポートと公開、権限制御、データ ダッシュボード、その他の機能モジュールが含まれます。スクリプト編集モジュールは、スクリプトプロトコルの分析、編集、プレビューという主要な機能を備えています。操作インターフェースは、機能に応じて次の領域に分かれています。

  • イベントフロー制御領域: スクリプト処理内のイベントをページフレームの形式で表示し、動的な追加や削除、ページフレームの順序調整などの編集機能を提供します。
  • プロトコル設定領域: スクリプトの標準プロトコルに従って、視覚的なページフレーム設定項目を通じて、ニーズを満たすガイドイベントを生成します。同時に、メンタルスクリプトの感情的な創造を満たす豊富な素材を提供します。
  • スクリプトプレビュー領域: QR コードのスキャンをサポートし、便利で差別のない効果プレビューを実現し、最終的にユーザーに表示されるガイダンス効果との一貫性を確保します。

管理バックエンドクラウドサービス:Meituanの基盤となるクラウドサービスプラットフォームに依存し、スクリプトの編集が完了した後、リソースホスティングサービス、CDNなどを使用してリソースを管理および配布し、スクリプトの配布と更新を完了する必要があります。エンドサイド SDK とバックエンド ポリシー構成の共同作業により、ビジネス ミドル プラットフォームは、時間、都市、アカウントとストア、ビジネス タグなどのディメンションに基づく構成に対するビジネス側の要求を満たすために、よりきめ細かい配信構成とより豊富な連絡機会を提供します。

いくつかの技術的解決策の分析

視覚情報に基づく地域位置特定ソリューション

ガイダンスプロセスでは、クリティカルパス上の対象領域にハイライト効果を設定する必要があります。技術スタックは無関係であるという前提の下で、基本的な考え方は、オフラインで対象領域をキャプチャし、オンラインで実行しているときに全画面のスクリーンショットを撮り、画像マッチングアルゴリズムを使用して全画面のスクリーンショットで対象領域の位置を見つけて、その領域の座標を取得することです(次の図を参照)。認識効果を強調するという全体的な考え方は単純に思えますが、具体的な実践では多くの課題に直面しています。

  1. 角が丸いアイコンを持つ UI 要素 ( RadioButton、Switch ) では、エッジ領域で検出できる特徴点が少なすぎるため、マッチング成功率が低くなります。
  2. フォントが小さい領域では、低解像度では十分な特徴点を検出できません。解像度を上げるとマッチング精度は向上しますが、消費時間も飛躍的に増加します。
  3. 初期位置を指定しないと、画像全体の検出とブルートフォースマッチングしか実行できません。特に複雑な画像や高解像度の画像の場合、検出して保存する必要がある特徴点の数が多すぎます。モバイルデバイスのパフォーマンスとメモリのオーバーヘッドは許容できません。
  4. 現在、端末モバイルデバイスには数十種類の画面解像度があり、アルゴリズムは複数の解像度に適応する必要があります。
  5. デバイス側の展開には、アルゴリズム ライブラリのパッケージ サイズ、パフォーマンス、メモリ使用量に関する要件があります。たとえば、OpenCV は慎重にトリミングした後でも 10 ~ 15 MB あり、オンライン アプリに直接統合することはできません。

理論的な研究と実践的な試行を経て、最終的に従来の CV (コンピューター ビジョン) + AI ソリューションを採用しました。ほとんどのシーンは、従来の CV に基づくコーナー フィーチャの検出とマッチングによって解決できます。見逃したものについては、ディープラーニング ネットワークを使用した検出と追跡を通じて結果を継続的に得ています。エンジニアリング展開でも対応する最適化が行われました。このソリューションの実装については、以下で詳しく紹介します。

画像マッチングプロセスの概要

画像マッチング アルゴリズムは、情報抽出とマッチング基準の 2 つの部分で構成されます。情報キャリアの2次元構造的特徴が保持されるかどうかに応じて、マッチングアルゴリズムは、次の図に示すように、領域ベースの情報マッチングと特徴ベースの情報マッチングに分けられます。画像マッチングプロセスの概要領域ベースの画像マッチング方法では、元の画像またはドメイン変更後の画像をキャリアとして使用し、情報の差が最も小さい領域をマッチング結果として選択します。この方法では、画像の変形、ノイズ感度などがうまく処理されません。特徴ベースの画像マッチング方法は、画像の2次元構造情報を破棄し、画像のテクスチャ、形状、色などの特徴と位置情報の記述を抽出し、マッチング結果を取得します。特徴ベースのアルゴリズムは、より堅牢で、情報マッチングのステップが速く、適応性が高く、より幅広い用途に使用できます。

従来の履歴書の特徴に基づいた画像マッチング

実際、このプロジェクトのアプリケーション シナリオは、典型的な ROI ( Region Of Interesting ) 領域の検出と配置です。従来の CV アルゴリズムには、輪郭の特徴、接続領域、色の特徴、コーナー ポイントの検出など、さまざまな使用シナリオに対応する成熟したアルゴリズムがすでに多数あります。コーナーポイント特徴は、中心ピクセルと周囲のピクセルの明るさの劇的な差に基づく特徴点であり、回転、拡大縮小、明るさなどの変化に基本的に影響されません。 コーナーポイントの検出方法としては、SIFT、SURF、ORB などが代表的であり、業界では関連する研究が数多く行われています。 2017年にE Karamiら[5]が発表した比較研究結果(下図参照)によると、ほとんどの場合、ORBが最も速く、SIFTが最良のマッチング結果を示している。ORBの特徴点は画像の中心に集中しているのに対し、SIFT、SURF、FASTは画像全体に分布している。 Meituan Daojia シナリオでは、ターゲット領域は画像の中央または四隅のどこにでも配置される可能性があるため、ORB がエッジ領域でターゲット領域と一致しない可能性が比較的高く、特別な処理が必要になります。

(a) SIFT (b) SURF (c) ORB マッチング結果: 異なる強度 (左) スケーリング (中央) 回転 (右)一般的に、優れた特徴検出およびマッチング アルゴリズムには、スケール不変性、回転不変性、および明るさ不変性という特性が必要です。これにより、より多くのアプリケーション シナリオに適応でき、優れた堅牢性を実現できます。以下では、ORB を例に、アルゴリズムの計算プロセスを簡単に説明します (ご興味があれば、より関連性の高い情報を参照してください)。 ORB = 方向付けされた FAST + 回転された BRIEF   (以下では OFAST と rBRIEF が代わりに使用されます)、ORB は FAST 特徴検出アルゴリズムと BRIEF 特徴記述アルゴリズムを組み合わせ、改良された OFAST 特徴検出アルゴリズムを使用して方向性を持たせ、回転不変性を備えた rBRIEF 特徴記述子を使用するなど、いくつかの改良を加えています。 FAST と BRIEF はどちらも非常に高速な特徴計算方法であるため、ORB は大幅なパフォーマンスの向上を実現しました。ピクセル p が FAST 特徴点であるかどうかを判断するには、周囲の 7x7 近傍に、p のグレースケール値と p のグレースケール値の差の絶対値がしきい値を超える N 個の連続したピクセルがあるかどうかを判断するだけで済みます。また、FASTが高速な理由は、まず上下左右の4点の結果から判断し、コーナーポイントの条件を満たさない場合は直接排除する。満たしている場合は、残りの12点を計算する。画像内のほとんどのピクセルは特徴点ではないため、このようにすることで、ディープラーニングの「錬金術師」の言葉を借りれば「基本的にポイントが失われない」という結果になり、計算時間が大幅に短縮される。隣接する特徴点の重複の問題については、最大値抑制を使用して重複を除去することができます。

近傍の 16 点の位置 (左)、上下左右の 4 点の位置 (右)改良された OFAST は、各特徴点の方向ベクトルを計算します。研究によると、特徴点の方向として明るさの中心と幾何学的中心を結ぶベクトルを使用すると、ヒストグラム アルゴリズムや MAX アルゴリズムよりも良い結果が得られます。

OFAST 方向ベクトルの計算ORB アルゴリズムの 2 番目のステップは、特徴記述子を計算することです。このステップでは rBRIEF アルゴリズムが使用され、各特徴記述子は 1 と 0 のみを含む長さ 128 ~ 512 ビットのベクトルになります。特徴点と特徴記述子を取得した後、特徴マッチングを実行できます。さらに、特徴マッチングアルゴリズムは数多く存在するが、ここでは計算を簡略化するためにLPM[6]アルゴリズムを使用する。フィルタリングされた特徴ペアを取得した後、それらの外接長方形の境界ボックスを計算し、元の画像座標系に逆変換して、ターゲット領域の位置座標を取得します。純粋な従来の CV アルゴリズム テストの結果から、特徴点の数がマッチング再現率に直接影響を与えることがわかります。特徴点が少ないと、再現率が低すぎてビジネス ニーズを満たすことができません。特徴点が 10,000 を超えると、特にモバイル デバイスではアルゴリズムのパフォーマンスに重大な影響が及び、ハイエンド モデルでは 1 秒以上かかることになります。対象領域画像と元画像に異なる数の特徴点を設定し、マッチングを行うことで、パフォーマンスとマッチング精度の両方を考慮できます。異なる設定パラメータで測定された特徴点とマッチング結果を下の図に示します。ほとんどの画像およびテキストコンテンツ領域では、特徴点が 5,000 を超えるとマッチング結果は良好ですが、マッチングに失敗する一般的な領域がまだあります。特徴点が 10,000 を超えると、一部の特殊なケースを除いて、ほとんどのシーンのマッチング結果は非常に満足のいくものになります。対象エリアのおおよその初期位置(実際の状況)が提供されない場合、ほとんどのエリアではマッチングに10,000~20,000個の特徴点が必要となり、エンドサイドのパフォーマンスが問題になります。

テスト結果: マッチング再現率は特徴点の数に直接関係している

ディープラーニングに基づく画像マッチング

従来の CV の欠点といくつかの解決不可能な問題に基づいて、画像マッチングを実行するには、より強力な画像特徴表現機能を備えたアルゴリズムが必要です。近年、ディープラーニングアルゴリズムは大きな進歩を遂げ、画像特徴マッチングの分野でも大きな成功を収めています。このアプリケーション シナリオでは、フルスクリーンのスクリーンショットでサブ領域の特定の位置をすばやく見つけるアルゴリズムが必要です。つまり、領域内のローカル エリアの特徴を通じて、グローバル特徴内の対応する位置をすばやく見つけるモデルが必要です。この問題はターゲット検出アルゴリズムを使用して解決できるようですが、一般的なターゲット検出アルゴリズムではターゲットのカテゴリ/意味情報が必要ですが、ここで一致させる必要があるのはターゲット領域の見かけ上の特徴です。この問題を解決するために、ターゲット検出に基づく画像追跡アルゴリズムを採用しました。つまり、ターゲット領域をアルゴリズムが追跡する必要があるターゲットと見なし、フルスクリーンのスクリーンショットで追跡するターゲットを見つけました。具体的な実装プロセスでは、GlobalTrack[7]に似たアルゴリズムを使用します。まず、対象領域に対応する特徴を抽出し、対象領域の特徴を使用して全画面スクリーンショットの特徴を変調し、変調された特徴に基づいて対象領域を特定します。モバイル デバイスの限られた計算能力に基づいて、プロセスを高速化するために GlobalTrack に基づくシングル ステージ ターゲット検出器を設計しました。 GlobalTrack 図ターゲット領域の特徴を直接使用してターゲット検出プロセスをガイドするため、純粋なテキスト、純粋な画像またはアイコン、テキストと画像の混合など、より複雑なターゲット領域を処理できます。下の図のいくつかの例に示すように、UI に表示される可能性のある要素はすべてターゲット領域になる可能性があります。

さまざまなサイズ カテゴリの組み合わせを含むターゲット領域の例とトレーニング データは、モバイル デバイス上のアプリ UI 画面の任意のローカル領域を正確に配置する必要があるビジネス シナリオと組み合わされます。上記で分析したように、この問題はターゲットの検出とマッチングの問題とターゲットの追跡の問題の両方として考えることができます。同時に、アルゴリズムは、さまざまなコンテンツ、さまざまな画面解像度、さまざまなモバイル デバイスを持つ ROI 領域に適応できる必要があります。

当社が選んだソリューション

前述のように、当社は CV + AI ソリューションを使用しています。このソリューションには、従来の CV 検出ではすべてのシナリオをカバーできないという問題を解決し、パフォーマンスを最適化してモバイル デバイスの消費時間を削減するという利点があります。エンジニアリング展開の面では、純粋な C を使用して検出およびマッチング アルゴリズムを実装し、ORB アルゴリズムにいくつかのカスタマイズされた変更を加えました。さらに、マルチスレッド、Neon 最適化などの手段を使用して、パフォーマンスを 800 ミリ秒から約 100 ミリ秒に向上させました。最終バージョンでは OpenCV やサードパーティのライブラリに依存しないため、アルゴリズム ライブラリのパッケージ サイズが大幅に削減されます。ディープラーニング モデルは、MTNN エンドサイド推論エンジンに基づいて、最適な推論パフォーマンスと精度を実現します。ミッド~ハイエンドモデルでは、異種ハードウェア並列アクセラレーションを有効にして、CVとAIを並列計算し、CPUで特徴検出計算を行い、GPUまたはNPUでモデル推論を行った後、融合を行うことが可能です。これにより、CPU負荷を増やすことなく、パフォーマンスと精度を向上させることができます。

タスク実行の堅牢性を確保する

タスク実行の認識

従来のソリューションを使用して開発を進める場合、関数コールバック、ブロードキャスト、コンポーネントの変更など、さまざまな方法でタスクの実行ステータスを取得できます。しかし、テクノロジー スタックに関係なく、ブート プロセスの障害を検出したり、ユーザーの実行/クリックが正しいかどうかを検出することは比較的困難です。同時に、エラーの種類を正確に特定し、特定のステップの再試行プランを追加し、スクリプトが可能な限りスムーズに実行されるようにする必要があります。 まれにブロックやエラーが発生した場合は、ユーザーへの影響を軽減するために、タイムリーな確認、エラー報告、終了ガイダンスが必要です。

タスク実行フローチャートまず、より洗練された「ブラック ボックス」ソリューションは、画像類似性比較テクノロジを使用することです。この機能モデルは、ビジュアル インテリジェンスでは比較的基本的なものです。ターゲット ページにジャンプした後、スクリーンショットが撮影され、ターゲット機能と比較されて、迅速なフォールト トレランスが実現されます。いくつかの極端なケースを除いた大量のオフライン テスト データに基づいて、さまざまなしきい値の下で規則性があることがわかりました。

  • 類似度が 80% を超える範囲では、基本的に対象ページが正確であり、一部のコーナー マークや画像ブロックの読み込みによる影響を受けていないと判断できます。
  • 類似度の範囲が 60% ~ 80% なのは、一部のリスト スタイルや背景画像とバナー画像のわずかな違いによるものです。ヒットはあいまいに判断できます (データは報告されますが、例外は報告されません)。
  • 類似度が 40% から 60% の範囲では、対応するモジュールの UI インターフェースが改訂されたか、ローカル ポップアップが発生している可能性が高くなります。このとき、例外をタイムリーに報告するには、何らかの再試行戦略が必要です。
  • 類似度が 40% 未満の場合、リダイレクト先のページがエラー ページであることはほぼ確実です。ブート プロセスを直接終了し、例外を報告できます。

同時に、コンテナ ルーティング URL の比較など、イメージ比較の決定を支援するためにクライアント側にもいくつかの判断ルールがあります。イメージ比較が一致しないがコンテナ ルーティング URL が正確な場合は、ポリシー調整と再試行ロジックが実行されます。ページが正確であることを確認した後、ハイライト領域の検索とその後の描画ロジックが実行されます。最後に、タイムアウトの失敗を通じてバックアップが自然に検証されます。スクリプト キー フレームの完全な判定プロセスのために、5 秒のタイムアウト戦略を設定しました。

スケールと回転の不変性について

スケールの堅牢性を高めるために、計算プロセスは最初にイメージをガウスぼかしてノイズの影響を除去し、画像をダウンサンプリングして各レイヤーで機能を検出し、すべての特徴ポイントのセットが出力されます。画像回転の状況に対処するために、rbrief追加することができます。以下の図は、青い四角いピクセルを使用してランダムなポイントペアをサンプリングする方法を示しています機能のマッチングレートを改善します。もちろん、他のオプションがありますが、ここにはリストされません。最初に、回転マトリックスは特徴点の方向ベクトルに従って構築され、回転変換はNポイントペアで実行され、各ポイントペアが特徴点の主要方向と一致し、ポイントペアに基づいて特徴ベクトルが計算されます。特徴ベクトルの主な方向は特徴ポイントと一致しているため、RBRIEFが任意の角度で回転した画像の同じ特徴点を検出できることを意味します。

図rbriefランダムピクセルペアの選択(左);

その他のフォールトトレランス

ページに複数の同一の要素または類似の要素があるシナリオの場合、どの領域を選択することはできません。したがって、ターゲット領域を見つけるときは、ターゲット領域の取得に基づいて参照領域を提供し、ターゲット周辺の情報と組み合わせる必要があります。操作中、ターゲット領域の画像情報が提供されます。ページに表示されるさまざまなテクノロジースタックのポップアップシナリオの場合、外観のタイミングが不確実であるため、ターゲット領域をブロックし、さまざまなポップアップウィンドウをフィルタリングして傍受する必要があります。ネイティブテクノロジースタックの場合、統一されたポップアップコンポーネントを傍受し、実行プロセス中にポップアップを禁止します。フラッターでは、グローバルな傍受が使用されます  NavigatorObserver   ​didPush   NavigatorObserver   didPush  さまざまなタイプのフラッターdidPush   、傍受、フィルタリングします  Widget   Dialog     Alert  ウィンドウ。 Web上の処理に関しては、Webポップアップウィンドウビジネスに参加しており、特に統一されたポップアップウィンドウの仕様はありません。一部のページ要素が複雑で、読み込み時間がわずかに長くなるシナリオの場合、スクリプトが再生されたときに記録側が提供する遅延内フィールドに基づいて、いくつかの遅延決定戦略が実装されます。以前の取り組みに基づいて、スクリプト実行リンクの成功率(下の図に示すように)は、基本的に98%以上に達する可能性があります。

いくつかのリンクインジケーターの監視

ゼロコードでスクリプトの作成と編集を完了します

スクリプトのライフサイクルは、「生産」と「生産」段階の2つの段階に分かれています。最初の2つの課題が主に「消費」に焦点を当てている場合、ここでの課題は主に「生産」に焦点を当てています。次に、「エンドサイドエンパワーメントの記録」と「標準プロトコル設計」という2つの側面から詳細な紹介を行います。

エンドサイドエンパワーメントの記録

統合された録音SDKは、モバイルデバイスの画面サイズによって制限されているため、詳細な作成を実行することが困難であるため、基本的なスクリプトフレームワークを作成および記録することです。このプロセスでは、SDKは最初にページの基本情報を記録する必要があります。レコーダーを調整して、バックグラウンドで詳細な作成を実行します。同時に、録音SDKは、ユーザーの意図を積極的に推測し、レコーダーの編集を減らす必要があります。キーフレームのエントリを2つのタイプに分割し、ページジャンプを生成し、異なるタイプの異なるパスを自動的に生成します。レコーダーの操作がページジャンプを引き起こすと、録音SDKは操作の分類を決定し、レコーダーの操作を減らすために次のキーフレームの説明として、その場所の音声入力を積極的にマークします。記録プロセス全体で、各ページの開幕時間は、レコーダーがスクリプトのリズムを調整するのに役立つ参照情報としてキーフレームの一部として記録されます。

スクリプト記録サイド図

標準プロトコル設計

「ゼロコード」の礎石として、標準プロトコルは、記録から編集までのプロセス全体を接続します。現在のアプリには、数十の操作ベースのガイダンスシナリオがあります。コアフィールドを抽出し、転送モデルとビューモデルを組み合わせて削除します。標準化と互換性を確保するという前提の下で、多数のシナリオが4つの一般的なイベントタイプに抽象化され、キーフレームの配置とビジネスシナリオのカバレッジが容易になります。メンタルスクリプトの場合、ユーザーのインタラクティブな操作により新しいブランチが引き続き生成され、最終的に複雑で冗長なバイナリツリー構造になります。このタイプのプロトコルを設計すると、バイナリツリーノードを平らにし、2つのキーフレーム間の接続を識別できます。ユーザーが特定のニーズに導かれるアプリを使用する場合、精神的および運用上のスクリプトがそれらの間を交互に行われます。たとえば、商人(ユーザー)がプロモーションページを開いた後、Xiaodaiアニメーションは声を伴っています。この時点で、ユーザーが1をクリックすると、「操作タイプ」スクリプトに切り替わります。そのため、プロトコルを設計するときは、2つのスクリプト間の接続に特別な注意を払う必要があります。ここでは、プロトコルを改良し、基本的な機能プロトコルをディスプレイプロトコルから分離しました。 2つのスクリプトは、互換性の問題を防ぐための一連の基本機能プロトコルを共有しています。

一部のプロトコルノード設計管理の背景にあるエディターエンジンがスクリプトプロトコルを解析すると、組み込みロジックの初期化が完了し、スクリプト内のイベントキーフレームのレンダリングをガイドします。エディターエンジンは、イベントメカニズムに基づいてサブスクライティング機能を実装しています。キーフレームが挿入、編集、調整など、他のすべてのキーフレームが上記のコアイベントをサブスクライブすることができます。編集および処理されたスクリプト契約は、Meituanの統一された動的配布プラットフォームに接続され、グレースケール、フルボリューム、およびパッチされたスクリプトの動的リリース機能を実現します。編集者は完全に組み込みのライフサイクルを備えており、操作のさまざまな段階で完全なイベントフックを公開し、優れたアクセスと拡張機能をサポートしています。

位相結果

能力開発

上記のように、2つの標準的なスクリプトスタイルを抽出しました。現在、新しいモジュールのテスト期間中に簡単にアクセスできる標準化されたフォームを繰り返しました。また、既存の複雑なモジュールのブートを設定することもできます。これは、デフォルトで「?」アイコンのナビゲーションバーに隠され、適切なタイミングでトリガーされます。

同時に、ユーザーのメンタル構築は、定期的な製品操作ガイダンスであるだけでなく、メンタルスクリプト(コンセプトスクリプトとも呼ばれます)も提供します。これは、「概念送信」または「コンセプト移植」が必要なシナリオに適用できます。適切なビジネスシナリオでは、プラットフォームのシステムと基準は、ユーザーがプラットフォームの概念をより簡単に受け入れることができるようにし、例えば、商人が悪いレビューを読む場合、コンテンツは一般的な現象であり、XXは悪いレビューである場合、規制の断固として、深刻なスクリプトはコンセプトの強化で実行できます(コンテンツは非常に公正なプラットフォームであり、複数の検査対策があるため、アピールに誤った資料をアップロードして、運でテストに合格しようとしないでください)。このプロセスで作成された画像機能の位置付け、ビデオアニメーション、その他の機能が技術保護区を完了しており、使用する他のシーンに提供できることに言及する価値があります。前の記事のコア技術コンテンツには、2つの国家発明特許が適用されています。

一部のビジネスのオンライン効果

  • 新しいストア成長計画は、スクリプト指向のガイダンスアプリケーションに対する最初の主要な需要です。新しい店舗成長計画の成功をサポートするプロジェクト、そして現在の結果は非常に肯定的です。 ASGは、プロジェクト全体のガイド付き再生量の78.1%をサポートしており、単一のスクリプトを開発するコストは0.5d未満です。包括的な観察指標「マーチャントタスクの完了度」は、前年比観察期間中に18%から35.7%に増加し、その他のプロセス指標もさまざまな程度に改善されました。
  • Super Value Exchangeは、精神的なガイダンスを提供し、プロセスデータに基づいて交換活動を作成するために商人をガイドします。
  • 配信情報のガイダンス、配信情報タスクの全体的なプロセスのアクションポイントガイダンスを最適化し、商人の行動の閉塞を引き起こすことを避け、ユーザーの運用コストを削減し、コストを理解し、営業段階での商人の満足度を改善し、同時に商人の配信サービスに対する認識を向上させます。
  • ...

2021年11月の発売以来、ASGは新しい店舗、イベント、マーケティング、広告などの多くのビジネスをサポートしており、Meituanの20以上のビジネスシナリオで実装しています。全体として、従来のガイダンスソリューションと比較して、ASGスクリプトスタイルのガイダンスは、約1/10のコストで約20%増加する可能性があるとほぼ推定できます。前の結果計算式を持ち込み、効率の多数( x =(1 /(1-90%)) *(1 + 20%)を改善します  )12回です。最終結果から判断すると、コストの削減は効果の改善よりもはるかに明白であるため、この記事では前者については後者よりも大幅に多く説明しています。現在、効果を改善するという点では、主にエンド機能の基本的な組み合わせを使用しています。

要約と展望

この記事では、ユーザーメンタルコンストラクションの分野におけるMeituan Takeoutターミナルチームの調査と実践を紹介します。現在のビジネス状況とスクリプトベースの思考から始めて、スクリプトアクセスのしきい値を簡素化するために、ターミナルと管理バックエンドのワンストップデザインについて話しました。その後、スクリプトの実行において、従来のCVとディープラーニングが果たす重要な役割についても説明しました。全体として、このプロジェクトは、ターミナルの能力を拡大する大胆な試みです。現在の段階的な結果に基づいて、次のステップの正確さを検証しました。「より低い生産コスト」と「より高いアプリケーション効果」の2つの視点(組み合わせた要素スクリプトの使いやすさ、スクリプトの更新コストの最適化、ルールエンジンとのガイダンスタイミングの組み合わせ、折り畳み、折りたたみ式のシナリオなど)さらに、ターミナルの「コンテナに依存しない」利益レバレッジが明らかであり、将来の開発の余地がまだたくさんあることを喜んでいます。誰もが私たちと話し合い、コミュニケーションをとることを歓迎します。

著者について

Songtao、Shangxian、Cheng Hao、Zhang Xue、Qingbinなど。

<<:  この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

>>:  テクノロジーフロンティア | 昆虫はIoT AIの未来となるか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。しかし、...

Dubbo 負荷分散戦略コンシステントハッシュ

この記事では、主にコンシステント ハッシュ アルゴリズムの原理とデータ スキューの問題について説明し...

Appleのアプリランキングアルゴリズム調整の裏側:ランキング管理企業が一夜にして沈黙

4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...

博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした

最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...

自動運転技術のアルゴリズムを研究するにはどのような知識が必要ですか?

自動運転システムには、環境認識と位置決め、行動予測、計画制御が含まれます。自動運転認識アルゴリズムエ...

...

エッジにAIを導入する3つのメリット

AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...

テーラーメイド:ChatGPTカスタム指示がAIパーソナライゼーション革命をリード

1. 概要カスタム指示「カスタム指示」は ChatGPT の新機能です。カスタム指示を使用すると、自...

金融規制当局が注意喚起:「AIによる顔の改変」などの新たな詐欺手法に注意

10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...

コグニティブ時代のIBMの新しいカスタマーサービスセンターは、人間と機械のコラボレーションでより大きな価値を生み出します

これは厳しい試練となるだろう年初に突然発生した疫病は、世界に「一時停止ボタン」を押し、伝統的な運営モ...

9つのディープラーニングアルゴリズムの紹介

1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...

在庫 | 今年の世界の AI 事情

​​​ [[253255]]​​ 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...

OpenAIは10月に開発された画像生成器DALL-E 3の新バージョンをリリースした。

OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DAL...

LeCun 氏と xAI 共同創設者の衝突: GPT-4 の主要な推論欠陥に対する解決策はないのか?ネットユーザー:人間も「ランダムなオウム」

最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...