著者 | 宋涛、尚賢、小斌 他 アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たちは「スクリプトスタイル」の思考を試し、良い結果を得ました。アイデアを実装する場合、関連する研究開発の作業量が大きく、端末の技術スタックが多様であるため、「ゼロコード」と「技術スタックの独立性」を実現する必要があります。最終的には、「画像マッチング」や「標準プロトコル」などのコアソリューションを通じてブレークスルーを達成しました。この記事では、プロジェクトの思考プロセスを紹介し、主要な技術的ソリューションを分析および解釈し、関連する開発作業に従事する学生に刺激を与えることを目的としています。
背景インターネット業界のペースは速く、アプリのアップデートはますます頻繁になっています。ユーザーがアップデートのペースに追いつき、製品の機能を理解し、認知の反復を完了できるようにすることは、ビジネス開発において無視できない重要な部分です。同時に、「ローコード/ゼロコード」の概念は徐々に一般に認知され始めており、関連する研究報告では、「ローコード/ゼロコード」が企業のデジタル変革を加速できると指摘されています。美団の宅配事業グループを例に挙げると、巣ごもり経済が再び活発化した後、即時配達アプリの成長率は配達時間が長い他のアプリよりも高かった。多数の新規ユーザーの流入は、チャンスであると同時に課題でもあります。現在、美団の道家事業グループは、医薬品、グループ食事、フラッシュショッピング、用事、グループ商品、無人配達など10以上の事業ラインをカバーしています。新しいビジネスモデルは、新しい分野への挑戦を意味します。フードデリバリーの主要ビジネスも、平均して数日ごとに新しい機能モジュールをリリースします。これらすべてにおいて、ユーザーの意識構築と効率性の向上に注意を払う必要があります。 現状業界では、豊富で多様な軽いインタラクションや「ナニースタイル」のゲームガイドによる指導など、ユーザーの認知度を高め、サービスの認知度を高めるために多くの試みを行ってきました。これらの実装方法は、技術的なレベルでは、すべてアプリ内の機能ガイドであり、ユーザーは短時間で製品の機能と使用方法をすばやく理解できます。 「広告」「スローガンの発信」「現地プロモーションの紹介」などの従来のソリューションと比較して、アプリの機能ガイダンスは、低コスト、正確なカバレッジ、再利用性などの特徴を備えています。 一般的な機能ガイドアプリ 機能ガイドは、ユーザーマインドを構築するための「足がかり」です。ユーザーがプラットフォームの操作に慣れ、製品の機能を前提として理解して初めて、感情化、シーン認識、操作スキルなどの手段をさらに活用して、ユーザーマインドを構築することができます。アプリの機能が継続的に改良されるにつれ、ユーザーの間で「使い方が分からない」という現象が徐々に現れてきています。この現象は、特に美団のテイクアウト業者のクライアントで顕著です。 クライアントは、マーチャントの生産と運営の主要ツールとして、複雑で多様な業務機能を搭載しており、設定項目はさらに複雑です。マーチャントがクライアントの使い方を理解していない場合、運営システム全体に非常に悪影響を及ぼします。加盟店が「わかりやすく使える」ように、2021年第1四半期、Meituan Takeaway加盟店は機能ガイダンスのニーズに多くの人材を費やしました。プラットフォーム製品は加盟店のサポートに重点を置き、「感情ガイダンス」などのプロジェクトを試行しました。ビジネスの結果はプラスの利益を達成しましたが、その後の研究開発に長い時間がかかると見積もられたため、アイデアの実現は困難でした。同様のマーケティング、広告、商品、受注などの業務においても、需要を誘導するために一連の製品機能の迅速な反復と生産が必要であり、人員の問題によりバックログ状態になっています。 いくつかのガイダンス要件 目標と課題上記のような背景と現状を踏まえ、コストを抑えながら、ビジネス関係者がアイデアをより迅速に実現し、ユーザーの心をよりよく掴むことができるソリューションを早急に提供する必要があります。同時に、操作指導、機能紹介、感情化、真剣さなどのシナリオを含むがこれらに限定されない、現在のビジネスタスクのバックログを解決します。そこで、ASG ( Application Scripted Guidance ) スクリプトベースのガイダンス プロジェクトが誕生しました。 プロジェクトの目標私たちのプロジェクトの目標は、使いやすいスクリプトベースのガイダンスツールセットを構築することです。技術に詳しくない学生でも、制作と配信を自力で完了できます。従来のソリューションと比較して、コストが低く、効果も優れています。現在は主に「操作ガイダンス」や「マインドビルディング」などのシナリオで使用されています。 ここでの「スクリプト」という言葉をどのように理解しますか?実際のシナリオを導入し、望ましい目標をシミュレートし、ユーザーがこの目標を達成するための一連の操作指示を実行するように導くことです。ユーザーは、全体的なプロセスと、その中の接続とタイミングの関係を感じることができます。これは、ユーザーに段階的に提示される、事前に準備された小さなプログラムであり、対話が必要な場合と必要がない場合もあることも理解できます。スクリプトによる誘導方法は、以前はゲーム アプリで一般的でした。たとえば、火の敵に遭遇した場合、武器インターフェイスに移動して武器を選択し、それを水の宝石に置き換える必要があります。ここ2年ほどで、ディスプレイアプリやツールアプリでもスクリプトガイダンスが徐々に使われるようになりました。以前、美団のフードデリバリー業者側の「営業開始」、「模擬注文受付」などの指導要求は、同様のアイデアを採用していました。この方法はより先進的でしたが、開発コストが高く、その後の指導要求が滞る原因となっていました。 収益計算ロジックASG スクリプトベースの指導プロジェクトの利益計算ロジックは「コスト削減と効率向上」です。ここでの「効率」は「効率」と「効果」の両方を指します。結果データの計算式は、効率向上倍数 x = (1 / (1 - コスト削減率)) * (1 + 製品指標成長率) であるため、目標は次の 2 つの方向に分解できます。
課題
全体デザイン表示形式の選択プロジェクトの主題はどのような形式に基づくべきでしょうか?私たちの考えは、まず「良い結果」を決定し、次にこの形式で「より低いコスト」を達成することです。 「良い結果」が製品指標に反映されることは当然期待できますが、当初はデータ比較において各シナリオの指標が大きく異なり、異なる形態を横並びで比較するための基準を揃えることが困難でした。そこで私たちは、「学べば学ぶほど、より多くのことを知ることができる」という視点から推論し、プラットフォームを通じて届けられる情報がより多くのユーザーに受け入れられるかどうかで最終製品の効果を測定します。 過去に動画チュートリアルを収録したビジネスデータをいくつか選択しました。平均再生時間比率は約 50% ~ 66% で、ほとんどのユーザーは動画を最後まで視聴していませんでした。分析の結果、ユーザーによって理解速度が異なるため、動画コンテンツが魅力的でなかったり、ユーザーの理解速度に合わなかったりすると、長い動画コンテンツを視聴することが難しくなると考えられます。同時に、ビデオ通信は一方通行であり、対話性に欠け、スクリプトベースではありません。そこで、製品について話し合った後、いくつかのガイダンスのニーズに対応するために、実際のページ開発に基づいた、特定のスクリプト(左上隅に永続的なボタンがあり、ユーザーはいつでもガイダンスを終了できます)を使用したインタラクティブなガイダンス システムを試験的に導入しました。 パイロットの結果は私たちの期待通りでした。実際のページに基づいて開発されたインタラクティブなガイダンスは、確かにユーザーに受け入れられやすくなります。ガイド完了ステップの割合は76%~83%に達し、再生時間の割合は平均よりも大幅に高くなりました。実際、従来の表示形式には画像グループも含まれており、基本的にユーザーは機能に入る前にクリックする必要があります。これは、いくつかの推奨ガイダンス シナリオに適用できますが、中程度以上の複雑さのガイダンス ケースでは、ここでのデータは参考になりません。 収集したデータと基礎知識に基づいて、上記の 3 つのカテゴリを比較しました。結果は次の表のとおりです。 私たちの結論は、より良い結果を達成し、ユーザーに受け入れられやすいユーザー中心のガイダンスを設計したい場合、実際のページに基づいて開発することには明らかな利点がありますが、その欠点は開発コストが比較的高いことです。現時点では、このシンプルなパイロットで良好な改善結果が得られているため、当社の研究員は、より多くのクライアント機能と最適化を導入すれば、全体的な効果にさらなる改善の余地が生まれると確信しています。 プログラムの説明ASG スクリプト ガイダンス プロジェクトの対象者は、製品運用担当者です。私たちは、彼らの視点から、便利で効率的な「スクリプト ガイダンスの作成および配信ツール」とは何かを考えました。 製品運用の観点から見ると、上図に示すように、製品運用担当者に提供するインタラクションは、記録、編集、プレビュー、公開の 4 つのステップのみです。製品運用担当者がビジネス モジュールの起動をガイドする必要がある場合、スクリプトを作成し、この「要件」を 4 つのステップで完了するだけで済みます。プロセス全体では、R&D および設計担当者の参加はほとんど必要ありません。具体的な実施計画では、スクリプトガイダンスをテンプレート化して設計・配置し、ガイダンスの各アクションをイベントとして抽象化し、複数のイベントを組み合わせてスクリプトを形成しました。同時に、さまざまな端末との互換性を確保するために、スクリプト要素を記述するための標準的で簡単に拡張できるプロトコルのセットを設計しました。実行時に、PC 管理バックグラウンドとアプリはスクリプトを自動的に解析して実行可能なイベント (座標のクリック、ページナビゲーション、音声の再生など) に変換できます。コア機能モジュールはスクリプトの実行側にあります。より高いアプリケーション効果を確保するには、ガイダンスプロセスとユーザーインタラクションがすべて実際のビジネスページで実行される必要があり、表示される要素もリアルタイムで計算および描画される必要があるため、システムのパフォーマンスと精度に対する要件が高くなります。システムの全体像は下図の通りで、端末側、管理バックグラウンド、クラウドサービスの 3 つの部分で構成されています。 システムパノラマターミナル側: スクリプトの記録と再生の機能を含む 2 つの機能が含まれており、4 つの機能モジュールで構成されています。前処理モジュールは、スクリプト リソースのダウンロード、プロトコル解析、エンコードとデコードを担当し、スクリプトの正常な実行を保証するための前提条件です。リアルタイム コンピューティング モジュールは、スクリーン キャプチャ、機能マッチング、画像インテリジェンスを通じてスクリプトのアンカー要素に関する情報を動的に取得し、スクリプト ガイダンスの正確な表示を保証します。これは、スクリプト ガイダンス テクノロジ スタックの独立性を実現するためのコア リンクです。タスク スケジューリング モジュールは、主にイベント キューの実装を通じて、スクリプトの整然とした正確な実行を保証します。マルチメディア モジュールは、音声合成とモーション効果の描画を担当し、特定のビジネス シナリオでのスクリプト再生に没入感を提供します。同時に、PC側もクライアント側をベースに機能を拡張し、一般的なReact/Vue/SvelteのWebアプリケーションに低コストでアクセスして利用できるようになりました。管理バックエンド: スクリプトの編集、インポートと公開、権限制御、データ ダッシュボード、その他の機能モジュールが含まれます。スクリプト編集モジュールは、スクリプトプロトコルの分析、編集、プレビューという主要な機能を備えています。操作インターフェースは、機能に応じて次の領域に分かれています。
管理バックエンドクラウドサービス:Meituanの基盤となるクラウドサービスプラットフォームに依存し、スクリプトの編集が完了した後、リソースホスティングサービス、CDNなどを使用してリソースを管理および配布し、スクリプトの配布と更新を完了する必要があります。エンドサイド SDK とバックエンド ポリシー構成の共同作業により、ビジネス ミドル プラットフォームは、時間、都市、アカウントとストア、ビジネス タグなどのディメンションに基づく構成に対するビジネス側の要求を満たすために、よりきめ細かい配信構成とより豊富な連絡機会を提供します。 いくつかの技術的解決策の分析視覚情報に基づく地域位置特定ソリューションガイダンスプロセスでは、クリティカルパス上の対象領域にハイライト効果を設定する必要があります。技術スタックは無関係であるという前提の下で、基本的な考え方は、オフラインで対象領域をキャプチャし、オンラインで実行しているときに全画面のスクリーンショットを撮り、画像マッチングアルゴリズムを使用して全画面のスクリーンショットで対象領域の位置を見つけて、その領域の座標を取得することです(次の図を参照)。認識効果を強調するという全体的な考え方は単純に思えますが、具体的な実践では多くの課題に直面しています。
理論的な研究と実践的な試行を経て、最終的に従来の CV (コンピューター ビジョン) + AI ソリューションを採用しました。ほとんどのシーンは、従来の CV に基づくコーナー フィーチャの検出とマッチングによって解決できます。見逃したものについては、ディープラーニング ネットワークを使用した検出と追跡を通じて結果を継続的に得ています。エンジニアリング展開でも対応する最適化が行われました。このソリューションの実装については、以下で詳しく紹介します。 画像マッチングプロセスの概要画像マッチング アルゴリズムは、情報抽出とマッチング基準の 2 つの部分で構成されます。情報キャリアの2次元構造的特徴が保持されるかどうかに応じて、マッチングアルゴリズムは、次の図に示すように、領域ベースの情報マッチングと特徴ベースの情報マッチングに分けられます。画像マッチングプロセスの概要領域ベースの画像マッチング方法では、元の画像またはドメイン変更後の画像をキャリアとして使用し、情報の差が最も小さい領域をマッチング結果として選択します。この方法では、画像の変形、ノイズ感度などがうまく処理されません。特徴ベースの画像マッチング方法は、画像の2次元構造情報を破棄し、画像のテクスチャ、形状、色などの特徴と位置情報の記述を抽出し、マッチング結果を取得します。特徴ベースのアルゴリズムは、より堅牢で、情報マッチングのステップが速く、適応性が高く、より幅広い用途に使用できます。 従来の履歴書の特徴に基づいた画像マッチング実際、このプロジェクトのアプリケーション シナリオは、典型的な ROI ( Region Of Interesting ) 領域の検出と配置です。従来の CV アルゴリズムには、輪郭の特徴、接続領域、色の特徴、コーナー ポイントの検出など、さまざまな使用シナリオに対応する成熟したアルゴリズムがすでに多数あります。コーナーポイント特徴は、中心ピクセルと周囲のピクセルの明るさの劇的な差に基づく特徴点であり、回転、拡大縮小、明るさなどの変化に基本的に影響されません。 コーナーポイントの検出方法としては、SIFT、SURF、ORB などが代表的であり、業界では関連する研究が数多く行われています。 2017年にE Karamiら[5]が発表した比較研究結果(下図参照)によると、ほとんどの場合、ORBが最も速く、SIFTが最良のマッチング結果を示している。ORBの特徴点は画像の中心に集中しているのに対し、SIFT、SURF、FASTは画像全体に分布している。 Meituan Daojia シナリオでは、ターゲット領域は画像の中央または四隅のどこにでも配置される可能性があるため、ORB がエッジ領域でターゲット領域と一致しない可能性が比較的高く、特別な処理が必要になります。 (a) SIFT (b) SURF (c) ORB マッチング結果: 異なる強度 (左) スケーリング (中央) 回転 (右)一般的に、優れた特徴検出およびマッチング アルゴリズムには、スケール不変性、回転不変性、および明るさ不変性という特性が必要です。これにより、より多くのアプリケーション シナリオに適応でき、優れた堅牢性を実現できます。以下では、ORB を例に、アルゴリズムの計算プロセスを簡単に説明します (ご興味があれば、より関連性の高い情報を参照してください)。 ORB = 方向付けされた FAST + 回転された BRIEF (以下では OFAST と rBRIEF が代わりに使用されます)、ORB は FAST 特徴検出アルゴリズムと BRIEF 特徴記述アルゴリズムを組み合わせ、改良された OFAST 特徴検出アルゴリズムを使用して方向性を持たせ、回転不変性を備えた rBRIEF 特徴記述子を使用するなど、いくつかの改良を加えています。 FAST と BRIEF はどちらも非常に高速な特徴計算方法であるため、ORB は大幅なパフォーマンスの向上を実現しました。ピクセル p が FAST 特徴点であるかどうかを判断するには、周囲の 7x7 近傍に、p のグレースケール値と p のグレースケール値の差の絶対値がしきい値を超える N 個の連続したピクセルがあるかどうかを判断するだけで済みます。また、FASTが高速な理由は、まず上下左右の4点の結果から判断し、コーナーポイントの条件を満たさない場合は直接排除する。満たしている場合は、残りの12点を計算する。画像内のほとんどのピクセルは特徴点ではないため、このようにすることで、ディープラーニングの「錬金術師」の言葉を借りれば「基本的にポイントが失われない」という結果になり、計算時間が大幅に短縮される。隣接する特徴点の重複の問題については、最大値抑制を使用して重複を除去することができます。 近傍の 16 点の位置 (左)、上下左右の 4 点の位置 (右)改良された OFAST は、各特徴点の方向ベクトルを計算します。研究によると、特徴点の方向として明るさの中心と幾何学的中心を結ぶベクトルを使用すると、ヒストグラム アルゴリズムや MAX アルゴリズムよりも良い結果が得られます。 OFAST 方向ベクトルの計算ORB アルゴリズムの 2 番目のステップは、特徴記述子を計算することです。このステップでは rBRIEF アルゴリズムが使用され、各特徴記述子は 1 と 0 のみを含む長さ 128 ~ 512 ビットのベクトルになります。特徴点と特徴記述子を取得した後、特徴マッチングを実行できます。さらに、特徴マッチングアルゴリズムは数多く存在するが、ここでは計算を簡略化するためにLPM[6]アルゴリズムを使用する。フィルタリングされた特徴ペアを取得した後、それらの外接長方形の境界ボックスを計算し、元の画像座標系に逆変換して、ターゲット領域の位置座標を取得します。純粋な従来の CV アルゴリズム テストの結果から、特徴点の数がマッチング再現率に直接影響を与えることがわかります。特徴点が少ないと、再現率が低すぎてビジネス ニーズを満たすことができません。特徴点が 10,000 を超えると、特にモバイル デバイスではアルゴリズムのパフォーマンスに重大な影響が及び、ハイエンド モデルでは 1 秒以上かかることになります。対象領域画像と元画像に異なる数の特徴点を設定し、マッチングを行うことで、パフォーマンスとマッチング精度の両方を考慮できます。異なる設定パラメータで測定された特徴点とマッチング結果を下の図に示します。ほとんどの画像およびテキストコンテンツ領域では、特徴点が 5,000 を超えるとマッチング結果は良好ですが、マッチングに失敗する一般的な領域がまだあります。特徴点が 10,000 を超えると、一部の特殊なケースを除いて、ほとんどのシーンのマッチング結果は非常に満足のいくものになります。対象エリアのおおよその初期位置(実際の状況)が提供されない場合、ほとんどのエリアではマッチングに10,000~20,000個の特徴点が必要となり、エンドサイドのパフォーマンスが問題になります。 テスト結果: マッチング再現率は特徴点の数に直接関係している ディープラーニングに基づく画像マッチング従来の CV の欠点といくつかの解決不可能な問題に基づいて、画像マッチングを実行するには、より強力な画像特徴表現機能を備えたアルゴリズムが必要です。近年、ディープラーニングアルゴリズムは大きな進歩を遂げ、画像特徴マッチングの分野でも大きな成功を収めています。このアプリケーション シナリオでは、フルスクリーンのスクリーンショットでサブ領域の特定の位置をすばやく見つけるアルゴリズムが必要です。つまり、領域内のローカル エリアの特徴を通じて、グローバル特徴内の対応する位置をすばやく見つけるモデルが必要です。この問題はターゲット検出アルゴリズムを使用して解決できるようですが、一般的なターゲット検出アルゴリズムではターゲットのカテゴリ/意味情報が必要ですが、ここで一致させる必要があるのはターゲット領域の見かけ上の特徴です。この問題を解決するために、ターゲット検出に基づく画像追跡アルゴリズムを採用しました。つまり、ターゲット領域をアルゴリズムが追跡する必要があるターゲットと見なし、フルスクリーンのスクリーンショットで追跡するターゲットを見つけました。具体的な実装プロセスでは、GlobalTrack[7]に似たアルゴリズムを使用します。まず、対象領域に対応する特徴を抽出し、対象領域の特徴を使用して全画面スクリーンショットの特徴を変調し、変調された特徴に基づいて対象領域を特定します。モバイル デバイスの限られた計算能力に基づいて、プロセスを高速化するために GlobalTrack に基づくシングル ステージ ターゲット検出器を設計しました。 GlobalTrack 図ターゲット領域の特徴を直接使用してターゲット検出プロセスをガイドするため、純粋なテキスト、純粋な画像またはアイコン、テキストと画像の混合など、より複雑なターゲット領域を処理できます。下の図のいくつかの例に示すように、UI に表示される可能性のある要素はすべてターゲット領域になる可能性があります。 さまざまなサイズ カテゴリの組み合わせを含むターゲット領域の例とトレーニング データは、モバイル デバイス上のアプリ UI 画面の任意のローカル領域を正確に配置する必要があるビジネス シナリオと組み合わされます。上記で分析したように、この問題はターゲットの検出とマッチングの問題とターゲットの追跡の問題の両方として考えることができます。同時に、アルゴリズムは、さまざまなコンテンツ、さまざまな画面解像度、さまざまなモバイル デバイスを持つ ROI 領域に適応できる必要があります。 当社が選んだソリューション前述のように、当社は CV + AI ソリューションを使用しています。このソリューションには、従来の CV 検出ではすべてのシナリオをカバーできないという問題を解決し、パフォーマンスを最適化してモバイル デバイスの消費時間を削減するという利点があります。エンジニアリング展開の面では、純粋な C を使用して検出およびマッチング アルゴリズムを実装し、ORB アルゴリズムにいくつかのカスタマイズされた変更を加えました。さらに、マルチスレッド、Neon 最適化などの手段を使用して、パフォーマンスを 800 ミリ秒から約 100 ミリ秒に向上させました。最終バージョンでは OpenCV やサードパーティのライブラリに依存しないため、アルゴリズム ライブラリのパッケージ サイズが大幅に削減されます。ディープラーニング モデルは、MTNN エンドサイド推論エンジンに基づいて、最適な推論パフォーマンスと精度を実現します。ミッド~ハイエンドモデルでは、異種ハードウェア並列アクセラレーションを有効にして、CVとAIを並列計算し、CPUで特徴検出計算を行い、GPUまたはNPUでモデル推論を行った後、融合を行うことが可能です。これにより、CPU負荷を増やすことなく、パフォーマンスと精度を向上させることができます。 タスク実行の堅牢性を確保するタスク実行の認識従来のソリューションを使用して開発を進める場合、関数コールバック、ブロードキャスト、コンポーネントの変更など、さまざまな方法でタスクの実行ステータスを取得できます。しかし、テクノロジー スタックに関係なく、ブート プロセスの障害を検出したり、ユーザーの実行/クリックが正しいかどうかを検出することは比較的困難です。同時に、エラーの種類を正確に特定し、特定のステップの再試行プランを追加し、スクリプトが可能な限りスムーズに実行されるようにする必要があります。 まれにブロックやエラーが発生した場合は、ユーザーへの影響を軽減するために、タイムリーな確認、エラー報告、終了ガイダンスが必要です。 タスク実行フローチャートまず、より洗練された「ブラック ボックス」ソリューションは、画像類似性比較テクノロジを使用することです。この機能モデルは、ビジュアル インテリジェンスでは比較的基本的なものです。ターゲット ページにジャンプした後、スクリーンショットが撮影され、ターゲット機能と比較されて、迅速なフォールト トレランスが実現されます。いくつかの極端なケースを除いた大量のオフライン テスト データに基づいて、さまざまなしきい値の下で規則性があることがわかりました。
同時に、コンテナ ルーティング URL の比較など、イメージ比較の決定を支援するためにクライアント側にもいくつかの判断ルールがあります。イメージ比較が一致しないがコンテナ ルーティング URL が正確な場合は、ポリシー調整と再試行ロジックが実行されます。ページが正確であることを確認した後、ハイライト領域の検索とその後の描画ロジックが実行されます。最後に、タイムアウトの失敗を通じてバックアップが自然に検証されます。スクリプト キー フレームの完全な判定プロセスのために、5 秒のタイムアウト戦略を設定しました。 スケールと回転の不変性についてスケールの堅牢性を高めるために、計算プロセスは最初にイメージをガウスぼかしてノイズの影響を除去し、画像をダウンサンプリングして各レイヤーで機能を検出し、すべての特徴ポイントのセットが出力されます。画像の回転の状況に対処するために、rbriefを追加することができます。以下の図は、青い四角いピクセルを使用してランダムなポイントペアをサンプリングする方法を示しています機能のマッチングレートを改善します。もちろん、他のオプションがありますが、ここにはリストされません。最初に、回転マトリックスは特徴点の方向ベクトルに従って構築され、回転変換はNポイントペアで実行され、各ポイントペアが特徴点の主要方向と一致し、ポイントペアに基づいて特徴ベクトルが計算されます。特徴ベクトルの主な方向は特徴ポイントと一致しているため、RBRIEFが任意の角度で回転した画像の同じ特徴点を検出できることを意味します。 図rbriefランダムピクセルペアの選択(左); その他のフォールトトレランスページに複数の同一の要素または類似の要素があるシナリオの場合、どの領域を選択することはできません。したがって、ターゲット領域を見つけるときは、ターゲット領域の取得に基づいて参照領域を提供し、ターゲット周辺の情報と組み合わせる必要があります。操作中、ターゲット領域の画像情報が提供されます。ページに表示されるさまざまなテクノロジースタックのポップアップシナリオの場合、外観のタイミングが不確実であるため、ターゲット領域をブロックし、さまざまなポップアップウィンドウをフィルタリングして傍受する必要があります。ネイティブテクノロジースタックの場合、統一されたポップアップコンポーネントを傍受し、実行プロセス中にポップアップを禁止します。フラッターでは、グローバルな傍受が使用されます いくつかのリンクインジケーターの監視 ゼロコードでスクリプトの作成と編集を完了しますスクリプトのライフサイクルは、「生産」と「生産」段階の2つの段階に分かれています。最初の2つの課題が主に「消費」に焦点を当てている場合、ここでの課題は主に「生産」に焦点を当てています。次に、「エンドサイドエンパワーメントの記録」と「標準プロトコル設計」という2つの側面から詳細な紹介を行います。 エンドサイドエンパワーメントの記録統合された録音SDKは、モバイルデバイスの画面サイズによって制限されているため、詳細な作成を実行することが困難であるため、基本的なスクリプトフレームワークを作成および記録することです。このプロセスでは、SDKは最初にページの基本情報を記録する必要があります。レコーダーを調整して、バックグラウンドで詳細な作成を実行します。同時に、録音SDKは、ユーザーの意図を積極的に推測し、レコーダーの編集を減らす必要があります。キーフレームのエントリを2つのタイプに分割し、ページジャンプを生成し、異なるタイプの異なるパスを自動的に生成します。レコーダーの操作がページジャンプを引き起こすと、録音SDKは操作の分類を決定し、レコーダーの操作を減らすために次のキーフレームの説明として、その場所の音声入力を積極的にマークします。記録プロセス全体で、各ページの開幕時間は、レコーダーがスクリプトのリズムを調整するのに役立つ参照情報としてキーフレームの一部として記録されます。 スクリプト記録サイド図 標準プロトコル設計「ゼロコード」の礎石として、標準プロトコルは、記録から編集までのプロセス全体を接続します。現在のアプリには、数十の操作ベースのガイダンスシナリオがあります。コアフィールドを抽出し、転送モデルとビューモデルを組み合わせて削除します。標準化と互換性を確保するという前提の下で、多数のシナリオが4つの一般的なイベントタイプに抽象化され、キーフレームの配置とビジネスシナリオのカバレッジが容易になります。メンタルスクリプトの場合、ユーザーのインタラクティブな操作により新しいブランチが引き続き生成され、最終的に複雑で冗長なバイナリツリー構造になります。このタイプのプロトコルを設計すると、バイナリツリーノードを平らにし、2つのキーフレーム間の接続を識別できます。ユーザーが特定のニーズに導かれるアプリを使用する場合、精神的および運用上のスクリプトがそれらの間を交互に行われます。たとえば、商人(ユーザー)がプロモーションページを開いた後、Xiaodaiアニメーションは声を伴っています。この時点で、ユーザーが1をクリックすると、「操作タイプ」スクリプトに切り替わります。そのため、プロトコルを設計するときは、2つのスクリプト間の接続に特別な注意を払う必要があります。ここでは、プロトコルを改良し、基本的な機能プロトコルをディスプレイプロトコルから分離しました。 2つのスクリプトは、互換性の問題を防ぐための一連の基本機能プロトコルを共有しています。 一部のプロトコルノード設計管理の背景にあるエディターエンジンがスクリプトプロトコルを解析すると、組み込みロジックの初期化が完了し、スクリプト内のイベントキーフレームのレンダリングをガイドします。エディターエンジンは、イベントメカニズムに基づいてサブスクライティング機能を実装しています。キーフレームが挿入、編集、調整など、他のすべてのキーフレームが上記のコアイベントをサブスクライブすることができます。編集および処理されたスクリプト契約は、Meituanの統一された動的配布プラットフォームに接続され、グレースケール、フルボリューム、およびパッチされたスクリプトの動的リリース機能を実現します。編集者は完全に組み込みのライフサイクルを備えており、操作のさまざまな段階で完全なイベントフックを公開し、優れたアクセスと拡張機能をサポートしています。 位相結果能力開発上記のように、2つの標準的なスクリプトスタイルを抽出しました。現在、新しいモジュールのテスト期間中に簡単にアクセスできる標準化されたフォームを繰り返しました。また、既存の複雑なモジュールのブートを設定することもできます。これは、デフォルトで「?」アイコンのナビゲーションバーに隠され、適切なタイミングでトリガーされます。 同時に、ユーザーのメンタル構築は、定期的な製品操作ガイダンスであるだけでなく、メンタルスクリプト(コンセプトスクリプトとも呼ばれます)も提供します。これは、「概念送信」または「コンセプト移植」が必要なシナリオに適用できます。適切なビジネスシナリオでは、プラットフォームのシステムと基準は、ユーザーがプラットフォームの概念をより簡単に受け入れることができるようにし、例えば、商人が悪いレビューを読む場合、コンテンツは一般的な現象であり、XXは悪いレビューである場合、規制の断固として、深刻なスクリプトはコンセプトの強化で実行できます(コンテンツは非常に公正なプラットフォームであり、複数の検査対策があるため、アピールに誤った資料をアップロードして、運でテストに合格しようとしないでください)。このプロセスで作成された画像機能の位置付け、ビデオアニメーション、その他の機能が技術保護区を完了しており、使用する他のシーンに提供できることに言及する価値があります。前の記事のコア技術コンテンツには、2つの国家発明特許が適用されています。 一部のビジネスのオンライン効果
2021年11月の発売以来、ASGは新しい店舗、イベント、マーケティング、広告などの多くのビジネスをサポートしており、Meituanの20以上のビジネスシナリオで実装しています。全体として、従来のガイダンスソリューションと比較して、ASGスクリプトスタイルのガイダンスは、約1/10のコストで約20%増加する可能性があるとほぼ推定できます。前の結果計算式を持ち込み、効率の多数( x =(1 /(1-90%)) *(1 + 20%)を改善します )12回です。最終結果から判断すると、コストの削減は効果の改善よりもはるかに明白であるため、この記事では前者については後者よりも大幅に多く説明しています。現在、効果を改善するという点では、主にエンド機能の基本的な組み合わせを使用しています。 要約と展望この記事では、ユーザーメンタルコンストラクションの分野におけるMeituan Takeoutターミナルチームの調査と実践を紹介します。現在のビジネス状況とスクリプトベースの思考から始めて、スクリプトアクセスのしきい値を簡素化するために、ターミナルと管理バックエンドのワンストップデザインについて話しました。その後、スクリプトの実行において、従来のCVとディープラーニングが果たす重要な役割についても説明しました。全体として、このプロジェクトは、ターミナルの能力を拡大する大胆な試みです。現在の段階的な結果に基づいて、次のステップの正確さを検証しました。「より低い生産コスト」と「より高いアプリケーション効果」の2つの視点(組み合わせた要素スクリプトの使いやすさ、スクリプトの更新コストの最適化、ルールエンジンとのガイダンスタイミングの組み合わせ、折り畳み、折りたたみ式のシナリオなど)さらに、ターミナルの「コンテナに依存しない」利益レバレッジが明らかであり、将来の開発の余地がまだたくさんあることを喜んでいます。誰もが私たちと話し合い、コミュニケーションをとることを歓迎します。 著者についてSongtao、Shangxian、Cheng Hao、Zhang Xue、Qingbinなど。 |
<<: この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。
>>: テクノロジーフロンティア | 昆虫はIoT AIの未来となるか?
ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。しかし、...
この記事では、主にコンシステント ハッシュ アルゴリズムの原理とデータ スキューの問題について説明し...
4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...
最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...
自動運転システムには、環境認識と位置決め、行動予測、計画制御が含まれます。自動運転認識アルゴリズムエ...
AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...
1. 概要カスタム指示「カスタム指示」は ChatGPT の新機能です。カスタム指示を使用すると、自...
10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...
これは厳しい試練となるだろう年初に突然発生した疫病は、世界に「一時停止ボタン」を押し、伝統的な運営モ...
1. 2段階アルゴリズム2 段階アルゴリズムには、候補ボックスの選択とターゲットの分類/位置の修正...
[[253255]] 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...
[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...
OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DAL...
最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...