Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明

Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明

日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪問する際に、商品の陳列仕様を確認する必要があります。従来の方法では、手動の統計が必要であり、時間がかかり、人件費が高く、データの信頼性が保証されません。日用消費財ブランドは、販売プロセスの精緻な管理を行うために、SFAやDMSなどのツールを活用し、デジタルトランスフォーメーションを推進し始めており、既存のデジタル販売における「コスト削減、効率化、販売促進」を実現するAI技術の活用を模索し、その大規模導入を推進し、最終的には業績成長を牽引しています。

EasyDL は、Baidu の PaddlePaddle フレームワークに基づいて立ち上げられた企業向けのワンストップ AI 開発プラットフォームです。Classic Edition、Professional Edition、Retail Edition の 3 つの製品が含まれます。さまざまなグループの人々やさまざまなシナリオのニーズを満たすために、効率的な AI モデルの開発と展開のためのプラットフォーム製品を提供します。その中で、Baidu EasyDL Retail Edition は、小売業の急速消費財業界のデジタル販売シナリオに焦点を当て、カスタマイズされた製品検出サービス、標準製品検出サービス、棚接合サービスなどのコア製品検出および認識モデルとサポートサービス機能を提供します。標準製品検出サービスは、トレーニングなしで直接使用できる製品検出 API を提供し、数千種類の一般的な飲料や日用化学製品の識別をサポートします。カスタマイズされた製品検出サービスは、使いやすいカスタマイズされたモデル ページを提供し、ユーザーは 5 つの手順だけで新しい製品認識モデルをカスタマイズできます。標準およびカスタマイズされた製品検出サービスはどちらも、画像内の製品名、ブランド、仕様、場所を返す機能をサポートしており、これを使用して、完全な棚上の製品レイアウト、棚シェア、製品分布などの表示指標をカウントするのに役立ちます。一部の店舗の棚は長いため、棚全体の商品陳列インジケーターを数えるには、棚の部分写真を複数枚つなぎ合わせる必要があります。そのため、棚の自動継ぎ合わせと商品のインテリジェント識別は、日用消費財業界における陳列監査の効率を向上させる上で重要なリンクとなっています。この需要に応えるため、Baidu EasyDL Retail Edition は棚接合サービスを開始しました。

Baidu PaddlePaddle EasyDL Retail Edition の棚ステッチング サービスは、複数の棚の部分画像またはビデオを組み合わせて完全な棚画像を作成することをサポートしています。また、カスタマイズされたまたは標準の製品検出サービスを使用して、部分的な棚画像で製品検出を実行し、製品検出結果をステッチされた完全な棚画像に出力します。これには、SKU の名前と数量が含まれます。長い棚での製品検出が必要なビジネス シナリオに適しており、クラウド サービスの呼び出し、オフライン SDK の展開、または APP の生成をサポートしています。次に、棚接合サービスの使い方と具体的な実装内容について見ていきましょう。

1. Baidu Paddle EasyDL棚接合サービス構造の概要

上図は棚継ぎサービスの全体構成の概要です。ユーザーは、1) クラウドサービス API を直接呼び出す、2) オフライン展開 SDK を使用する、3) 体験 APP を生成する、という 3 つの方法で利用および体験できます。

クラウド サービス API モードでは、ユーザーが結合する棚の写真をアップロード、照会、その他の操作を簡単に行えるように、タスクの作成、写真のアップロード、タスクの開始、結果の照会、タスクの終了、タスク リストの 6 つの API インターフェイスを提供します。このうち、クエリ結果 API では、タスク ステータスの進行状況に応じて、作成済み、キューに登録済み、実行中、成功、失敗、終了の 6 つのタスク状態が考えられます。次の図は、タスク ステータスの遷移図を示しています。

オフライン SDK は API をカプセル化し、ユーザーがさまざまなハードウェア環境に迅速に展開してオフラインで使用できるようにサポートします。これにより、ネットワーク環境がなくても、または予測結果を返すために高い同時実行性が必要なさまざまなシナリオのニーズを満たすことができます。

ユーザーはモデルの公開を完了すると、棚接合サービス ページで体験アプリを生成し、携帯電話にダウンロードして使用することを選択できます。体験アプリは、ユーザーが棚のビデオを撮影することをサポートし、アプリはビデオからフレームを自動的に抽出して棚の部分的な写真を取得します。ユーザーがまだモデルをリリースしていないが、アプリの使用を体験したい場合は、https://ai.baidu.com/easydl/app/1001/vas/img-stitch から招待許可を申請することもできます。手順は次のとおりです。

ラック組み立てプロセス全体で使用される主要なモジュールと機能は次のとおりです。

1) タスクマネージャー: タスク情報管理サービス。棚接合タスクのメタデータを管理し、タスクに対するユーザーのさまざまな操作を完了し、ユーザーデータを認証するなど、6 つの共通 A​​PI を提供します。

2) デーモン スケジューラ: 実行可能シェルフ スプライシング オフライン タスクのスキャンとスケジュール設定、タスクのフロー制御管理の実行、タスク実行の異常のチェックなどを行うバックグラウンド デーモン プロセス。

3)DagTask Scheduler: 有向非巡回グラフ (DAG) に基づいてタスクをスケジュールして実行します。棚接合のオフラインタスクプロセスは比較的複雑なため、いくつかのサブタスクに分割できます。一部のサブタスクは並列実行できます。全体的なオフラインタスクをDAG方式で整理して実行すると、タスクの実行効率が向上します。オフラインタスクの完全な構造については、後で詳しく説明します。

2. Baidu Paddle EasyDL棚接合オフラインタスク実装の詳細な説明

次に、オフライン タスクがどのように実装されるかを理解しましょう。棚スティッチング サービスは、ユーザーが複数のビデオまたは上から下へ、水平に撮影した棚の部分写真の複数セットをアップロードすることをサポートしています。棚スティッチング タスクは、棚の写真を水平方向と垂直方向に順番にスティッチングして、完全な大きな棚の写真を取得します。さらに、ユーザーは棚の部分写真を使用して Baidu EasyDL プラットフォーム上の製品検出モデルをトレーニングすることが多いため、部分写真を使用して製品検出用の API を呼び出し、スティッチング パラメータに従ってスティッチングされた大きな写真上の検出フレームの位置を調整する必要があります。プロセス全体は、次の 5 つのサブタスクに分けられます。

1) ユーザーが指定したカスタマイズまたは標準の商品検出モデル サービスを呼び出して、部分棚画像内の商品を検出し、部分画像上の商品名と検出ボックスの位置情報を取得します。

2) 左から右に撮影した棚の部分画像の各セットについて、つなぎ合わせた完全な棚画像を取得します。

3) ステップ 2 の後、N 個の棚画像のグループを水平方向につなぎ合わせて生成された大きな画像を取得し、N 個の大きな画像を垂直方向につなぎ合わせて、棚の最終的な完全な大きな画像を取得します。

4) 左から右に撮影された写真セットごとに、ステップ 2 でステッチ パラメータ セットが取得されます。このパラメータ セットを使用して、写真セットの製品検出フレームの位置を計算し、それに応じて変換、回転、伸縮などを行い、ステッチされた大きな画像上の対応する位置に検出フレームを水平に調整し、重なり合う部分が多い重複検出フレームを削除します。

5) ステップ 4 と同様に、ステップ 3 で生成されたステッチ パラメータを使用して、ステップ 4 の水平方向のキャリブレーション後に製品検出フレームを再度キャリブレーションし、最終的な大きな画像内の製品の位置を取得します。

プロセス全体は、次の DAG として構成できます。

上図から、タスクの開始時にはサブタスク 1 と 2 に依存関係がなく、並列実行できることがわかります。サブタスク 2 が成功すると、サブタスク 1 の結果を待たずにタスク 3 を実行できます。DAG 方式により、サブタスクを部分的に並列実行できるため、スプライシング タスク全体の処理速度が向上します。さらに、シェルフ イメージのステッチ サブタスクは、デプロイメント環境への依存を回避し、スケーラビリティを向上させるために、コンテナ化された方法で実行されます。リソース スケジューリング ツールにより、GPU、CPU、およびその他のリソースの競合が回避され、ステッチ タスクの信頼性が向上します。

3. Baidu Paddle EasyDLシェルフスプライシングアルゴリズムの詳細な説明

オフラインの棚接合タスク全体を見ると、その核となるのはやはり棚接合アルゴリズムです。アルゴリズムの設計によって接合タスクの速度、信頼性、精度が決まります。次に、シェルフスプライシングアルゴリズムについて詳しく紹介します。

3.1 シェルフスプライシングアルゴリズム

シェルフ スティッチング アルゴリズムは、本質的には画像スティッチング アルゴリズムのカテゴリに属します。画像スティッチング アルゴリズムには、現在、3 つの主な異なる方法があります。1) グローバル アライメント方式。ホモグラフィ マトリックスを使用して画像を位置合わせし、カメラ パラメータを解決して画像を変換および融合し、スティッチングされた画像を出力する。2) 空間変化描画方式。画像を密なグリッドに分割し、各グリッドをホモグラフィ マトリックスで位置合わせしてから、各グリッドを最適化および変形し、グローバル アライメントと同様の方法を使用してグリッド画像をスティッチする。3) シーム主導方式。画像間の継ぎ目を一致させることに重点を置きます。重なり合う領域全体を厳密に位置合わせするのではなく、継ぎ目付近の領域のみを位置合わせし、継ぎ目を介して画像スティッチングを実現します。

棚継ぎの場面では、一般的には携帯電話のパンで撮影する方法ですが、撮影角度がランダムだったり、撮影距離が短かったり、継ぎ合わせる写真の数が多かったりするなどの問題があります。前述の画像ステッチングアルゴリズムでは、グローバルアライメント方式では、各撮影中にカメラの光学中心がほぼ一致している必要があります。つまり、撮影中にカメラは純粋な回転運動しか実行できないため、撮影方法に高い要求が課せられます。空間変化描画法とシーム優位法は、一致する特徴内部点の数と品質に対する要件が高く、より多くのハイパーパラメータを調整する必要があります。計算の複雑さが大きく、ステッチング速度が遅いため、大量の画像のステッチングタスクには使用できません。したがって、上記の画像ステッチング方法では、棚ステッチングシーンに存在する問題をうまく解決できず、棚ステッチングに直接使用することはできません。

上記のシェルフスプライシングシナリオに存在する問題に対処するために、グローバルアライメント方式に基づいてスプライシングアルゴリズムを最適化しました。まず、任意の平行移動撮影角度の問題を解決するために、棚画像をステッチする前に入力棚画像を水平に補正し、すべての画像を同じ撮影視点に補正しました。これにより、撮影角度がステッチ効果に与える影響を効果的に軽減し、ステッチ効果が大幅に向上しました。第二に、入力棚画像の数が多い場合、ステッチの難しさを軽減し、ステッチの効率を向上させるために、入力棚画像を自動的にグループ化し、多数の画像の単一ステッチを少数の画像の複数の並列ステッチに分解することで、ステッチ時間を効果的に短縮できます。

グループ ステッチングのプロセスでは、グローバル アライメントに似た方法を使用して、1 つのグループの棚画像をステッチします。棚画像間のマッチング、変換、融合を通じて、各グループのステッチ画像を取得します。そして、複数グループのステッチング画像を結合し、棚全体のステッチング画像とステッチングパラメータを出力します。シェルフスプライシングアルゴリズムの全体的なプロセスは次のとおりです。

3.2. 重複SKU検出ボックスを統合して削除する

SKU 検出ボックスのマージと重複排除の全体的なフローチャート:

隣接する画像の重複部分にある SKU は両方の画像で検出されるため、これらの SKU を結合して重複を排除し、同じ SKU を削除する必要があります。具体的な手順は次のとおりです。

1) 各画像上で検出されたSKU検出フレーム座標は、棚接合パラメータに従って変換され、単一画像上のSKU検出フレーム座標は接合画像上のSKU検出フレーム座標に変換されます。

2) 現在の画像上の各 SKU 検出フレームについて、2 つの SKU 検出フレーム間に重なりがあり、重なり合った部分の交差和 (IOU) が特定のしきい値より大きい場合、2 つの SKU 検出フレームは同じ検出フレームに属すると判断されます。

3) 2 つの SKU 検出ボックスの座標と信頼度レベルが結合され、重複が排除されて、最終的な SKU 検出ボックスの座標が得られます。

4) すべての画像上のSKU検出フレームを結合して重複を排除した後、結合画像上の各種類のSKU検出フレームの数をカウントし、棚全体のSKUの種類と数量を取得し、棚全体のSKUの統計情報を出力することができます。

以上が、百度PaddlePaddle EasyDL小売版の棚継ぎサービスアーキテクチャとアルゴリズムの詳細の全内容です。百度ブレインは、日用消費財ブランドが販売プロセスの洗練された管理を全面的に支援するために、日用消費財企業のオフラインチャネルでの販売ロジックに基づいたAI技術に基づくデジタル販売ソリューションを発表しました。また、EasyDL小売版をベースに、写真認識、顔認識、店舗訪問ルート計画などのAI機能も提供し、ブランドが第一線の営業担当者の効率を効果的に向上させ、最終的に売上成長を達成できるように支援します。

現在、多くの小売業の日用消費財ブランドやサービスプロバイダーが、実際の業務でBaidu EasyDL Retail Editionを使用して、端末店舗の管理と実行の効率と有効性を高め、棚にある商品の実際の情報を正確に把握し、データ分析をより効率的かつ正確にし、意思決定時間を効果的に短縮し、市場運営と意思決定のインテリジェンスを実現しています。

ご興味がございましたら、詳細は公式サイトをご覧ください。 https://ai.baidu.com/easydl/retail

<<:  未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

>>:  本記事では、2019年の産業用ロボット開発業界の現状を解説します!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

タオバオライブストリーミングにおける機械学習に基づく帯域幅推定の探求と実践

背景メディア伝送における一般的な帯域幅推定アルゴリズムには、GCC/BBR/PCC/QUBIC など...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

AIが達成できること

半世紀にわたり、人工知能はコンピュータ開発の夢でしたが、常に手の届かないところにありました。しかし、...

再帰アルゴリズムと最適化アルゴリズムの比較

以前、「【インタビュー】 - 低速反応再帰」で 3 つの再帰アルゴリズムを読みました。フィボナッチ数...

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。こ...

...

Kaggle で競争する方法、全プロセスを解説

導入Kaggle は機械学習のコンペティションで最も有名なウェブサイトです。 Kaggle コンテス...

緩い時代は終わった:米国の自動運転規制環境は静かに厳格化している

米国の自動運転業界を取り巻く規制環境は静かに変化しつつある。過去10年間、米国は世界の自動運転分野に...

アプリケーションの利点はたくさんあります!チャットボットは経済の活性化に貢献する

時代の変化に伴い、インテリジェント技術の発展は新たな傾向を示し、人工知能などの技術はますます注目を集...

...

顔認識技術の倫理

顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...

5Gベースバンドに機械学習ユニットを追加:クアルコムには多くのAI脳の穴がある

最も先進的な AI テクノロジーは、最も広く使用されているモバイル チップに使用されています。最近、...

テスラは最初にこの問題の矢面に立たされ、自動運転の安全性の問題が再び話題となっている。

今日、自動運転は自動車産業の発展と変革の重要な方向性の一つとなっています。自動運転技術が成熟するにつ...