アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

5月20日、アリババDAMOアカデミーXR研究室は、視覚的な位置測定の精度を確保しながら地図を250倍以上に圧縮し、携帯電話などのエンドデバイスに保存できる新しい3D位置測定マップ圧縮アルゴリズムを提案した。関連論文は、コンピュータービジョンのトップカンファレンスであるCVPR 2022に掲載されました。同研究室は独自に開発した3次元アルゴリズムの最適化を継続しており、マッピングや測位などのコア技術モジュールで多くの革新を実現していると報告されている。同研究室の論文の多くはトップクラスの国際会議で発表されている。

3D ビジュアル ポジショニングは、没入型インターネットのコア テクノロジーの 1 つです。標準的な 3D 視覚的位置決め方法では、特定のシーンの 3D マップを事前に構築し、特徴点をカメラで撮影した 2D 画像と照合してユーザーの位置と姿勢を計算する必要があります。しかし、3D マップはサイズが大きく、多くのストレージ容量を必要とするため、メモリや帯域幅が限られている携帯電話などのモバイル デバイスには展開できません。

業界では軽量 3D マップに関する多くの研究が行われてきました。DAMO アカデミーの XR ラボは、これまでの研究に基づいて、3D マップを 250 倍以上圧縮し、精度の低下を小さな範囲内に抑えて、モデル サイズと位置決め精度のバランスを実現する新しい方法、SceneSqueezer を提案しました。

SceneSqueezerは階層化戦略を使用して3Dマップを圧縮します

論文「SceneSqueezer: カメラの再ローカリゼーションのためのシーン圧縮の学習」によると、DAMO アカデミー チームは 3D マップを圧縮するために階層的な戦略を採用しました。まず、データベース イメージはペアの共視認性情報を使用してクラスタ化され、シーンは複数のクラスタに分割されて個別に圧縮されました。次に、最終的なポーズ推定精度に基づいて、チームは各イメージの特徴点を選択することを学習しました。最後に、特徴点の記述は特徴量子化法を使用して圧縮されました。このアルゴリズムは、Cambridge LandmarksAachen Day-Nightなどの屋外シーン データセットにおいて既存の方法よりも優れたパフォーマンスを発揮します。

DAMOアカデミーXR研究室の上級アルゴリズム専門家である董子龍氏は、XRチームが独自の3次元アルゴリズムシステムを開発し、マッピングやポジショニングなどのコア技術モジュールで多くのブレークスルーを達成したことを紹介しました。今年は、彼らの論文の多くがトップカンファレンスに選ばれました。例えば、Quadtree Attention for Vision Transformerは、視覚タスクに基づいてTransformerモデルのパフォーマンスを向上させる四分木アテンションメカニズムを提案し、トップディープラーニングカンファレンスICLR 2022に選出されました。Neural Window Fully-connected CRFs for Monocular Depth Estimationは、コンシューマーグレードのパノラマカメラを使用して深度推定タスクを完了できる単一カメラ深度推定アルゴリズムを提案し、3次元マッピングのコストを大幅に削減しました。この論文はCVPR 2022に採択されました。

杭州文山街にあるDAMOアカデミーのXRラボが開発した「ARチェックイン」プロジェクト

XRラボはDAMOアカデミーが新たに設立した研究所で、次世代のインターネット技術の研究に特化しています。チームが開発したARおよびVR技術は、越境電子商取引やデジタル都市エリアなど、さまざまなシナリオに応用されています。たとえば、杭州文山デジタルライフブロックに1:1復元された3次元「デジタルツイン」が構築され、杭州オリンピックスポーツセンターの10万平方メートルの地下駐車場にARナビゲーションサービスが開発されました。

<<:  人工知能が建築を変える3つの方法

>>:  人工知能のおかげで、赤信号待ちは過去のものになるだろう

ブログ    
ブログ    

推薦する

あなたはキング・オブ・グローリーをプレイしていますが、誰かがiPhoneを使ってニューラルネットワークをトレーニングしています

知っていましたか? LeNet 畳み込みニューラル ネットワークは iOS デバイス上で直接トレーニ...

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング...

産業用ロボットは高給ですか?

産業用ロボットの雇用見通しはどうですか?近年、世界の産業用ロボット産業と市場は急速に発展しています。...

スマートテクノロジーは小売業界にどのような影響を与えるでしょうか?

過去数年間、小売業界はテクノロジーによって革命を起こしてきました。店舗の日々の運営方法から、消費者の...

データ構造の8つの一般的なソートアルゴリズム

[[172688]]序文8 つのソート アルゴリズムと 3 つの検索アルゴリズムは、データ構造におけ...

AIが3Aの傑作をプレイ、OpenAIは調査されるか? 2023年のAIパノラマレポートが10の予測を発表

State of Report は今年で 6 年目を迎え、人工知能分野の風向計となっています。業界お...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

【51CTO.comオリジナル記事】 1. はじめに11月1日、BaiduはPaddle Fluid...

これから「顔認証」の時代がやって来ますが、あなたの顔は安全でしょうか?

[[206222]] 【TechWebレポート】10月13日、Appleの携帯電話はバッテリー膨張...

DeepMindはAIを使ってチェスの新しいルールを作成する

今回、彼らは元チェス世界チャンピオンのウラジミール・クラムニクとチームを組み、AI技術にこの古代のボ...

AI システムを監査する際に尋ねるべき 9 つの質問

翻訳: ブガッティ企画:千山ほとんどの企業は、記録システムの IT 監査を毎年実施しています。しかし...

人工知能が買い物をより簡単にする

[51CTO.comより] 中国共産党第19回全国代表大会で「インターネット、ビッグデータ、人工知能...

...

...

研究はHPCを活用したAIの急速な成長を予測

Hyperion Research はハンブルクで毎年恒例の ISC HPC (ハイパフォーマンス ...