アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

5月20日、アリババDAMOアカデミーXR研究室は、視覚的な位置測定の精度を確保しながら地図を250倍以上に圧縮し、携帯電話などのエンドデバイスに保存できる新しい3D位置測定マップ圧縮アルゴリズムを提案した。関連論文は、コンピュータービジョンのトップカンファレンスであるCVPR 2022に掲載されました。同研究室は独自に開発した3次元アルゴリズムの最適化を継続しており、マッピングや測位などのコア技術モジュールで多くの革新を実現していると報告されている。同研究室の論文の多くはトップクラスの国際会議で発表されている。

3D ビジュアル ポジショニングは、没入型インターネットのコア テクノロジーの 1 つです。標準的な 3D 視覚的位置決め方法では、特定のシーンの 3D マップを事前に構築し、特徴点をカメラで撮影した 2D 画像と照合してユーザーの位置と姿勢を計算する必要があります。しかし、3D マップはサイズが大きく、多くのストレージ容量を必要とするため、メモリや帯域幅が限られている携帯電話などのモバイル デバイスには展開できません。

業界では軽量 3D マップに関する多くの研究が行われてきました。DAMO アカデミーの XR ラボは、これまでの研究に基づいて、3D マップを 250 倍以上圧縮し、精度の低下を小さな範囲内に抑えて、モデル サイズと位置決め精度のバランスを実現する新しい方法、SceneSqueezer を提案しました。

SceneSqueezerは階層化戦略を使用して3Dマップを圧縮します

論文「SceneSqueezer: カメラの再ローカリゼーションのためのシーン圧縮の学習」によると、DAMO アカデミー チームは 3D マップを圧縮するために階層的な戦略を採用しました。まず、データベース イメージはペアの共視認性情報を使用してクラスタ化され、シーンは複数のクラスタに分割されて個別に圧縮されました。次に、最終的なポーズ推定精度に基づいて、チームは各イメージの特徴点を選択することを学習しました。最後に、特徴点の記述は特徴量子化法を使用して圧縮されました。このアルゴリズムは、Cambridge LandmarksAachen Day-Nightなどの屋外シーン データセットにおいて既存の方法よりも優れたパフォーマンスを発揮します。

DAMOアカデミーXR研究室の上級アルゴリズム専門家である董子龍氏は、XRチームが独自の3次元アルゴリズムシステムを開発し、マッピングやポジショニングなどのコア技術モジュールで多くのブレークスルーを達成したことを紹介しました。今年は、彼らの論文の多くがトップカンファレンスに選ばれました。例えば、Quadtree Attention for Vision Transformerは、視覚タスクに基づいてTransformerモデルのパフォーマンスを向上させる四分木アテンションメカニズムを提案し、トップディープラーニングカンファレンスICLR 2022に選出されました。Neural Window Fully-connected CRFs for Monocular Depth Estimationは、コンシューマーグレードのパノラマカメラを使用して深度推定タスクを完了できる単一カメラ深度推定アルゴリズムを提案し、3次元マッピングのコストを大幅に削減しました。この論文はCVPR 2022に採択されました。

杭州文山街にあるDAMOアカデミーのXRラボが開発した「ARチェックイン」プロジェクト

XRラボはDAMOアカデミーが新たに設立した研究所で、次世代のインターネット技術の研究に特化しています。チームが開発したARおよびVR技術は、越境電子商取引やデジタル都市エリアなど、さまざまなシナリオに応用されています。たとえば、杭州文山デジタルライフブロックに1:1復元された3次元「デジタルツイン」が構築され、杭州オリンピックスポーツセンターの10万平方メートルの地下駐車場にARナビゲーションサービスが開発されました。

<<:  人工知能が建築を変える3つの方法

>>:  人工知能のおかげで、赤信号待ちは過去のものになるだろう

推薦する

...

人工知能の3つの主要分野とその産業応用

人工知能は、人間の知能の拡張と拡大をシミュレートするための理論、方法、技術、アプリケーション システ...

ロボティックプロセスオートメーション技術の新たな展開

急成長するデジタル経済は、新たな世界的な科学技術の進歩の産物であり、新興のデジタル技術とインテリジェ...

新しいAIは「人間の脳に潜り込み」、どんな外見が最も魅力的かを理解できる

北京時間3月11日、外国メディアの報道によると、科学者らは最近、「人間の脳に潜り込み」、どのような顔...

トニー先生に別れを告げる:海外の専門家が流行中に独自の美容ロボットを製作

パンデミック中にどうやって髪を切っていますか?どうやって見た目を維持していますか?多くの人がオンライ...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

自動運転車向けエッジAIコンピューティングの可能性

自動運転はエッジコンピューティングの重要な応用分野です。自動運転には100~1000TOPSのエッジ...

...

Alimama は曲率空間学習フレームワークと連合学習ソリューションをオープンソース化し、共通の進歩のために AI 技術を一般に公開します。

9月15日、Alimamaは、曲率空間学習フレームワークと連合学習ソリューションという2つのAI技...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

「回帰分析」は本当に「機械学習」なのでしょうか?

「統計」と「機械学習」の違いは何ですか?これは数え切れないほど議論されてきた質問です。この問題につ...

...

Ctrip カスタマー サービス ロボット ASR エンジンの負荷分散の実践

著者についてCtrip の技術専門家である Yu Xiu 氏は、電話の音声およびビデオ通信やインテリ...

...

...