AR乾物、説明する時間がない、早く保存する

AR乾物、説明する時間がない、早く保存する

[51CTO.com からのオリジナル記事] 近年、AR は常に資本追求の焦点となってきました。 2016年の「爆発」と2017年の「休息」を経て、2018年までにAR市場環境は安定し、技術研究開発、製品応用、投資は大きな変動がなく、より安定しました。同時に、巨人の骨組みレイアウトも完成しました。 Google、Apple、Microsoftなどの海外大手はすでにARレイアウトを完成させており、BATなどの国内企業もAR SDKのリリースを完了しており、その一部はすでに開発者に利用されています。

では、なぜ AR はこれほど人気が​​あるのでしょうか?教えてあげましょう!

ARとは何ですか?

AR は Augmented Reality (拡張現実) の略称で、コンピュータシステムが提供する情報を通じてユーザーの現実世界に対する認識を高め、仮想情報を現実世界に適用し、コンピュータで生成された仮想オブジェクト、シーン、またはシステムプロンプト情報を現実のシーンに重ね合わせることで現実感を高める技術を指します。

おそらく多くの人は、その「近縁種」である VR (仮想現実) のほうが馴染みがあり、両者を混同することさえ多いでしょう。しかし、AR 技術の出現は仮想現実技術 (VR) の開発に端を発していますが、両者の間には依然として明らかな違いがあります。

ARとVRの違い

バーチャルリアリティ(VR)は、PCを使用して3次元空間で仮想世界をシミュレートします。視覚や聴覚などの感覚のシミュレーションをユーザーに提供し、3次元空間内のオブジェクトをタイムリーかつ制限なく観察できるため、実物と区別がつかないほどリアルな没入感を実現します。

拡張現実 (AR) は、カメラ画像の位置と角度、および画像分析技術を使用して、画面上の仮想世界を現実世界のシーンと組み合わせて相互作用することを可能にします。

簡単に言えば、VR技術はユーザーに仮想世界に完全に没入する効果を与え、別の世界を作り出します。一方、AR技術はコンピューターをユーザーの現実世界に持ち込み、仮想情報を聞く、見る、触る、嗅ぐことで現実世界の認識を高め、「人が機械に適応する」技術から「人中心の」技術への変革を実現します。

何?もっとシンプルにできますか?問題ありません。これが写真です:

これがVRです:

[[244904]]

これはARです:

[[244905]]

これで、2つの違いを理解し、うまく区別できるようになるはずです。とても良い!鉄は熱いうちに打って、AR の技術的原理を理解しましょう。

ARの技術的原理

ARは、その技術的手段と表現形式に基づいて、明確に2つのカテゴリに分けられます。1つはコンピュータービジョンに基づいたARであるビジョンベースARであり、もう1つは地理的位置情報に基づいたARであるLBSベースARです。

1. ビジョンベースのAR

コンピューター ビジョンに基づく AR は、コンピューター ビジョンの手法を使用して現実世界と画面のマッピング関係を確立し、描画したいグラフィックや 3D モデルを実際のオブジェクトに添付されているかのように画面に表示できるようにします。これはどのように行うのでしょうか?本質的には、実際のシーンで従属平面を見つけ、この 3D シーンの平面を 2D 画面にマッピングし、この平面に表示するグラフィックを描画します。技術的な実装方法から、次の 2 つのカテゴリに分けることができます。

(1)マーカーベースAR

この実装方法では、事前に作成されたマーカー(たとえば、特定の形状と仕様を持つテンプレートカードまたはQRコード)が必要であり、マーカーを現実の位置に配置します。これは、実際のシーンで平面を決定することと同じです。次に、カメラを介してマーカーを識別および評価し(姿勢推定)、その位置を決定します。マーカーの中心を原点とする座標系は、マーカー座標、またはテンプレート座標系と呼ばれます。実際に必要なのは、テンプレート座標系と画面座標系の間にマッピング関係を確立するための変換を取得することです。これにより、この変換に従って画面に描画するグラフィックは、マーカーに添付されたグラフィックの効果を実現できます。その原理を理解するには、3D射影幾何学の知識が必要です。テンプレート座標系から実際の画面座標系に変換するには、最初にカメラ座標系(カメラ座標)に回転して変換し、次にカメラ座標系から画面座標系にマッピングする必要があります。

実際のコーディングでは、これらの変換はすべて行列です。線形代数では、行列は変換を表し、座標に行列を左掛けすると線形変換になります (平行移動などの非線形変換の場合は、同次座標を使用して行列演算を実行できます)。式は次のとおりです。

行列 C の学名はカメラの内在パラメータ行列であり、行列 Tm はカメラの外部パラメータ行列と呼ばれます。 内在パラメータ行列は事前にカメラのキャリブレーションによって取得する必要がありますが、外部パラメータ行列は不明です。 画面座標 (xc、yc) と事前定義されたマーカー座標系および内在パラメータ行列に基づいて Tm を推定し、Tm に従ってグラフィックスを描画する必要があります (Tm の初期推定値は正確ではなく、反復最適化には非線形最小二乗が必要です)。 たとえば、OpenGL で描画する場合、グラフィックス表示のために Tm 行列を GL_MODELVIEW モードでロードする必要があります。

(2)マーカーレスAR

基本的な原理はマーカーベースの AR と同じですが、事前に特別なテンプレートを作成する必要がなく、十分な特徴点を持つ任意のオブジェクト (たとえば、本の表紙) を平面参照として使用できるため、AR アプリケーションにおけるテンプレートの制約がなくなります。その原理は、一連のアルゴリズム(SURF、ORB、FERN など)を通じてテンプレート オブジェクトから特徴点を抽出し、これらの特徴点を記録または学習することです。カメラが周囲のシーンをスキャンすると、周囲のシーンの特徴点を抽出し、記録されたテンプレートオブジェクトの特徴点と比較します。スキャンされた特徴点とテンプレートの特徴点の一致数がしきい値を超えると、テンプレートがスキャンされたとみなされ、対応する特徴点の座標に基づいてTmマトリックスが推定され、その後、Tmに基づいてグラフィックスが描画されます(この方法はマーカーベースARに似ています)。

2. LBSベースのAR

基本的な原理は、GPS を通じてユーザーの地理的位置を取得し、特定のデータ ソース (wiki、Google など) からその位置の近くにあるオブジェクト (周囲のレストラン、銀行、学校など) の POI 情報を取得し、モバイル デバイスの電子コンパスと加速度計を使用して、ユーザーのハンドヘルド デバイスの方向と傾斜角度を取得することです。この情報を通じて、実際のシーン内の対象オブジェクトの平面参照 (マーカーに相当) が確立されます。座標変換と表示の原理は、マーカー ベースの AR に似ています。

この AR 技術は、デバイスの GPS 機能とセンサーを使用して、アプリケーションのマーカーへの依存を解消します。ユーザー エクスペリエンスはマーカー ベース AR よりも優れています。さらに、マーカーの姿勢を認識して特徴点をリアルタイムで計算する必要がないため、パフォーマンスもマーカー ベース AR やマーカーレス AR よりも優れています。したがって、マーカー ベース AR やマーカーレス AR と比較して、LBS ベース AR はモバイル デバイスにより適しています。

ARシステム構成

完全な拡張現実システムは、緊密に接続されたリアルタイム ハードウェア コンポーネントと関連ソフトウェア システムのセットによって実装されます。一般的に使用されるコンポーネントは次の 3 つです。

1. モニターベース

コンピュータ ディスプレイ ベースの AR 実装では、カメラでキャプチャされた現実世界の画像がコンピュータに入力され、コンピュータ グラフィックス システムによって生成された仮想シーンと合成され、画面ディスプレイに出力されます。ユーザーは、最終的に強化されたシーンの画像を画面上で確認します。シンプルですが、ユーザーにあまり没入感を与えません。モニターベースの拡張現実システムの実装スキームを下図に示します。

このソリューションはハードウェア要件が非常に低いため、研究室の AR システム研究者によって広く採用されています。

2. ビデオの視点

ヘッドマウントディスプレイ (HMD) は、ユーザーの視覚的な没入感を高めるために仮想現実システムで広く使用されています。拡張現実技術の研究者も同様のディスプレイ技術を採用しており、ARで広く使用されている貫通型HMDです。具体的な実現原理により、光学原理に基づく光学シースルーHMDとビデオ合成技術に基づくビデオシースルーHMDの2つのカテゴリーに分けられます。光学遠近法拡張現実システムの実装スキームを下図に示します。

3. 光学的視点

上記の 2 つのシステム実装方式では、コンピューターに入力される情報のチャネルが 2 つあります。1 つはコンピューターによって生成された仮想情報チャネルであり、もう 1 つはカメラからの実際のシーン チャネルです。光学シースルーHMDの実装では、後者が排除されます。実際のシーンの画像は、ある程度の光量削減処理の後に直接人間の目に入り、仮想チャネルの情報は投影反射後に人間の目に入ります。この2つは光学的に合成されます。

光学遠近法拡張現実システムは、シンプルさ、高解像度、視覚的な偏りがないなどの利点がありますが、高い位置決め精度の要件、遅延マッチングの難しさ、視野が比較的狭い、価格が高いなどの欠点もあります。

ARの現実世界への応用

ARゲームを楽しもう

AR テクノロジーはゲームのプレイ方法に大きな革新をもたらしました。より馴染みのある「ポケモンGO」や「スパイロ・ザ・ドラゴン」は、いずれも非常に優れたARゲームです。将来のゲームでは複雑なシーンモデリングが不要になり、現実世界でプレイされるようになると同時に、多くの仮想的なものが現実世界に現れ、そこに重ね合わされるようになることを想像してみてください。それはなんと素晴らしい体験でしょう。ゲームは会場やスペースの制約からも解放され、いつでもどこでも始めることができるようになります。

「視点」を持って美術館を訪ねる

デトロイト美術館では、訪問者はTangoを搭載した携帯電話を使用して、エジプトのミイラの内部やその他の展示物を詳細に見ることができます。簡単に言えば、Tango はミイラの石棺の内部をスキャンした画像を携帯電話のスクリーンショットに重ね合わせ、ガーゼの最も内側の部分に隠された古代エジプトの骨格やその他の隠された芸術品を私たちの前に出現させます。まるでレントゲンの目を持っているようなものです。

家を離れずに家具を選ぶ

iStaging と呼ばれる Tango アプリケーションを使用すると、自宅にいながら家具の買い物ができ、3D シミュレーション図面を通じて、自宅の適切な場所に家具を仮想的に配置して、全体的な効果をプレビューすることができます。これらの家具の AR プレゼンテーションは、空間感覚とサイズの比率の点で優れており、IKEA のモデルルームを訪れたのとほとんど区別がつきません。

要約する

AR技術に関しては、国内の技術は海外の技術に比べて若干劣っていますが、応用面では我が国が依然として明確な優位性を持っています。一部の専門家は、2020 年までに AR が B サイドで爆発的に普及し始め、2025 年までに AR が本格的な流行を迎えると予測しています。これが本当にそうなるかどうかはまだ分からない。

[編集者:関崇 TEL: (010) 68476606]

<<:  Google: 人工知能、機械学習などを Wear OS オペレーティング システムに統合

>>:  世界はとても広い。AIがあなたと一緒に世界を旅します

ブログ    
ブログ    

推薦する

アリババが国際AIサミットを主催、医療AIとマルチメディアコンテンツ理解が話題に

10月15日、記者はアリババが主催する2020 ACMマルチメディア(以下、ACM MM 2020)...

MIT: この AI ソックスはあなたの行動を明らかにします | Nature サブジャーナル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GC アルゴリズムをアニメーション グラフィックで説明 - ガベージ コレクションを動かしましょう。

[[425799]] Java のガベージ コレクションに関しては、私と同じように、多くの友人が、...

Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能がスマート交通の発展に与える影響

[[262283]]時代の進歩とさまざまな技術の継続的な発展により、私たちの日常生活は大きな変化を遂...

ビデオPSツール!文字の非表示と透かしの除去:CVPRで発表されたこの研究はオープンソース化されました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ピリパインテリジェントファイナンス&タックス2018エンタープライズサービス+ウィズダムフォーラムが成功裏に終了

ピリパ・インテリジェンス・アンド・タックスが主催する2018年企業サービス+ウィズダムフォーラムが、...

人工知能はこれら12の分野に混乱をもたらし、ホワイトカラー労働者も職を失うことになるだろう

[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...

...

人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈

人工知能は社会を変えようとしています。民間企業、学界、政府を問わず、国レベルおよび国際レベルを問わず...

AIと機械学習のサイバーセキュリティという新興分​​野で考慮すべき3つのこと

[[343105]] [51CTO.com クイック翻訳] サイバー脅威の複雑さと数は時代とともに進...