[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマとしたWOTI2017グローバルイノベーションテクノロジーサミットが北京フラマルネッサンスホテルで開催されました。サミットでは、30 人以上の AI スターと、人工知能をテーマにした数十の素晴らしいスピーチや円卓フォーラムが徐々に披露されました。会場内での素晴らしい講演に加え、会場外にはAI愛好家向けに特別に作られたハンズオンラボや技術体験エリアもあり、見どころ満載のカンファレンスとなっています。 7月21日午後、WOTI2017のメイン会場で、uSensの技術研究開発担当副社長である馬源宇氏が「人工知能と仮想現実が出会うとき」と題した素晴らしい講演を行いました。以下はスピーチの書き起こしです、ちょっと覗いてみましょう!
みなさんこんにちは!弊社はLinggan Technologyで、英語名はuSensです。当社は、VR/ARの3次元ヒューマン・コンピュータ・インタラクションのコア技術に注力し、ソリューションを提供しています。当社はVRグラスやヘルメットなどの製品を開発していませんが、将来購入するARVR製品には当社の技術が組み込まれている可能性があります。 まず、VRAR 業界についての私たちの認識を簡単に紹介させてください。VR/AR のコア技術は、まず没入感です。VR は、モバイル フォンとは異なる体験、つまり没入感をユーザーにもたらすことができます。まず、インタラクションが必要です。VR では、インタラクション技術にマウスやキーボードは必要ありません。ほとんどのインタラクションはハンドルを使用しますが、ハンドルは最も自然なインタラクション方法ではありません。将来的には、手で直接つかむことが必要になる可能性があるため、現在では素手ジェスチャー インタラクション ソリューションのプロバイダーが存在します。 位置追跡機能もあります。一部のハイエンド VR デバイスでは位置追跡機能を提供できますが、これらは比較的高価であり、実装するにはコンピューターまたはホストに接続する必要があります。 VRにおいてもう一つ重要なのはディスプレイです。もちろん、当社はディスプレイ製品を製造しておらず、ディスプレイ技術は得意分野ではありません。そのため、私たちは主にインタラクティブテクノロジーに重点を置いています。没入感のもう 1 つの重要な点は、機動性です。追加の機器に接続する必要はなく、接続しない場合は狭い範囲でしか移動できません。モビリティとは、誰もが VR 効果を体験できるように、オールインワンデバイスまたはヘルメットを頭に装着することを意味します。 普及の最後の特徴は、価格が低く、普及しやすく、より多くのユーザーに利用してもらうことです。当社は主に VR/AR 技術に注力しており、HCI はヒューマン コンピュータ インタラクション インターフェイスです。主にジェスチャー認識、頭の回転追跡、頭の位置追跡を提供しています。最後の 2 つのポイントは組み合わせることができます。右側はディスプレイ技術です。VR/AR ディスプレイ技術は異なりますが、インタラクション技術はジェスチャーと位置追跡を使用する点で共通しています。 今後、VR/ARは3つの問題を解決する必要があります。1つは製品の断片化です。新しいハードウェアや新製品が登場すると、初期段階では常に多くの断片が存在します。たとえば、現在のAR製品では、市場を掌握したい企業はそれぞれ独自の製品をリリースしますが、他の製品が参入してくることを望んでいません。閉鎖的な環境では、企業は自社のゲームしかプレイできません。コンテンツも不足しています。携帯電話のVRコンテンツは比較的シンプルで体験の質も低いため、まだ技術の進歩の余地があります。 去年、一昨年はVR元年と言われていましたが、当時のVR/AR製品はどれもヘルメットでした。ヘルメットにスマホを差し込むだけでVR効果を体験できるのですが、実際に使ってみるとつまらない。これが最も基本的なVR体験でした。現在、大手メーカーの中には、より優れた没入感をもたらす VR 技術の開発に取り組んでいるところもあります。次世代の VR 製品は、すべてのユーザーに優れたユーザー エクスペリエンスをもたらすかもしれません。まずディスプレイ技術についてお話しします。これは弊社の研究の焦点ではないので、簡単に触れるだけにします。 ディスプレイ技術における中核的な指標は、視野角である FOV です。 AR ディスプレイに関して最も批判されるのは、視野角が狭いことです。しかし、周辺視野を考慮しなければ、人間の目の視野角は実際には 180 度です。しかし、より優れた没入感を実現するには、少なくとも 100 度に達する必要があります。これら 3 つは AR グラスであり、産業用グラスでもあり、いずれも AR です。主な指標は FOV、解像度、ハードウェア サイズです。 AR ヘルメットは拡大されたディスプレイ画面を収める必要があるため比較的大きいですが、VR ヘルメットは将来的に非常に小型化される可能性があります。弊社の技術のハイライトを以下に紹介します。 インタラクション技術では、ジェスチャーを 3 つのカテゴリに分類しています。1 つ目は象徴的なジェスチャー インタラクションです。たとえば、この人は OK ジェスチャーをします。これは、画像やその他のインタラクション手段を通じて認識できます。2 つ目は、ツールの保持です。たとえば、ハンマーを使用して釘を打つなどです。これは、ハンドルでうまくシミュレートできます。3 つ目は、手でオブジェクトに直接インタラクションすることです。これには、手の 3 次元モデルの正確な認識が必要です。 最初のタイプのハードウェア ゲーム コントローラーは、ゲーム コンソールで最も一般的に使用されていますが、3 つのいずれもこれを実現できません。 2 つ目のタイプは、VR でよく使用されるゲーム コントローラーです。オブジェクトとのやり取りに適しており、より自然です。ただし、1 番目と 3 番目のタイプの直接ジェスチャ インタラクションは実現できません。これら3つを実現したいなら、ハンドルの形状を認識する必要があります。 Hololens と同様に、クリックと、手を開いてメニューを表示するという 2 つのジェスチャを認識できます。インタラクションにはシンボリック ジェスチャを使用します。しかし、最後の 2 つの機能が欠けており、手で物体を正確に操作することも、手で物体をつかむこともできません。当社製品はこれら3つの機能を実現できます。 ハンドインタラクション技術の応用シナリオは非常に幅広く、ARシナリオだけでなく、ゲームでのジェスチャーインタラクション、3D UI、運転や仮想クリックコマンドなどにも応用されています。たとえば、一部の公共ディスプレイ環境では、衛生上の理由からユーザーが手で直接ボタンに触れたくないため、ジェスチャー認識が使用されます。外科手術では、消毒上の理由から、医師はキーボードやマウスを使用して操作することはできません。また、自宅のキッチンで料理をしているとき、画面をクリックしてメニューを切り替えることはできません。 以下は、AR上でのジェスチャー認識のデモです。ARグラスを通して、ジェスチャーは仮想のシーンで、他のシーンは現実のシーンで、ARを通して表示されます。この番号はジェスチャーを提供し、ジェスチャーを認識することができます。指先などを介してインタラクションし、指先と手の骨格全体を認識します。これは単なる技術デモです。昨年の記者会見で披露したデモです。ジェスチャー認識と位置追跡。右下隅が実際のシーンです。ヘルメットの中に見えるのは AR シーンです。初期にはジェスチャー インタラクション用のアルゴリズムも開発しました。これらは初期のビデオです。 (ビデオを再生) これは私たちが開発した、指先インタラクションを採用した最初のバージョンです。当時は指先しか認識できず、指先を使って空中を指し示したり描いたりすることができました。 2つ目のバージョンは、手の輪郭を認識するものです。カメラで捉えた手の画像は、3Dで輪郭を認識することができます。さらに、より速い動きも認識でき、指先だけでなく、あらゆる位置で3Dインタラクションが行えます。 2014年頃から、手の認識の問題を解決するためにディープラーニングアルゴリズムを使い始めました。実は、ジェスチャー認識を研究している人は多くありませんが、これも画像認識の問題です。顔認識や画像認識と同様に、ディープラーニングで行うことができます。動画もあります。これはディープラーニングを使って開発した26自由度のジェスチャー認識アルゴリズムです。ディープラーニングアルゴリズムを使うと、画像から手の関節、関節角度、位置を自動で識別することができます。 当社は、ジェスチャー認識とモーショントラッキングという 2 つのテクノロジーにも取り組んでいます。モーショントラッキングは長い間研究されてきました。最初はミサイルや航空機など空中での位置特定が必要な軍事分野で使用されていました。最適化された後、知能ロボット、無人車両、掃除ロボットにも使用されるようになりました。 VR/AR には空間測位技術も必要です。Google Tango、数年前にリリースされた Tango タブレット、Microsoft HoloLens、Qualcomm などの企業が、これらの空間測位技術を開発し、習得しています。一部のハードウェア メーカーはすでにこれらのリファレンス デザインを入手し、適用して非常に良好な結果を得ています。 Apple はしばらく前に ARKit をリリースしました。Facebook と Snapchat も同様の技術を持っており、関連するアプリケーションを開発したいと考えています。当社もAR技術と空間測位技術を完成させました。昨日、最初のバージョンをリリースしました。昨日は、Lenovoも自社の技術を統合したヘルメットをリリースしました。機会があれば、ぜひ試してみてください。 空間測位技術、比較技術、そしてシンプルなポピュラーサイエンス。空間測位技術では、視覚とセンサーの両方からの情報、視覚的特徴を組み合わせる必要があります。モデルはおおよそ次のようになります。カメラで撮影し、カメラを通して 3D ポイントを観察すると、画像が得られます。3D ポイントと画像は次の投影方程式を満たします。左側には、より一般的に使用される 3 つの問題がリストされています。 1 つ目は、3D ポイントの位置と 3D ポイントの投影です。以下の式にあるカメラの R と T を解く必要があります。 XYZ は不明ですが、その他は既知です。空間配置と三角測量の問題を同時に解決するには、この範囲内にある 2D 投影の U と V のみが既知である必要があります。 空間測位技術では、分類方法を簡単に説明します。SLAM 方式には 2 つのモジュールが含まれます。1 つは 3D ポイントの位置を認識するトラッキング モジュール、もう 1 つは 3D ポイントの位置を更新するマッピング モジュールです。視覚的特徴には 2 種類あり、1 つは画像の特徴点に基づくもので、もう 1 つはより古典的なオープンソース コードに基づくものです。近年では、ピクセルのグレースケールの違いを比較するために直接的な方法が使用されています。以下に、先ほどの方程式を解く 2 つの方法を示します。1 つはフィルタリング アルゴリズムであり、もう 1 つは方程式を直接最適化して連立方程式を解く最適化ベースのアルゴリズムです。これらの方法のどれが良いか悪いかは一概に言えませんが、実際のシステムでは、さまざまな方法を使用することで同様の効果が得られます。 今お話ししたのは視覚的な方法ですが、実はこの方法は近年実用レベルに達しています。センサーの進化とセンサー信号のアルゴリズムへの融合により、システムが改善されてきました。左のジャイロスコープでは、中央部分が高速回転すると装置全体が回転しますが、中央のローターの方向は変わらないため、装置の回転方向を求めることができます。しかし、この方法は数百年前の船舶では使われていたかもしれませんが、現在では高精度のジャイロスコープはすべてレーザーを使用しています。レーザージャイロスコープを使用すると、たとえばミサイルは数時間空中を飛行できますが、誤差はわずか数百メートル、つまり100メートル以内です。 このレーザー方式では、中央にレーザー光源があり、そこから2方向にレーザーが放射されます。物体が静止している場合、2本の光線の長さは同じで、2本の光線の位相差は0です。物体が回転すると、2本の光線の経路がわずかに変化し、途中で位相差が発生します。位相差を識別することで、装置全体の回転速度を知ることができます。ここにはファンが2つあります。物体が回転すると、物体は動きません。角度を特定することで、その回転速度を知ることができます。この小型ジャイロスコープの精度はレーザーに比べてはるかに低く、単独で使用しても目的の結果を得ることは不可能であるため、ジャイロスコープと視覚情報を組み合わせる必要があります。 IMU 内のジャイロスコープは隣接するカメラの回転角度を出力します。左の図は、タイムスロットカメラが 4 台あることを示しています。2 台のカメラ間の回転角度と加速度値は、IMU を通じて取得されます。実際の加速度値は、位置を直接推定することはできませんが、速度を推定するためにのみ使用できます。したがって、次の式には、角度、速度、位置を含む 3 つの方程式があります。最初の方程式は、次の瞬間の角度が、前の瞬間の角度に IMU によって推定された角度を掛けたものに等しいというものです。この角度には、IMU ドリフトとノイズも含まれます。2 番目の方程式は速度で、前の瞬間の速度に重力による速度と IMU によって読み取られた加速度を加えたものです。一番下の方程式は位置方程式で、速度による変位と加速度による変位を加算したものです。加速度による変位は 1/2 の 3 乗で、これは中学校の物理で習ったことです。したがって、IMU の制約はすべてこの式で表現されます。今紹介したのは、画像によって生成された数値です。これらすべての制約を足し合わせると、IMU と画像を融合したシステムの式が得られます。 実際のセンサーにはいくつか問題があります。まず、センサーのサンプリングは離散的であり、ドリフトがあります。たとえば、図の実線は実際の加速度ですが、IMUサンプリングは離散的であるため、サンプリングされず、結果が不正確になります。2番目に、IMUによって取得された加速度には重力が含まれます。実際には、重力によって発生する加速度は、通常の動きによって発生する加速度よりもはるかに大きいです。したがって、重力を除去するには、方向を正確に推定する必要があります。3番目に、IMUの位置とカメラの位置は絶対に一緒ではありません。それらの間には相対的な変位があり、工業生産上の理由により、両者の間には小さな角度差があります。いくつかの研究では、角度差が1度であっても、システム全体の精度に大きな影響を与えることがわかっているため、それらの間の角度と変位はオンラインで校正されています。4番目に、カメラのサンプリング周波数は約60、30ですが、IMUのサンプリング周波数は非常に高く、通常は500、800、1000で、サンプリング周波数とサンプリング時間も異なります。 これらの問題を解決するために、IMU のサンプリング レートは画像よりもはるかに高くなります。 2016年に、誰かが事前統合法に関する記事を発表しました。これは、画像間のすべてのIMU情報を集中させて単一の量として扱うため、フレームごとにIMUを微調整する必要がありませんでした。私の知る限り、これはすべてのシステムで使用されています。次に、これには正確なキャリブレーションが必要です。差が大きすぎると、システム全体が完全に崩壊し、機能しなくなります。最後の技術も非常に重要です。ATWです。人が動いてから、合成された仮想シーンが実際に動いているのを見るまでの時間は、20ミリ秒未満である必要があります。人が動き始めてから、見える光が変化するまでの時間は、20ミリ秒未満である必要があります。このようにして、ユーザーはVRアプリケーション中にめまいを感じません。 しかし、私たちのプロセス全体には多くの計算が含まれています。まず、画像取得の時間、アルゴリズム処理の時間、レンダリングの時間、そしてレンダリングされた結果の最終表示の時間です。これらのうちいくつかは予測可能であり、いくつかは IMU データを通じて取得可能であり、いくつかは予測のみ可能です。たとえば、ここにある最初の円は画像です。アルゴリズムが処理された後、2 番目のモーメントでは前の円の情報しか取得できません。しかし、実際には後半部分には IMU データがあり、ここで IMU データを統合できます。そのため、2 番目の円で取得した位置は比較的正確ですが、レンダリングと表示に関しては IMU 情報がまったくないため、後半部分は前のモデルを通じてのみ予測できます。後半部分の誤差は比較的大きいですが、このテクノロジにより遅延を大幅に削減できます。このテクノロジは現在、商用 VR 製品に使用されています。 当社の製品ハードウェアも、いくつかのイテレーションを経てきました。サイズと消費電力は以前よりもはるかに小さくなりましたが、すべてデュアルカメラを搭載しています。これらはいくつかの指標です。赤い線でマークされたものは、効果に大きな影響を与えます。 1 つ目は解像度です。これは全体的に露出する必要があります。携帯電話のカメラにはすべてシャッターがあり、露出時間が異なると精度に影響します。2 つ目はハードウェア同期です。デュアル システムを採用しているため、左カメラと右カメラは別々にではなく同時に写真を撮影する必要があります。 当社製品のサンプリングレートは 60 フレームから 120 フレームに達し、シャッター時間は 0.01 ミリ秒から 10 ミリ秒です。当社製品の目標は、インテリジェントなビジョン システムを作成することです。現在のアプリケーションは VR/AR シナリオですが、実際には、以下に挙げる将来のアプリケーションにも応用できます。1 つ目は広告機でのジェスチャー認識、2 つ目は車載ジェスチャー認識で、ロボットやドローンでの空間位置決めにも使用できます。以上です。みなさんありがとうございました! 51CTO の記者は、WOTI2017 グローバル イノベーション テクノロジー サミットの興味深いレポートを引き続きお届けしますので、どうぞお楽しみに! [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?
[[199326]]近年、人工知能の力強い台頭、特に昨年のAlphaGoと韓国のチェスプレイヤー、イ...
エンタープライズ グレードのインテリジェント オートメーションとは何ですか?エンタープライズ レベル...
リアルタイムで実行され、単一の NVIDIA RTX 2080 TI GPU を使用して HD 60...
はじめに:人工知能の開発プロセスは、多くの紆余曲折を伴う、3 つの上昇と 2 つの下降として説明でき...
最近は「顔カード」、つまり「顔を売る」という言葉をよく耳にしますが、あなたの「顔」が身分証明書や電話...
AIを活用して企業業務の自動化プロセスを加速し、デジタルトランスフォーメーションや業務プロセスのアッ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
人工知能、モノのインターネット、産業インターネットなどがもたらすインテリジェント化の波は、技術発展の...