ARにおける人工知能

今年3月、上海市経済情報化委員会は、同市の人工知能の革新と発展を支援する2018年特別プロジェクトの第1弾を発表した。国内の代表的なAR企業であるLiangfengtaiを含む合計19の革新企業が最終候補に選ばれた。この特別プロジェクトは経済情報化委員会と市財政局が共同で実施しており、支援予定額は1億元以上となる。 AR 企業が AI カテゴリーにまとめられるのは今回が初めてではありませんが、この分類が一般的になったのも今回が初めてではありません。 AR/VR は双子の兄弟として語られることが多く、一般的にはアプリケーション層の新しいテクノロジー、または「スマートウェアラブルデバイス」と考えられています。人工知能の「アルゴリズム」というラベルと比較すると、AR/VR は十分に深く、十分に含蓄があり、十分に洗練されていないようです。では、AR と人工知能の関係は何でしょうか。 AR は、今日私たちが知っている人工知能に属するのでしょうか?

まずはARのコア技術を簡単に整理してみましょう

AR (拡張現実) は、仮想情報を現実世界に重ね合わせる、つまり現実を「強化」するプロセスです。この強化は、視覚、聴覚、さらには触覚によって実現されます。主な目的は、感覚知覚の面で現実世界と仮想世界を統合することです。

その中で、現実世界の認識は主に視覚に反映されており、情報を取得し、画像や動画の形でフィードバックを提供するためにカメラを使用する必要があります。ビデオ分析を通じて、シーンの 3D 構造、内部にあるオブジェクト、空間内の位置など、3 次元の世界環境を認識し、理解することができます。 3D インタラクティブ理解の目的は、何を「強化」するかをシステムに通知することです。

図: 典型的な AR プロセス

いくつかの重要なポイントがあります:

1つ目は3D環境の理解です。見たものを理解するには、主に物体/シーンの認識と位置決めの技術に頼ります。識別は主に AR 応答をトリガーするために使用され、位置決めは AR コンテンツをオーバーレイする場所を知るために使用されます。測位は精度によって粗測位と精密測位に分けられます。粗測位はエリアや傾向など大まかな方向性を定めるものです。精密な位置決めには、3D 座標系の XYZ 座標やオブジェクトの角度など、ポイントツーポイントの精度が必要になる場合があります。アプリケーション環境に応じて、AR では両方の次元の位置決めにアプリケーションのニーズがあります。 AR 分野では、一般的な検出および認識タスクには、顔検出、歩行者検出、車両検出、ジェスチャー認識、生体認証、感情認識、自然シーン認識などがあります。

現実の3D世界を知覚し、それを仮想コンテンツと統合した後、この仮想と現実の融合情報を特定の方法で提示する必要があります。ここで必要なのは、ARの2番目の重要な技術であるディスプレイ技術です。現在、ほとんどのARシステムはパースペクティブヘルメットディスプレイを使用しており、ビデオパースペクティブと光学パースペクティブに分かれています。その他の代表的なものとしては、ライトフィールド技術（主にMagic Leapで有名）、ホログラフィックプロジェクション（SF映画やテレビドラマによく登場）などがあります。

AR の 3 番目の主要技術は、重ね合わせた仮想情報と人が対話できるようにするヒューマンコンピュータインタラクションです。AR は、音声、ジェスチャー、姿勢、顔など、タッチボタン以外の自然なヒューマンコンピュータインタラクション方法を追求しており、音声とジェスチャーがより頻繁に使用されます。

人工知能とARの技術的なつながり

人工知能の分野では、ディープラーニング（DL）や機械学習（ML）など、よく言及される概念がいくつかあります。学術分野では、人工知能（AI）を含むいくつかの主要分野が独自の研究境界を持っています。一般的な意味では、私たちは「機械を人間のようにする」技術のすべての応用方向をカバーする汎用人工知能についてよく話します。

この図から、3つの関係性も簡単に垣間見ることができます。ディープラーニングは機械学習を実現するための技術的な方法であり、機械学習は機械をインテリジェントにして人工知能を実現することです。人工知能は究極の目標であり、機械学習はその目標を達成するために拡張された技術的な方向性であると言えます。その中には、コンピュータービジョン（CV）と呼ばれるもう1つの重要な概念があります。これは主に、機械が人間のように「見る」方法を研究するものです。これは、現在の人工知能の概念の重要な分野です。これは、人間が情報を取得する主な方法の1つが視覚であるためです。現在、コンピュータービジョンは、顔認識、自動運転のナビゲーションのための交通信号の読み取りと歩行者への注意、産業用ロボットを使用して問題を検出する制御プロセス、3次元環境の再構成画像の処理など、商業市場でその価値を発揮しています。これらの概念には違いがあり、ある程度重複する部分もあります。

中でも、ヒントン氏が引き起こしたディープラーニングブームは2006年に広がり始め、ある程度AIの再興につながりました。過去10年間で、音声認識、コンピュータービジョン、自然言語処理など多くの分野で大きな進歩が遂げられ、応用分野にも広がり、本格的な発展を遂げています。

AR のコア技術のうち、3D 環境理解、3D インタラクション理解、コンピュータービジョン、ディープラーニングは密接に関連しています。学術界では、3D 環境の理解は主にコンピュータービジョンの分野に相当し、近年、コンピュータービジョンではディープラーニングが広く使用されています。インタラクションの面では、近年の関連分野におけるディープラーニングの進歩により、ハードウェア端末ではジェスチャーや音声など、より自然なインタラクション方法が使用されるようになりました。 ARにおけるディープラーニングの応用は、主にキービジュアル技術にあるとも言えます。

現在、ARの最も一般的な形式は2D画像のスキャンと認識であり、テンセントQQ-ARトーチイベントやアリペイファイブフォーチュンなど、ほとんどのARマーケティングに見られます。携帯電話を使用して認識画像をスキャンすると、コンテンツが重ね合わされますが、主な研究開発の方向は依然として3Dオブジェクト認識と3Dシーンモデリングにあります。

現実の物体は、さまざまな角度と空間の向きで 3D 形式で存在します。したがって、2D 画像認識から 3D オブジェクト認識へと自然に拡張され、オブジェクトのカテゴリと姿勢を識別し、ここでディープラーニングを使用できます。果物の認識を例にとると、さまざまなカテゴリの果物を識別し、位置決め領域を指定できるため、物体認識と検出の機能が統合されます。

3D シーンモデリングは、3D オブジェクトの識別から、より大規模で複雑な 3D 領域まで拡張されます。例えば、シーン内に何があるのか、それらの空間的な位置や関係性などを識別する。これが AR のコア技術である 3D シーンモデリングです。これには、現在普及している SLAM (リアルタイムの位置特定とマッピング) が含まれます。シーンをスキャンすることで、仮想戦場などの3次元仮想コンテンツが重ね合わされます。通常の2D画像認識をベースとする場合、特定の画像が必要となり、画像が見えない場合は認識に失敗します。 SLAM テクノロジーでは、特定の平面が存在しない場合でも、周囲の 3D 環境の助けにより、空間位置決めは非常に正確です。

ここでは、ディープラーニングとSLAM技術の統合について説明したいと思います。コンピュータービジョンは、大きく分けて2つの流派に分けられます。1つは、特徴抽出、特徴分析、分類などの学習に基づいています。現在、ディープラーニング技術はこのルートで支配的な地位を獲得しています。もう一つのアプローチは、線やエッジ、3D形状から物体の空間構造情報を推測する幾何学視覚に基づくもので、代表的な技術はSFM/SLAMです。ディープラーニングは基本的に学習の分野を支配していますが、幾何学的視覚の分野ではほとんど進歩がありません。学術的な観点から見ると、ディープラーニング技術の研究進歩は日々変化していると言えますが、SLAM技術の過去10年間の進歩は比較的小さいと言えます。 2015年国際ビジュアルコンピュータビジョン会議が主催したSLAM技術シンポジウムでは、近年の視覚分野におけるディープラーニングの急速な発展を踏まえ、SLAMにディープラーニングを活用する可能性を提唱する専門家もいたが、まだ成熟したアイデアは存在しない。一般的に、ディープラーニングと SLAM の統合は短期的には研究する価値のある方向であり、セマンティック情報と幾何学的情報の組み合わせは長期的には非常に価値のあるトレンドです。したがって、SLAM+DLは期待する価値があります。

インタラクション方式としては、音声認識とジェスチャー認識が主なものとなっています。音声認識は現在大きな進歩を遂げており、百度、iFlytek、Unisoundなどの国内企業がトップクラスです。AR企業が突破口を開きたいのは、ジェスチャー認識の成熟した商用化です。例えば、Liangfengtaiはディープラーニングに基づくジェスチャー認識システムを実証しており、主に上、下、左、右、時計回り、反時計回りの6つのジェスチャーを定義しています。まず人間の手の検出と位置決めを実現し、次に対応するジェスチャーの軌跡を識別することで人間のジェスチャーを認識します。顔認識など、人工知能の他の人気分野も AR で使用されていますが、AR 企業にとって重要な研究開発の方向ではありません。

以上のことから、AR の基盤技術や基礎部分はコンピュータービジョンと関連分野の統合であり、現在流行しているディープラーニングと AR の組み合わせもアルゴリズムエンジニアの努力の方向であることが容易にわかります。これは、AR がコンピュータービジョンと人間とコンピューターのインタラクションの学際的な分野であり、AR の基礎は人工知能とコンピュータービジョンであるという主張の根拠でもあります。

図: コンピュータビジョンと AR プロセスの関連

今日頭条が昨年発表した「人工知能インパクトレポート」でも、顔認識、音声認識、ロボット工学、AR、チップなどの分野の企業や大規模な研究開発機関を含む人工知能科学者の分布を簡単に集計しました。ハイエンドの研究開発人材の分布は、AI分野の細分化の方向性も示しています。

では、AR は人工知能なのでしょうか?

AR実践者にとって理想的な状況は、スマートフォンをよりスマートなAR端末に置き換えることです。したがって、ユーザーにとって、ARの影響を受けるのはまずコンテンツであり、次に端末です。AR業界チェーンを大まかに分けると、テクノロジープロバイダー、スマート端末の研究開発企業、ARコンテンツプロバイダーが含まれます。このうち、AR デバイスプロバイダーは、基盤となるチップ、バッテリー、光学レンズなどのハードウェア技術と、ハードウェア自体のパフォーマンス最適化に重点を置く傾向が強いのに対し、コンテンツプロバイダーは、既存の技術に基づいてコンテンツとパフォーマンスを最適化する傾向があります。したがって、AR 技術プロバイダー、または基礎となるアルゴリズムの研究開発で一定の成果を達成した AR 企業は、人工知能企業であると言えます。

企業、特にスタートアップ企業にとっては、基礎技術をドローン、ARスマート端末、ロボットなどの成熟した製品やサービス、あるいは産業ソリューションに変換して商業目標を達成することが、沸騰音の後、メディア、企業、そして大衆のAI企業に対する期待と要件となっている。最近、人工知能産業発展連盟（AIIA）が発行した書籍「人工知能の波：生活を変える最先端のAIアプリケーション100」が一般に公開されました。この本は、現在の巨大企業と新興企業の最先端の商業化成果を網羅しており、AIの現在の主な商業化の方向を直接反映しています。

ARであれ、他のほとんどの人工知能分野であれ、技術主導のビジネス分野として、技術が完全に成熟するまでにはまだまだ長い道のりがあります。産業チェーン全体が徐々に繁栄し、商業化に注目する一方で、より多くの企業や機関が技術の限界を継続的に拡大し、コア競争力を確立し、産業がより大きな価値と可能性で爆発できるようにする必要があります。このようにして、中国はAI時代に他を追い抜くことが期待できます。

注: この記事はAR会社Liangfengtaiからのものです

<<: 人工知能を活用してビジネスを拡大するための 5 つの戦略

>>: Pythonがリードを拡大、PyTorchはわずか6.4%