AR/VR は双子の兄弟として語られることが多く、一般的にはアプリケーション層の新しいテクノロジー、または「スマート ウェアラブル デバイス」と考えられています。人工知能の「アルゴリズム」というラベルと比較すると、AR/VR は十分に深く、十分に含蓄があり、十分に洗練されていないようです。では、AR と人工知能の関係は何でしょうか。 AR は、今日私たちが知っている人工知能に属するのでしょうか?
2018年3月、上海市経済情報化委員会は、同市の人工知能革新開発プログラムのために2018年に支援される最初の一連のプロジェクトを発表した。 「合計19社の革新的な企業が最終候補に残り、AR企業である梁鋒台もこの支援プロジェクトの最終候補に残った」と梁鋒台のスタッフは記者団に語った。AR企業が人工知能に分類されるのは今回が初めてではないが、このような分類方法は一般的ではない。この特別プロジェクトは経済情報化委員会と市財政局が共同で実施するもので、支援予定額は1億元以上とされている。 ARのコア技術を簡単に整理する AR (拡張現実) は、仮想情報を現実世界に重ね合わせる、つまり現実を「強化」するプロセスです。この強化は、視覚、聴覚、さらには触覚によって実現されます。主な目的は、感覚知覚の面で現実世界と仮想世界を統合することです。 その中で、現実世界の認識は主に視覚に反映されており、情報を取得し、画像や動画の形でフィードバックを提供するためにカメラを使用する必要があります。ビデオ分析を通じて、シーンの 3D 構造、内部にあるオブジェクト、空間内の位置など、3 次元の世界環境を認識し、理解することができます。 3D インタラクティブ理解の目的は、何を「強化」するかをシステムに通知することです。 図: 典型的な AR プロセス 重要なポイントがいくつかあります。 1つ目は3D環境の理解です。見たものを理解するには、主に物体/シーンの認識と位置決めの技術に頼ります。識別は主に AR 応答をトリガーするために使用され、位置決めは AR コンテンツをオーバーレイする場所を知るために使用されます。測位は精度によって粗測位と精密測位に分けられます。粗測位はエリアや傾向など大まかな方向性を定めるものです。精密な位置決めには、3D 座標系の XYZ 座標やオブジェクトの角度など、ポイントツーポイントの精度が必要になる場合があります。アプリケーション環境に応じて、AR では両方の次元の位置決めにアプリケーションのニーズがあります。 AR 分野では、一般的な検出および認識タスクには、顔検出、歩行者検出、車両検出、ジェスチャー認識、生体認証、感情認識、自然シーン認識などがあります。 現実の3D世界を知覚し、それを仮想コンテンツと統合した後、この仮想と現実の融合情報を特定の方法で提示する必要があります。ここで必要なのは、ARの2番目の重要な技術であるディスプレイ技術です。現在、ほとんどのARシステムはパースペクティブヘルメットディスプレイを使用しており、ビデオパースペクティブと光学パースペクティブに分かれています。その他の代表的なものとしては、ライトフィールド技術(主にMagic Leapで有名)、ホログラフィックプロジェクション(SF映画やテレビドラマによく登場)などがあります。 AR の 3 番目の主要技術は、重ね合わせた仮想情報と人が対話できるようにするヒューマン コンピュータ インタラクションです。AR は、音声、ジェスチャー、姿勢、顔など、タッチ ボタン以外の自然なヒューマン コンピュータ インタラクション方法を追求しており、音声とジェスチャーがより頻繁に使用されます。 人工知能とARの技術的なつながり 人工知能の分野では、ディープラーニング(DL)や機械学習(ML)など、よく言及される概念がいくつかあります。学術分野では、人工知能(AI)を含むいくつかの主要分野が独自の研究境界を持っています。一般的な意味では、私たちは「機械を人間のようにする」技術のすべての応用方向をカバーする汎用人工知能についてよく話します。 この図から、3つの関係性も簡単に垣間見ることができます。ディープラーニングは機械学習を実現するための技術的な方法であり、機械学習は機械をインテリジェントにして人工知能を実現することです。人工知能は究極の目標であり、機械学習はその目標を達成するために拡張された技術的な方向性であると言えます。その中には、コンピュータービジョン(CV)と呼ばれるもう1つの重要な概念があります。これは主に、機械が人間のように「見る」方法を研究するものです。これは、現在の人工知能の概念の重要な分野です。これは、人間が情報を取得する主な方法の1つが視覚であるためです。現在、コンピュータービジョンは、顔認識、自動運転のナビゲーションのための交通信号の読み取りと歩行者への注意、産業用ロボットを使用して問題を検出する制御プロセス、3次元環境の再構成画像の処理など、商業市場でその価値を発揮しています。これらの概念には違いがあり、ある程度重複する部分もあります。 その中で、2006年以降、ヒントン氏が引き起こしたディープラーニングブームが広がり始め、それがある程度、AIの新たな台頭につながりました。過去10年間で、音声認識、コンピュータービジョン、自然言語処理など多くの分野で大きな進歩が遂げられ、応用分野にも拡張され、本格的な発展を遂げています。 AR のコア技術のうち、3D 環境理解、3D インタラクション理解、コンピューター ビジョン、ディープラーニングは密接に関連しています。学術界では、3D 環境の理解は主にコンピューター ビジョンの分野に相当し、近年、コンピューター ビジョンではディープラーニングが広く使用されています。インタラクションの面では、近年の関連分野におけるディープラーニングの進歩により、ハードウェア端末ではジェスチャーや音声など、より自然なインタラクション方法が使用されるようになりました。 ARにおけるディープラーニングの応用は、主にキービジュアル技術にあるとも言えます。 現在、ARの最も一般的な形式は2D画像のスキャンと認識であり、テンセントのQQ-ARトーチイベントやアリペイのFive Fortunesなど、ほとんどのARマーケティングに見られるように、携帯電話で画像をスキャンすると重ね合わせたコンテンツが表示されます。ただし、主な研究開発の方向は依然として3Dオブジェクト認識と3Dシーンモデリングにあります。
現実の物体は、さまざまな角度と空間の向きで 3D 形式で存在します。したがって、2D 画像認識から 3D オブジェクト認識へと自然に拡張され、オブジェクトのカテゴリと姿勢を識別し、ここでディープラーニングを使用できます。果物の認識を例にとると、さまざまなカテゴリの果物を識別し、位置決め領域を指定できるため、物体認識と検出の機能が統合されます。 3D シーン モデリングは、3D オブジェクトの識別から、より大規模で複雑な 3D 領域まで拡張されます。例えば、シーン内に何があるのか、それらの空間的な位置や関係性などを識別する。これが AR のコア技術である 3D シーン モデリングです。これには、現在普及している SLAM (リアルタイムのポジショニングとマッピング) が含まれます。シーンをスキャンすることで、仮想戦場などの3次元仮想コンテンツが重ね合わされます。通常の2D画像認識をベースとする場合、特定の画像が必要となり、画像が見えない場合は認識に失敗します。 SLAM テクノロジーでは、特定の平面が存在しない場合でも、周囲の 3D 環境の助けにより、空間位置決めは非常に正確です。 ここでは、ディープラーニングと SLAM 技術の統合について説明したいと思います。コンピューター ビジョンは、大きく 2 つの流派に分けられます。1 つは、特徴抽出、特徴分析、分類などの学習に基づくものです。現在、ディープラーニング技術はこのルートで支配的な地位を獲得しています。もう一つのアプローチは、線やエッジ、3D形状から物体の空間構造情報を推測する幾何学視覚に基づくもので、代表的な技術はSFM/SLAMです。ディープラーニングは基本的に学習の分野を支配していますが、幾何学的視覚の分野ではほとんど進歩がありません。学術的な観点から見ると、ディープラーニング技術の研究進歩は日々変化していると言えますが、SLAM技術の過去10年間の進歩は比較的小さいものでした。世界最高峰の視覚カンファレンスであるICCV2015が主催したSLAM技術シンポジウムでは、近年の視覚分野におけるディープラーニングの急速な発展を踏まえ、SLAMにディープラーニングを活用する可能性を提唱する専門家もいたが、まだ成熟したアイデアは出ていない。一般的に、ディープラーニングと SLAM の統合は短期的には研究する価値のある方向であり、セマンティック情報と幾何学的情報の組み合わせは長期的には非常に価値のあるトレンドです。したがって、SLAM+DLは期待する価値があります。
インタラクティブな方法の面では、音声認識とジェスチャー認識が主なものとなっています。音声認識は現在大きな進歩を遂げており、Baidu、iFLYTEK、Unisoundなどの国内企業はトップクラスです。AR企業が突破したいのは、ジェスチャー認識の成熟した商業化です。 「梁鋒台はディープラーニングに基づくジェスチャー認識システムを実証した。これは主に上、下、左、右、時計回り、反時計回りの6つのジェスチャーを定義する」と梁鋒台のスタッフは記者に語った。まず人間の手を検知して位置を特定し、対応するジェスチャーの軌跡を特定することで人間のジェスチャーを認識する。顔認識などの人工知能の他の人気分野も AR で使用されていますが、AR 企業にとって重要な研究開発方向ではありません。 以上のことから、AR の基盤技術や基礎部分はコンピューター ビジョンと関連分野の統合であり、現在流行しているディープラーニングと AR の組み合わせもアルゴリズム エンジニアの努力の方向であることが容易にわかります。これは、AR がコンピューター ビジョンと人間とコンピューターのインタラクションの学際的な分野であり、AR の基礎は人工知能とコンピューター ビジョンであるという主張の根拠でもあります。 図: コンピュータビジョンと AR プロセスの関連 今日頭条が昨年発表した「人工知能インパクトレポート」でも、顔認識、音声認識、ロボット工学、AR、チップなどの分野の企業や大規模な研究開発機関を含む人工知能科学者の分布を簡単に集計しました。ハイエンドの研究開発人材の分布は、AI分野の細分化の方向性も示しています。 では、AR は人工知能なのでしょうか? AR実践者にとって理想的な状況は、スマートフォンをよりスマートなAR端末に置き換えることです。したがって、ユーザーにとって、ARに接触して使用するときに最初に影響を受けるのはコンテンツであり、次に端末です。AR業界チェーンは、テクノロジープロバイダー、スマート端末R&D企業、およびARコンテンツプロバイダーに大別できます。このうち、AR デバイス プロバイダーは、基盤となるチップ、バッテリー、光学レンズなどのハードウェア技術と、ハードウェア自体のパフォーマンス最適化に重点を置く傾向が強いのに対し、コンテンツ プロバイダーは、既存の技術に基づいてコンテンツとパフォーマンスを最適化する傾向があります。したがって、AR 技術プロバイダー、または基礎となるアルゴリズムの研究開発で一定の成果を達成した AR 企業は、人工知能企業であると言えます。 企業、特にスタートアップ企業にとっては、基礎技術をドローン、ARスマート端末、ロボットなどの成熟した製品やサービス、あるいは産業ソリューションに変換して商業目標を達成することが、沸騰音の後、メディア、企業、そして大衆のAI企業に対する期待と要件となっている。最近、人工知能産業発展連盟(AIIA)が発行した書籍「人工知能の波:生活を変える最先端のAIアプリケーション100」が一般に公開されました。この本は、現在の巨大企業と新興企業の最先端の商業化成果を網羅しており、AIの現在の主な商業化の方向を直接反映しています。 ARであれ、他のほとんどの人工知能分野であれ、技術主導のビジネス分野として、技術が完全に成熟するまでにはまだまだ長い道のりがあります。産業チェーン全体が徐々に繁栄し、商業化に注目する一方で、より多くの企業や機関が技術の限界を継続的に拡大し、コア競争力を確立し、産業がより大きな価値と可能性で爆発できるようにする必要があります。このようにして、中国はAI時代に他を追い抜くことが期待できます。 |
<<: 人工知能は、マルチドメイン畳み込みニューラルネットワークを通じて、JPEG二重圧縮画像内の偽造領域を特定します。
>>: 将来、人工知能は人類を脅かすのか?人工知能が「暴走」するのを防ぐ6つの戦略
現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...
人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...
生成型人工知能の出現により、人間と人工知能の距離は徐々に縮まっています。これまで関連技術にあまり注意...
なぜビッグデータは十分にスマートではないのでしょうか?確率の言語よりも強力な思考ツールは何でしょうか...
7月13日、イーロン・マスク氏が新たに設立した人工知能企業xAIは、「宇宙を理解する」ことができ、O...
少し前、ビリビリのトップUP司会者「こんにちは先生、私の名前は何童雪です」が「Airdesk」を開発...
私たちがよく話題にする金融テクノロジーとは、人工知能とデータを活用して新しいビジネス手法を見つけるも...
[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...
人工知能などのハイテク手段を基盤として構築された都市脳は、都市の経済発展のための「ブラックテクノロジ...
[51CTO.comよりオリジナル記事]秋から冬にかけての季節が近づき、インフルエンザやCOVID...
Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...
[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...