アリババに採用された中国の高レベル科学者がAIがもたらす想像力の空間について語る

アリババに採用された中国の高レベル科学者がAIがもたらす想像力の空間について語る

彼はかつてアマゾンの中国トップレベルの科学者であり、1年前に世界の小売業界にセンセーションを巻き起こした無人小売店プロジェクト「Amazon Go」の重要な立案者でもあった。そして現在、彼はAlibaba iDSTのトップ科学者兼副社長です。

[[206333]]

そのため、雲奇会議の新小売サミットでは、任暁鋒氏はおそらく「新しい小売シナリオに人工知能をどのように適用するか」というテーマで最も発言力のある科学者の一人だった。

彼は、自身が最も得意とするコンピュータ認識技術の紹介に加え、ニューリテールの多くの応用シナリオの中で、最も興味を持ち、最も楽観視している 4 つの応用方向についても講演で明らかにしました。

拡張現実、スマートストア、ロボット、ウェアラブルデバイス。

その理由については、Machine Power がまとめたこの会議での任暁鋒氏のスピーチ全文を注意深くお読みください。

本日はここに来て、私の考えを皆さんと共有する機会をいただき、大変嬉しく思います。

先ほどTmall Storeのビデオを見ましたが、とても良いですね。その存在は、みんなに想像の余地をたくさん与えています。それはまた、すべての人にとっての明るい未来を描いています。技術者として、私は通常、実際の技術的問題をどのように解決し、この未来をどのように実現するかについて考えることにほとんどの時間を費やしています。

もちろん、問題を解決することが私の仕事の全てではありません。時には将来がどうなるかについて考えることもあるので、皆さんとシェアできる機会を持ててとても嬉しいです。

しかし、私は長い間アメリカで働き、暮らしてきたので、新しい小売業のコンセプトは私にとってしばしば謎です。Zeng教授や他の講演者の話を聞いて、多くのことを学びました。

この謎をどうやって解くのでしょうか?アリババ研究所が以前発表したニューリテールに関するレポートを見てみました。そこにはニューリテールについて非常に包括的な概要が書かれていました。ニューリテールとは、消費者体験を中心に据え、データによって推進されるオムニリテールの一形態です。

実は、短い文章ですが、たくさんの情報が含まれています。この想像空間をコントロールするのが難しい理由の1つは、卸売や小売、物流、エンターテイメント、ケータリングなど、それを適用できるシナリオが非常に多いことです。実際、ニューリテールについて話すとき、それを適用できる場所はたくさんあります。

しかし、この文章の説明にはいくつかのキーワードがあることがわかります。1つは「経験」、1つは「データ」、そして1つは「オムニリテール」です。

[[206334]]

経験の観点から言えば、より良いユーザー エクスペリエンスを提供するために何ができるかについて、ここにいる皆さんの多くは私よりも多くのアイデアと経験を持っていると思います。私の場合、人工知能、特にコンピュータービジョンに取り組んでいるため、有用なデータをどのように取得するかを考えています。

データの観点から見ると、百貨店、ショッピングモール、コンビニエンスストア、さらにはライブストリーミング、ビデオ、eコマースなど、さまざまなアプリケーションシナリオがあります。

さまざまなシナリオから見ると、物を買うことの本質は人と物に他なりません。私たちが行っているのは、人と物を理解し、人と物を結びつけることで、ユーザーが満足できる製品をより良く、より早く見つけられるようにし、製品をより良く、より早くユーザーに届けられるようにすることです。

情報の観点から見ると、特に多くのオフラインのシナリオで人や物に関する情報を取得したい場合、コンピューター ビジョンやカメラの使用は非常に優れた方法だと思います。

たとえば、視覚は普遍的な方法です。カメラは、人、物体、行動の識別など、さまざまなことを行うことができます。また、情報量が非常に多い知覚方法でもあります。たとえば、1080Pビデオは現在非常に人気があり、1080Pピクセル以下で多くのものを見ることができます。

これは受動的な方法でもあります。多くの場合、これは人間が目で知覚するため、世界は実際には人間の目に合わせて設計されているからです。信号機から看板、多くの製品のパッケージまで、人間の目に合うように設計されていることがよくあります。コンピューター ビジョンは、世界の設計の法則を活用し、同じアプローチを使用してより多くの情報を取得しようとします。

もちろん、視覚には実際には多くの問題があります。まず第一に、光が必要です。そして、より良い光はより良い情報を得ることができます。しかし、これは大きな問題ではありません。なぜなら、人間の目も物を見るために十分な光を必要とするからです。

もう 1 つは閉塞であり、これはさらに大きな問題です。カメラが遮られていたので、その後ろに何があるのか​​見えませんでした。これは実際には情報量が多いことに関係しています。なぜなら、私たちは非常に短い波長を持つ可視光を使用しているからです。大量の情報が必要な場合、前方の障害物を迂回する方法はありません。コンピューター ビジョン アプリケーションの最大の問題は、その精度です。多くの場合、精度が十分ではありません。ただし、近年大きな変化があり、精度はもはやそれほど大きな問題ではありません。

次に、コンピュータ分野の現在の開発状況を紹介し、皆様にコンピュータ分野に対する理解を深めていただき、私たちの技術がどの程度進歩したかを知っていただきたいと思います。

オブジェクトに関しては、オブジェクト分類と呼ばれる非常に影響力のあるコンテストがあることは誰もが知っています。何千ものオブジェクトがあり、各画像にラベルを付けるだけで、それが何であるかがわかります。これは、過去 8 年間の ILSVRC の進歩です。Y 軸はエラー率を示していますが、これはまだ非常に困難です。過去 8 年間の進歩は非常に急速でした。

2012 年、ディープラーニングがこの問題とコンピューター ビジョンの分野全体に適用され始めました。 2012年以降、過去6年間にわたって精度は向上し続けています。

比較のために、この問題における人間のエラー率は 5% であると測定した人もいます。コンピューターが人間より優れているわけではなく、コンピューターにもさまざまな問題があります。しかし、ある程度まで、コンピューターは特定の状況において人間と同等の精度を達成することができます。

ビジョンの問題は、1 枚の写真と 1 つのオブジェクトだけではありません。多くの場合、複雑なシーンを処理する必要があります。そのため、ilsvrc にはオブジェクト検出コンテストもあります。複雑なシーンが与えられた場合、さまざまなオブジェクトを見つける必要があります。この問題は近年急速に進歩しています。もちろん、ディープラーニングが 1 つの理由であり、もちろんデータやその他の要因も理由です。

この図は少し複雑です。検出問題の場合、正しい検出には正しいラベルと正しい位置が必要なためです。検出問題には、プリセット値の問題もあります。プリセット値を上げると、返される問題は少なくなり、一部は見逃されます。プリセット値を下げると、返される問題は多くなりますが、誤解が生じる可能性があります。

一般的に、現在の MAP、つまり平均精度は 0.75 に達していますが、これはまだ人間には程遠いものです。しかし、この図を見ると、多くの場合、依然として非常にうまくやっていることが分かります。このシーンには、人、犬、傘、そして後ろにある椅子などの小さな物体など、さまざまなものがあります。これらは多くの場合検出できます。

このセマンティックセグメンテーションの例をもう一度見てみましょう。多くの場合、境界を見つけることだけが問題ではありません。問題は、各ピクセルが何であるかをマークすることです。これは自動運転の一例です。このアルゴリズムは、木、車、歩行者、およびシーン内で遭遇する可能性のあるその他のさまざまなオブジェクトをマークできます。これも優れた精度を実現できるアルゴリズムです。現在、カメラを使用して無人運転車を作ることも非常に興味深い方向性です。

[[206335]]

つまり、人間にとって、視覚は実際に多くのことを可能にします。これはマルチカメラトラッキングのもう 1 つの例です。たとえば、8 台のカメラを使用して人が動き回っている場合、多くの場合、これらの人々をより正確に追跡し、その人がどこにいるかを常に把握できます。マルチカメラトラッキングには多くの機能があります。まず、人物の身元を取得し、その人物が誰であるかを知ることができます。また、人物の位置をより正確に把握することもできます。

ご存知のとおり、屋内での位置特定には、WIFI、Bluetooth、超音波など、さまざまな方法があります。正確な位置決めに関しては、視覚によって少なくともセンチメートルレベルの位置決め精度が得られ、多くの場合非常に役立ちます。

人がどこにいるかを検出するだけではありません。多くの場合、人の姿勢やさまざまな動きを実際に判断できるということをお見せしたいのです。人がどこにいるかだけでなく、目や耳、肩、腕がどのように動いているかまでわかるのです。

より複雑なシナリオでも、人々の動きが大きく変化しても、この情報を取得することができます。実は、人の姿勢こそが、その人を理解する基礎なのです。

これは実際に人間の姿勢に基づいて動作を認識した写真です。上の青いものが私たちが求めているもので、緑のものがアルゴリズムの推定値です。これは比較的簡単な質問です。このビデオは比較的簡単です。姿勢がわかったら、姿勢に基づいて動作認識や物体認識もできることをお見せしたいと思います。多くの場合、人間の動作を認識できます。

[[206336]]

将来を見据えると、屋外のシーンでも屋内のシーンでも、コンピューター ビジョンは実に多くのことを実現できるようになります。

少し大げさに言えば、実際、多くの場合、私たちが見ることができるものや人間ができることはすべて、今ではコンピューターで実行できるのです。数年前なら、私は決してこんなことを言うつもりはなかったのですが、今ではアルゴリズムの開発やその他の機能の向上により、多くの状況がすでに非常に近づいています。

もちろん、一方で、カメラに映らなければ何もできません。これは単なる冗談ではなく、実際的な問題を解決するという観点から、カメラのレイアウトは実際には非常に重要な問題です。必要な情報を可能な限り最大限に取得できるように、適切なレイアウトが望まれます。

実際には、カメラに加えて、データ、計算能力、コストなど、アルゴリズムと組み合わせる必要がある他の多くの問題を考慮する必要があります。私は今でも自分の視力に大きな自信を持っており、多くの状況で多くのことができると感じています。

ニューリテールの議論に戻ると、ニューリテールはデータ主導型であると言う場合、実際にはこの記述に若干の修正を加えて、情報主導型という形式を使用することができます。なんと言えばいいでしょうか?データがすぐに入手できない場合が多く、特にオフラインのシナリオではデータの取得に労力を費やす必要がある場合が多くあります。また、オンラインでは、多くの場合、視覚やその他の手段を使用して、役立つ情報を取得します。

ビジョン、最近の進歩、テクノロジーについて話した後、私が非常に興味を持っているいくつかのアプリケーションの方向性についてもお話ししたいと思います。非常に多くのアプリケーション シナリオの中で、私が特に興味を持っているものをいくつか挙げたいと思います。

拡張現実、スマートストア、ロボット、ヘルスアシスタント(ウェアラブル)。

テクノロジーがどれだけ進歩したかを示す例をいくつか紹介します。

拡張現実は現実世界と仮想世界を重ね合わせたものです。この写真のように、家具を購入するときに、PAD を使って家中を見て回り、そこに家具を配置することができます。ここでは、3D ポジショニング、3D モデリング、レンダリングなど、いくつかの重要な問題があります。モデリングとレンダリングは比較的簡単な問題であり、ここで位置決めを行います。

[[206337]]

皆さんご存知のとおり、数か月前、Apple は iPhone で極めて正確なリアルタイムの 3 次元測位を実現でき、その計算能力は実用的なレベルに達したと発表しました。

3次元の位置決めが解決されると、拡張現実は実際に多くの用途に利用できるようになります。いくつか例を挙げてみましょう。

これは何かを見つけるのを手伝う例であり、私にとっては実は非常に重要なことです。妻はよくお店で物を買うように頼んでくるのですが、商品がどこにあるのか分からないし、誰にも聞きたくないので時間がかかります。

測位技術があり、店舗内の商品の場所をより正確に地図化できれば、拡張現実を使って案内を行うことも考えられます。

もちろん、この例では、拡張現実は必ずしも非常に重要なものではないとも言えます。先ほど触れたバーチャルショッピングに戻りましょう。これもまた、誰もがよく話題にするものです。拡張現実があれば、これらの家具をオンラインで見つけて自宅に置いて、サイズやマッチングを確認することができます。多くの場合、光と影の効果なども確認できます。これは現時点では可能であり、比較的成熟しています。多くの人がこれに取り組んでいる可能性があり、多くの場合、非常に迅速に使用できます。

[[206338]]

次にお話ししたいのは、スマートストアについてです。皆さんご存知のとおり、私はかつて Amazon で働いていました。幸運にも、Amazon GO プロジェクトの初期に参加できました。このようなストアを構築するのに 4 年かかりました。とても興奮しており、誇りに思っています。

私たちが解決しようとしている問題は、比較的一般的なシナリオでの支払いの問題を解決し、レジに並ぶことなく店内に入って商品を受け取り、直接店を出られるようにすることです。

これを 4 年間続けてきた結果、何かを買うために列に並ぶたびに、列に並んだりチェックアウトしたりしなくて済むように、支払い手続きがうまく行われることを望みます。決済リンクだけだと、人、モノ、行動の問題、人がどんな商品を持っているかを知ることなど、高精度化するには解決すべき課題が山積しています。

多くの場合、比較的一般的なオフラインのインテリジェント システムとして想像できます。カメラ ネットワークがあれば、さまざまなことができます。人を追跡したり、人の流れを分析したり、滞在時間を確認したり、誰かが何かを取ったかどうか、どれくらいの時間それを見たか、元に戻したかどうかを確認したり、カメラを使用して棚を監視したりすることができます。

アイデンティティと組み合わせたり、顔やその他の方法を使用したりすることで、多くのパーソナライズされたエクスペリエンスを実現でき、店舗内で常に自分が誰であるかを把握し、パーソナライズされたサービスを提供できるようになります。

支払いは間違いなく方向性です。多くの場合、滞在時間やパーソナライゼーションなど、オンラインで実行しやすい多くのことを考えることになります。今では、実際に同様のことをオフラインで実行できる段階に到達しました。

実際、オンラインで実行するのはそれほど簡単ではないこともあります。たとえば、顔の表情認識を行うことができます。これは一例です。顔を分析することで、その人が幸せなのか不幸なのか、怒っているのか退屈しているのかを知ることができます。実際、これは多くの場合に実行できます。

したがって、オフラインはオンラインよりも実際にいくつかの利点を持つ場合があります。

このオフライン システムに戻ると、近い将来、このような一般的なオフライン インテリジェント システムがさまざまな機能を実現できるようになることがわかります。小規模な店舗では 1 つの機能しか実現できませんが、大規模なショッピング モールのシナリオでは、さまざまな店舗と比較的大きなスペースがあり、そこでの実装の難易度は新しいレベルに引き上げられます。

それは平常時であれば一つのことです。より混雑した状況であれば、アルゴリズムやデータなど、さまざまな面で多大な労力を費やす必要がある場合が多いです。しかし、多くの場合、それは現時点で目に見えるものであるはずです。

[[206339]]

3 番目にお話ししたいのはロボットです。先ほど述べた多くのケースでは、ロボットは単なる知覚であり、人がどこにいるかしか知りません。実際、音声による対話、ディスプレイ画面による対話、視覚的な対話など、何らかの対話を行うことができます。物理的な観点から言えば、私は今でもロボットに非常に興味を持っています。ロボットは現在非常に急速に発展しており、実際に多くの例を目にしてきました。

これはボストンの例です。彼らは長い間ロボットに取り組んでおり、制御が非常に優れています。家の中を歩き回るなど、さまざまなことができ、非常に複雑な動きができることがわかります。

[[206340]]

足と手があるので、キッチンでコップを取ることもできます。もちろん、これは単なる例です。実際、食器洗いやその他の家事を自動的に行うロボットを作りたいと考えている人はたくさんいます。それはまだ遠い未来の話ですが、この例は、それが将来それほど遠くないかもしれないことを示しています。

これは、ボストンが主に制御に焦点を当て、視覚にあまり力を入れなかったためです。そうでなければ、それがバナナの皮であると認識できたはずです。しかし、自分で立ち上がって階段を上ることはできます。

したがって、ロボットは将来的に非常に興味深い方向であるはずです。物流であれ、店舗であれ、将来的には間違いなくロボットの応用がさらに増えると思います。

1つ目はアシスタントで、主にウェアラブルデバイスを指します。

ウェアラブルデバイスは、個人の視点で、店舗とは違い、生活を記録したり、環境を識別したり、他の人を識別したり、自分の移動状況を把握したり、アシスタントとしてコミュニケーションをとったり、情報を提供したりと、実にさまざまなことができます。

たとえば、Snap Sperctacles は以前、日常生活をより良く記録できる、より優れたメガネをリリースしました。

[[206341]]

実際、Google は数年前から Google Glass の開発に取り組んでいましたが、成功しませんでした。その後、非常に興味深いエンタープライズ バージョンをリリースしました。これは、製造、物流、その他の状況で作業員がさまざまな作業を行うのに役立ちます。コードの識別やスキャンにも役立ちます。実は、もう一つ例があります。当時は、もっと複雑な配線工事があったら、配線のつなぎ方や何をすればいいかを教えてくれると言っていたんです。そういった設備は、将来、皆さんにとってとても役に立つでしょう。

***、誰もがこの曲線を見たことがあるはずです。これがハイプ サイクルです。つまり、すべてのテクノロジー、新製品は、このような開発段階を経る必要があります。

最初は、誰もがとても興奮して突き進み、すぐに頂点に達します。その後、現実的な問題に対処しなければなりません。その後、下がって底に達します。最も現実的な問題が浮上し、誰もがどの問題を解決すべきかを理解し、徐々に上昇していきます。

先ほど述べた方向性に関して言えば、拡張現実は実際にはすでに存在しており、以下ではさらに多くの応用例を見ていきます。

そして、スマート ストアはまだ山の頂上付近にあり、その下にはさらに多くのものがあるはずです。

ロボットやウェアラブルデバイスはさらに遠い未来にあるかもしれません。

しかし、時には 5 年後や 10 年後がどうなるかを想像する必要もあり、これも非常に刺激的な方向性です。

前述の多くのアプリケーションでは、視覚が非常に重要な役割を果たし、多くの情報を取得できます。これは普遍的な方法であるため、キャラクターの動きを取得したり、さまざまなことを実行したりできます。

もちろん、関連するデータを取得する必要があります。多くの場合、多くのアルゴリズムを統合し、他のセンサーと統合する必要があります。さらに、多くの場合、それは単なる認識の問題ではありません。ロボットや他の交差方法との統合が必要です。コンピューティングの観点からは、必ずしもクラウド上またはエンド上で実行する必要はありません。クラウドとエンドも統合する必要があります。

これらの問題に加えて、単純なジェスチャー認識、製品検索、仮想現実など、人々が時々言及する他の多くの方向性があります。

実際、私は個人的に、人工知能とコンピュータービジョンは、新しい製造業において多くの応用可能性があると考えています。今はテクノロジーが急速に発展し、ビジネスも急速に発展している時代だとよく言われますが、私もその中で、皆様と一緒により良い未来を築いていくために取り組んでいきたいと強く思っています。

著作権に関する通知

この記事は著者の見解のみを表したものであり、Baidu の立場を表すものではありません。

<<:  ロボットと一緒に働くのはどんな感じでしょうか?

>>:  人工知能の未来を説明する15の統計

ブログ    
ブログ    

推薦する

...

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]この記事はWeChat公式アカウント「DATA STUDIO」から転載したもの...

...

MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

トラフィックエンジニアリングによりコード生成の精度が2倍に向上: 19%から44%

新しい論文の著者は、コード生成を「強化」する方法を提案しています。コード生成は人工知能においてますま...

MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

iSoftStoneはインテリジェントな顧客サービス市場に参入し、専門性と専門知識で地位を確立しました。

今日、カスタマー サービス ロボットは私たちにとって馴染み深い存在です。電話料金、住所、登録、ビジネ...

Objective-C 実装と主要なソートアルゴリズムのグラフィカルなデモンストレーション比較

[[176714]] Objective-C を使用していくつかの基本的なソート アルゴリズムを実装...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

...

比較分析に基づく人工知能技術の革新の道筋に関する研究

1. はじめに人工知能(AI)技術は1950年代に誕生し、現在では最も最先端かつ最も普及しているハイ...

...

AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

人々の印象では、AIは「多数派」に属する技術カテゴリーであると私は信じています。いわゆる多数とは、第...

科学者は人工知能を使って新素材を発見する

米国の科学者チームは、人工知能を利用して非常に短期間で新たな鉄鋼の代替品を発見したいと考えている。そ...