コンピュータービジョンを例に、AIを仕事に導入する方法を説明します。

コンピュータービジョンを例に、AIを仕事に導入する方法を説明します。

[[210306]]

以下は、AI ビジネスを始める方法の紹介です。これは比較的人気のある科学講演です。いくつかのコンピューター ビジョンの事例を通じて、EGO メンバーやさまざまな業界の上司に、AI と自社のビジネスの組み合わせを直感的に理解していただければ幸いです。

ここでは、まずコンピュータービジョンが何をするのかを簡単に紹介し、次にこれらの技術をいくつかのビジネスに適用できる可能性について説明します。

今朝仮にこの絵を追加しました。こう描いた方が分かりやすいかと思います。コンピューター ビジョンのタスクは、画像、ビデオ、深度ビデオなど、さまざまな視覚関連メディア上の情報を処理することです。

これらのメディアを通じて取得するオブジェクトには、顔、人体、車などが含まれます。ここでの他のオブジェクトの範囲は、ペット、食べ物、一般的なオブジェクトの分類など、比較的広いですが、その適用範囲は最初の 3 つよりもはるかに狭いはずです。

これらのオブジェクトの画像情報を取得した後、どのようなタスクを実行する必要がありますか? まとめると、広く使用されているタスクは 2 つあり、1 つは構造化、もう 1 つは画像検索です。

構造化とは、このオブジェクトを正確に記述できる情報のことです。例えば、顔画像の構造化情報には、人物の性別、年齢、表情のカテゴリー、眼鏡、マスク、帽子の着用の有無などが含まれ、人体の構造化情報には、上半身と下半身の衣服の特徴などが含まれます。車両の構造化情報は、基本的なものにはナンバープレート、モデル、年式、色などがあり、さらに窓のペンダントや装飾品、さらには傷の有無など、いくつかの特徴記述情報があります。これらの特徴記述は、非常によく似たいくつかの車を区別するのに非常に役立ちます。

次に画像検索です。画像検索の情報基盤には構造化された記述がなく、計算されるのは特徴です。よく話題になる顔認識は、典型的な画像検索アプリケーションです。最も一般的な 1:N 顔検索は、ギャラリー内で 1 つの顔を検索し、それに非常に近い顔をいくつか取得するというものです。人体と車についても同様ですが、人体と車の特徴の次元は顔よりも小さいという点が異なります。このため、顔の検索はより大きなライブラリで実行できますが、人体と車は比較的小さなライブラリでしか検索できません。

構造化検索タスクとグラフ検索タスクの両方において、グラフ検索の方が適用シナリオの範囲が広くなります。なぜでしょうか? 構造化情報を取得した後、通常は検索用のデータベース インデックスとして使用されます。ただし、特定のアプリケーションでは、構造化情報だけに頼って目的のオブジェクトを取得するのは困難です。例えば、ある人物を探す場合、その人物が長髪か、ひげを生やしているか、眼鏡をかけているかなど、具体的に詳細を説明しても、直接その人物を見つけるのは困難です。しかし、その人物の写真を提供すれば、顔ライブラリで簡単にその人物を検索することができます。車についても同じことが言えます。通常はナンバープレートで車を検索しますが、実際のアプリケーション シナリオでは、これが機能しない場合があります。たとえば、犯罪者の中には、事件を捜査する際にナンバープレートを隠したり、偽のナンバープレートを使用したりすることが多々あります。このとき、車の特徴に基づいて捜索する必要があります。このようなシナリオでは、テクノロジーが実際に使用可能な価値をもたらします。

さらに下にはコンピューティング プラットフォームまたはキャリアがあります。

1 つ目は、クラウド サービスの適用です。公共の安全など機密性の高い顧客に対する商用および個人ユーザーへの適用は、大きく遅れています。昨年は、警察や交通管制局などのユーザーのコンピュータ室に大量のサーバーを移動し、そのコンピュータ室のサーバーの運用と保守を誰かに任せるという手法をよくやりました。顧客のビデオストリームに接続し、CPU と GPU を使用して上記の計算を行い、その結果をクライアントに反映したり、顧客のプラットフォームにプッシュしたりしました。

しかし、今年から、古いお客様に好まれている新しいものもいくつか登場しています。公安や交通機関などの従来のユーザーにとっては、クラウド ソリューションが多かれ少なかれ受け入れられていますが、これは、彼らの技術とデータは非常に機密性が高いため、これまでは想像もできなかったことです。しかし現在では、一部のクラウド サービス プロバイダーが、公安や銀行などの特定のビジネス向けに専用のネットワークとセキュリティの最適化作業を数多く実施しており、これが可能になっています。

一方、EDGE コンピューティングの使用はますます増えています。エンドツーエンド (EDGE からクラウドまで) はもはや秘密ではありません。直接的な結果として、コストの削減、密度の向上、インテリジェンスの拡大が実現します。たとえば、元のIPC(ネットワークカメラ)は、ビデオをバックエンドに送信して処理していました。現在、多くの特別な車両や顔キャプチャカメラは、端末デバイスで注目の対象を画像としてキャプチャし、その画像をバックエンドに送信して処理することができます。一方で、帯域幅を節約します。もともと、1Gbの帯域幅では数十のビデオしか送信できませんでしたが、現在では数万のビデオを送信できます。さらにエキサイティングなのは、キャプチャ機器を一般的なスーパーマーケット、レストラン、その他の街の店に配備すれば、非常に安価で一般的な家庭の帯域幅を使用して要件を満たすことができることです。もう 1 つの利点は、バックエンド サーバーのコンピューティング コストが大幅に削減され、おそらく 2 桁削減されることです。 2桁規模になると、どのような状況になるかは想像がつくと思います。アプリケーションを非常に安価に作成し、当初の2Gビジネスから2Bビジネス、そして徐々に2Cビジネスへと拡大していくことができます。現在、小売業界や一部のスマートオフィス業界ではすでにこのビジネスモデルを試みています。まとめると、私が社内や顧客によく言う言葉は、低コスト、高密度、インテリジェンスの3つです。これらは、コンピューター ビジョンがビジネスの観点から分析される状況の一部です。

ここで説明しなければならないことがいくつかあります。 1つ目はディープビデオです。私たちは4年前にディープビデオ関連の製品を作り始めました。その技術的なスタイルといくつかのシナリオでのかけがえのない役割を否定するわけではありませんが、今のところはまだ比較的高価な製品です。そのため、銀行、金庫室、刑務所など、非常に強力な支払い機能を備えた顧客で主に使用されています。深度ビデオの役割は明らかです。深度データを通じて、人の体の動き、行動、人と環境の関係などの情報を簡単に計算できますが、これは通常の2次元データでは難しいことです。この製品は現在、幅広いシナリオをカバーできるほどの拡張性はありませんが、センサー技術の向上により、この点でも実際に一定の成果が見られており、先に述べた低コスト、高密度、インテリジェンスの原則も満たすことになります。

もう一つ説明したいのは、先ほど申し上げたビデオです。フロントエンドのキャプチャー後のバックエンドのビデオ処理を、バックエンドの画像処理に段階的に移行していきます。これにより、コストが2桁削減され、ビジネスが最大限に促進されます。不思議に思うかもしれませんが、GPU は以前から非常に人気があり、NVidia の株価は 1 年で 3 倍以上に急騰しました。しかし、私が言いたいのは、NVidia の産業グレードのグラフィック カードの価格は、CPU などの市場に比べてニッチであり、非常に収益性が高いということです。 CPUは2C市場であり、GPUも2C市場がありますが、産業グレードのGPUグラフィックカードの市場価格は通常のグラフィックカードの数倍です。価格を高水準で維持できたのは、昔は選択肢が少なかったからなのですが、今ではそのメリットはどんどん小さくなってきているようです。

一方では、同じアルゴリズムが CPU でも高度に最適化され、そのコストが GPU の場合と同程度になることを示すアルゴリズムの進歩が数多くあります。分単位の弾性スケジューリングなどの CPU サーバーの安定性と柔軟性と組み合わせると、実際のコストはまだ 1 桁ほど最適化できる余地があります。

一方、競合企業には、ARM、FPGA、Google の TPU チップなど、成熟が進む独自のコンピューティング チップも含まれます。このような結果は、私たちが過去に何か間違ったことをしたようだということを物語っています。私たちは多数の GPU クラスターを構築しました。友好的な競合企業は、前回の資金調達で得た数千万ドルを使って、数千の GPU を備えたプライベート コンピューティング クラスターを構築しました。しかし、将来を見据えると、これは特に価値があることではないかもしれません。今後 1 ~ 2 年で何が起こるかと言えば、まず GPU の価格が非常に手頃なレベルまで下がり、独自のコンピューティング チップがサーバー側と軽量デバイスの両方で普及するようになるのではないかと思います。

この図はフェイシャルシステムのビジネスモデルです。左側は、システムのデータソースとなる端末デバイスです。基本的にはキャプチャデバイスで、独自のフェイシャルキャプチャマシンや独自のアイカメラが含まれます。ヒューマンアイカメラは、広い広場や広いエリアで使用できる顔キャプチャマシンです。通常の IPC に接続するスナップショット サーバーもあります。このスナップショット サーバーを介して、通常の IPC をスナップショット マシンに変換し、システムに接続できます。中央のシステムには 2 つの青いデータフローがあります。下側のデータフローはリアルタイムの業務フローで、上側のデータフローはブラックリストとホワイトリストの保存などのオフラインの業務フローです。ビデオ データはキャプチャ デバイスによって画像に変換された後、顔エンジンによって処理されます。この大規模なエンジンには、顔検出、特徴抽出、構造化が含まれます。同様に、車両データに対しては対応する車両検出と構造化が行われます。その後、ストレージ、比較エンジン、メッセージ キューを通過してシステムが形成され、アプリケーション API プールに接続されます。また、データベースに接続されたオフラインデータ分析とリアルタイムデータ分析システムがあり、他のプラットフォームのビジネスデータを組み合わせ、構造化データと比較結果に対してビッグデータ分析を実行し、多次元クエリシステムに集約します。

どの業界にもそれぞれの困難がありますが、AIサブ業界の最大の特徴はデータ依存性です。 AI アルゴリズムは基本的に学習アルゴリズムに基づいていることは誰もが知っているでしょう。簡単に言うと、大量のデータにラベルを付けた後 (Data)、ネットワークのパラメータ (Network) を反復的に最適化してモデル (Model) を取得し、ビジネス レイヤーがこの Model を通じて推論と計算を実行します。私の講演のタイトルは「AIビジネスの始め方」です。この問題を自分のビジネスで考えるとき、AIでどんな問題を解決したいですか?まず、十分なデータがあるかどうかを自問する必要があります。1つ目は量が十分かどうか、2つ目は質が十分かどうか、3つ目はデータが十分に多様であるかどうかです。量と質は比較的理解しやすいです。次に、クロスドメインデータの問題である多様性の問題についてお話ししましょう。

多様性

顔認識ビジネスを例にとると、写真とライブラリを入力するだけで認識結果が得られる公開顔プラットフォームがいくつかあります。しかし、私の知る限り、これらの一般的な顔認識プラットフォームは、特定のビジネスでは満足のいくパフォーマンスを発揮していません。よくわかります。なぜ、いくつかの友好的な企業が、自分たちの顔認識プラットフォームはナンバーワンだと主張しているのに、特定のアプリケーションではパフォーマンスが低いのでしょうか? 答えは、その企業のデータが、使用しているドメインと一致していないからです。

たとえば、出会い系サイトのデータベースにある写真はすべて化粧されたものであり、ソーシャル ネットワーキング サイトの顔のプロフィール写真はすべて面白くてユニークなものであり、私たちの ID 写真は化粧をしていない普通の写真です。これらの分野のデータは分野内では非常に有用ですが、データの取得、ラベル付け、最終的なアプリケーション結果の取得のいずれの点でも、それらの間の相互関係は非常に困難です。私たちは以前、辺境の省でビジネスをしていました。そのモデルは非常にシンプルで、顔認識を使用してブラックリストを実行するというものでした。ブラックリストには、公安当局が懸念する危険人物が含まれていました。リストは非常に大きく、おそらく数十万人に上りました。初めてフィールドテストを実施したとき、結果が非​​常に悪く、精度が期待どおりに得られなかったことがわかりました。その後、この省の住民のほとんどが少数民族であることが分かりました。彼らの顔は漢民族とはまったく異なり、西アジア人やロシア人の顔に似ていました。当時の私たちの顔モデルは漢民族を主なサンプルとしてトレーニングされていたため、大きな困難が生じました。根本的な原因はサンプルデータの量が不十分だったことです。そのため、フィールド データの注釈付けと再トレーニングをそれ自体のプロジェクトとして扱うことで、期待した精度にすぐに到達できました。

アプリケーション データのドメインを深く理解することによってのみ、望ましい効果を達成できます。もう 1 つの状況は、ID 写真やさまざまな現場での自然な写真などのクロスドメイン データを適用することです。この場合、良好な結果を得るためには、クロスドメインの問題に特化したクロスドメイン アノテーションとトレーニングを実施する必要があります。クロスドメイン コストは、多くの場合、データのソースによって異なります。たとえば、ID カードをスキャンして人の顔をキャプチャするドア アクセス コントロール システムでは、ID 写真とキャプチャした写真を適切にリンクできます。

データに関連するもう 1 つの問題は、注釈をビジネスにどのように統合するかです。いわゆるラベリングは、人工知能における「人工的」なものと理解できます。古いデータを使用してトレーニングされたモデルは、必ずしもあなたの分野に適用できるとは限りません。ラベル付けタスクをビジネスに統合し、ビジネスの通常の一部にする必要があります。電子商取引を行っている場合は、コールセンターが必要です。AIを行っている場合は、ビジネスをサポートするラベリングセンターが必要です。これらのセンターは、タスク指標に従ってラベリングタスクを完了します。ラベリングセンターでラベリングされた後、AIモデルの効果が徐々に向上します。したがって、このようなビジネスを検討する際には、関連する人件費も考慮する必要があります。分野が変わらない場合、コストは徐々に低下し、ラベル付けが必要なデータは徐々に減少する可能性がありますが、時間の経過とともに常に何らかの変化があるため、消えない可能性があります。

ID、ID、ID、これは重要なので3回言わなければなりません。AIビジネスにおいて、得られる最も価値のある情報はIDであると考えています。私はそれをいくつかのレベルに分けました:

1つ目は、IDカードに似たIDです。必ずしもIDカードではありませんが、長期的でユニークなIDであることは間違いありません。これが最も価値があります。オンラインでの行動がすべて記録されるのと同じように、このIDを持っていれば、実生活での行動もすべて記録されます。これは恐ろしいことです。

2 番目のタイプは、長い ID です。長い ID はドメインをまたいでおり、時間、場所、ソースにまたがっています。長い ID では、ユーザーが Zhang San なのか Li Si なのかはわかりませんが、この ID の過去のアクティビティはすべて把握しています。つなぎ合わせて長い ID を形成できる計算プロセスを ReID と呼びます。これは、アルゴリズムを通じて多くのアクティビティを結び付けることを意味します。

ショッピングモールに入店する際、システムが長いIDを取得すれば、あなたが誰なのかは分からないものの、どのカウンターの前に長時間いたか、移動の軌跡など、入店時の過去の行動を瞬時に取得し、さらにはチェックアウト情報を紐付けて購入記録を知ることができます。店舗アプリケーションの場合、このデータで十分です。このような長い ID は取得コストが低く、プライバシー侵害のリスクを回避できます。ショッピング モールがユーザーの身元情報を確認することは明らかに不可能ですが、このような長い ID であれば、マーケティングの最適化を行うための想像力を働かせる余地が十分にあります。短い ID は、時間と空間においてローカルな ID です。 ID の価値は上から下に向かって低下し、当然ながら ID を取得するためのコストもどんどん小さくなります。 IDの密度や分布も、ウェブサイトの閲覧履歴と同様に非常に重要です。IDの密度が高いほど、ユーザーの行動をより深く理解できます。ここには多くの詳細があります。あなたの活動をここでのみ把握しているのか、それとも非常に大規模な活動を把握しているのかも含めて。これらは私の ID の分類定義です。

ここでは、本質的に ID 関係である顔認識や車両認識技術に基づくアプリケーションの概要を示します。必要な結果は、これらの ID、車両、ぼやけた車両、鮮明な車両、顔、体、携帯電話、または書き込まれていないその他のものの間の関係だけです。

アプリケーションでは、それらの間に対応する ID があることを期待しています。顔などの同じ種類のオブジェクトを比較した後、2 つの顔が同一人物である確率を知ることができます。同一人物である場合、2 つの ID が結合され、他の場合も同様です。しかし、次のようなことに注意すると違います。人が車を運転し、そして降りる。このとき、人間である私にとって、この車が彼の車であることは容易に分かります。彼が運転手であろうと副操縦士であろうと、私はこの関係を知っています。しかし、人工知能がそのようなことを扱うのは困難です。そのような関係を得るには、何らかの論理分析とファジーマッチングを使用する必要があります。

例えば、横向きの写真では、車と顔の関係、ぼやけた車と鮮明な車の関係があります。ぼやけた車とは、ナンバープレートがはっきり見えないが、車は大体見えるということです。鮮明な車とは、ナンバープレートがよりはっきり見えるということです。いくつかのファジーマッチング手法と時空間関係を通じてそれらをマッチングします。顔や体についても同じことが言えます。顔ははっきり見えますが、同じ人物の別の写真が小さく撮られていると、顔ははっきり見えません。この人がまだあなただとどうやってわかるのでしょうか。これも確立する必要がある関係です。これは特に人体と携帯電話に当てはまります。水平関係と垂直関係の両方を開くと、すべての ID 関係が接続されます。さて、私の絵の中で疑問符が付いている部分は、実は現状、我々がうまくいっていない部分です。これらは、近年特に人工知能関連のアプリケーションを強化する必要がある部分でもあり、また、最もチャンスがある部分でもあります。

あなたのビジネスには AI/CV が必要ですか?

業務の最適化や変革のために、AI 機能を導入したいという企業から多くの相談を受けています。実際のプロジェクトでは、さまざまな業界と関わり、さまざまな業界に適用できる製品もいくつか作りました。

図に挙げたいくつかの業界には、このような関係があります。まずは公安事業から見てみましょう。公安事業の特徴は2Gです。主な事業目標は、先ほど述べた動的ブラックリスト制御と静止画像フレームサービスである公安検査と制御です。この事業は数年前から行われています。正直に言うと、これが私たちの主な収入源であり、現在、治安事業は人工知能業界全体にとって最も現実的な事業方向でもあります。公安事業の技術と製品をベースに、スマートオフィスなど、多くの新しいことができることがわかりました。建物や屋内での事業量は、公共の場よりも明らかに大きいですが、これは2B事業であり、以前はコストが高すぎるため実行が困難でした。

多くの建物ではすでに顔認証による入退室管理が導入されていることもご存知でしょう。これは新しいことではありません。顔をスキャンするか、ID カードの写真を撮って顔認証することで、本人と ID カードが同一であることを証明し、入室することができます。しかし、スマートオフィスに求められる要件は異なります。エントランスだけでなく、レジャーエリア、ワークエリア、さらには車の出入り口や出入り口など、会社の隅々にまでそのような設備が揃っている必要があります。その目的は何でしょうか。オフィスエリアでの人々の行動をデジタル化することが目的です。もちろん、これを実現するための前提はコストの削減です。料金徴収サービスを含め、これはすでに広東省で利用可能であることに気づいた友人もいるはずです。高速道路の交差点に入ると、ETCに行ったり現金で支払ったりすることなく、Alipayをスワイプして料金を支払うことができます。近い将来、携帯電話の Alipay カードをスワイプする必要さえなくなるかもしれません。携帯電話があなたの車のナンバープレートと顔を認識し、ナンバープレートと顔を確認した後、そのまま車で通り抜けることができるようになります。もちろん、事前に Alipay を通じていくらかのお金を入金するか、Alipay を対応するアカウントにバインドして、より速く通過できるようにする必要があります。こうしたビジネス目標は他にもいくつかありますが、ここでは詳しく説明しません。テクノロジーがハイエンドかつプロフェッショナルなもの(図の左側)から非常に安価で普及したもの(図の右側)へと進化する過程で、多くの機会が存在するというのは非常に興味深いことだと思います。実際、このような変革こそが、テクノロジーを真に定着させ、その価値を実現できるものなのです。

あなたのビジネスにはアルゴリズム チームが必要ですか?

多くの人から聞かれる質問ですが、あなたの会社が AI 関連のビジネスをしたい場合、アルゴリズム チームを独自に維持する必要があるのでしょうか?この質問に直接的な答えはありません。それぞれのケースを具体的に分析し、それがどのビジネスに関係しているかを確認する必要があります。

まず、AIの観点から見て、御社の事業は一般的なタイプでしょうか?たとえば、Meitu XiuXiu のように、写真を撮った後に人の顔を美しくしたい場合、独自の AI チームは必要ありません。Baidu、Tencent、Google、Microsoft などの基本的な AI サービスを提供する公共リソースや、Yitongkuangtang などの企業が提供するソリューションも選択肢になります。しかし、他社が関与したことのないビジネスに遭遇したり、フィールドデータが非常に独特な場合は、アルゴリズム チームのサポートが必要になる場合があります。しかし、訂正が必要です。正確には、アルゴリズム「エンジニアリング」チームです。アルゴリズム チームはより基本的なレベルですが、アルゴリズム エンジニアリング チームは実際には既存のアルゴリズムを実践およびエンジニアリングするチームであり、非常に必要です。

AI ビジネスを運営するには、R&D チームに、アルゴリズム チーム、ソフトウェア チーム、機器チーム、運用およびプリセールスの役割が必要です。これらのチームの役割間の関係について簡単に説明します。たとえば、アルゴリズム チームとソフトウェア チームの関係は自然なもののように思えます。アルゴリズム チームはアルゴリズムを提供し、ソフトウェア チームはそれを製品にパッケージ化します。しかし、現実にはそれほど直接的ではありません。アルゴリズムの結果は段階的に得られる必要があり、最初に得られる結果は間違いなく良いものではありません。ソフトウェアチームがユーザーに提供する価値は、アルゴリズムを通じて反映されます。しかし、アルゴリズムが十分でない場合は、ソフトウェアがスケープゴートの役割を果たさなければならず、さまざまな手段で補助する必要があります。アルゴリズムは万能ではありません。ソフトウェアがアルゴリズムを適切なタイミングで巧みに使用して初めて、アルゴリズムの最大の価値が実現されます。翡翠をレンガのように扱うことはできません。これらのチームについては語るべき話がたくさんあるので、機会があればまとめたいと思います。

本日のシェアは以上です。皆様ありがとうございました。

<<:  Mobvoi Guo Xiao: 自動運転の中核要素の実現と車両インタラクションにおけるAIの応用

>>:  人工知能、機械学習、ディープラーニングの違いと関連性を説明する記事

ブログ    
ブログ    
ブログ    

推薦する

2021 年に注目すべき 9 つの IoT トレンド

[[373805]]画像ソース: https://pixabay.com/images/id-577...

AIIA2020人工知能開発者会議が成功裏に開催され、オープンソースを採用してAIの新たな勢いが生まれました。

【51CTO.comオリジナル記事】 9月28日、「オープンソース開発とオープン性」をテーマにした...

AI生成コンテンツの隠れた危険性:AIがAIを学習するだけでは、インターネットは意味のないコンテンツで満たされる

6月20日のニュースによると、人工知能(AI)は急速に発展しているが、隠れた危険性ももたらしている。...

未来は人工知能の時代であり、さらに Python の時代です。

Python はますます人気が高まっています。近年の Python の人気は、人工知能や機械学習と...

...

エッジ AI は何ができるのでしょうか?

人工知能 (AI) は、デバイスがユーザーと最も近接するインタラクションポイントでデータに基づく意思...

壁につかまることを学んだロボット:私を落とすことはできない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Googleが独自のAIチップを開発することを選択した6つの理由

[51CTO.com クイック翻訳] 長い間、Google などのクラウドベンダーは、自社のデータセ...

無人運転車の現状はどうなっているのでしょうか?

私たちはここ数年、自動運転車について話し合い、議論してきました。しかし、道路上では見かけません。これ...

パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

[[262791]]それを受け入れるかどうかは別として、突然の火災でノートルダム大聖堂は焼け落ちた...

中国でApp Storeのランキング操作を禁止しアルゴリズムを調整

国内アプリプロモーション機関APPYINGはこのほど、アップルのApp Store Chinaランキ...

...

...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...