「テクノロジー研究と現実世界の問題を組み合わせ、現実の問題を解決して価値を生み出すことにますます興味を持つようになりました」とアリババクラウドのビジュアルコンピューティングチーム責任者、華賢生氏は語った。 Hua Xiansheng 氏は、視覚認識および検索の分野における第一人者です。IEEE フェロー、ACM 2015 優秀科学者、MIT TR の 35 歳以下の優秀な若手イノベーター 35 名の 1 人に選ばれています。ACM Multimedia などの会議のプログラム委員会の委員長を務めています。 2015年、華先生氏は自身のキャリアのスタート地点であるマイクロソフトリサーチを離れ、アリババに入社することを選びました。これは多くの人にとって理解しにくい選択ですが、華先生氏の考えでは、理論的な研究は価値がありますが、これらの技術を実際の応用シナリオに取り入れて、より多くの人が使用できるようにすることも同様に意味があります。 アリババに入社した1年目、華先生は電子商取引の画像検索技術の最適化を担当し、タオバオモバイルと天猫で「派利涛」の技術開発を推進しました。これにより、ユーザーは携帯電話で商品の写真を撮ることで、同じ商品や類似商品を検索できるようになりました。これは、商品を検索するより効率的な方法になりつつあります。統計によると、2015年11月11日には数千万人の消費者が「Pai Li Tao」機能を利用し、数千万元以上の売上を達成した。 クラウド上のビジュアルコンピューティングの需要が高まるにつれ、Hua Xiansheng は 2016 年初頭に Alibaba Cloud に移り、ビジュアルコンピューティング チームを設立しました。このチームは現在、人工知能研究機関である iDST チームに所属しています。 2月27日、Syncedは華先生氏との独占インタビューを実施し、ビジュアルコンピューティングチームが推進する研究の進捗状況とブレークスルー、AI業界の発展に関する見解を紹介しました。
ビジュアル コンピューティング チームはどのようなブレークスルーを達成しましたか? Synced: あなたが率いる Alibaba Cloud Visual Computing チームが成し遂げた画期的な成果について教えていただけますか? 華先生:ビジュアルコンピューティングチームを設立してから、私たちは監視、交通、セキュリティ、顔、個人写真、医療など、いくつかの主要なシナリオに焦点を当ててきました。最も重要な部分は、実際には都市脳のビデオ分析です。この分野でのブレークスルーは、いくつかの側面に分けられると思います。 ***は大規模なビデオ分析です。私たちが処理する都市データの量は非常に大きく、電子商取引のデータをはるかに超えています。これには大規模なビデオのリアルタイム処理と分析が含まれるため、大規模なビデオデータ分析プラットフォームを構築するには、Alibaba Cloudの高効率コンピューティングプラットフォームに依存する必要があります。 2つ目は、電子商取引の画像検索技術を都市のシーンに拡張することです。これは都市画像検索または都市検索と呼ばれます。より専門的な言葉で言えば、都市全体のインデックス作成とも言えます。都市のビデオデータや画像データは非常に多いため、車、人、オブジェクトなど、検索に問題が発生するのは当然です。これは電子商取引と似て非なるものです。視覚的な観点からそれを行うのは実際には非常に困難です。 3 つ目は、交通事故、違法駐車、信号無視など、市内で発生する特殊な交通事故を検出し、特定できることです。 Synced: ビジュアル コンピューティング チームは、研究の方向性を明確に定めているのでしょうか? 華先生氏:一方では、クラウド コンピューティング上での大規模なビデオ分析が実現可能であること、またアルゴリズムを継続的に最適化できることを保証する必要があります。もう一つのポイントは、業界をさらに深く掘り下げ、あらゆる分野で金鉱を探索し、その中のアルゴリズムを最適化し、各業界を徹底的に理解し、顧客に真の価値をもたらすことです。もちろん、ディープラーニングのアルゴリズム自体にはまだまだ研究の余地があり、それが私たちが次に取り組むことです。 Synced: City Brain はあなたのチームの重要なプロジェクトです。都市の道路管理、道路状況の予測、交通スケジュールの最適化に加えて、他の応用分野はありますか? 華先生氏:現在、シティブレインは主に道路状況の検出と識別、交通の最適化などの交通アプリケーションに使用されています。都市脳は「頭脳」なので、当然、セキュリティ、都市計画、環境保護、観光など、より多くの機能を備えているはずです。安全保護の面では、前述のように、人、自動車、非自動車などのリアルタイムインデックスにより、都市の安全予防および制御能力が向上し、土砂崩れ、洪水、水漏れ、交通事故などの異常なイベントを迅速に警告することもできます。このとき、1分前に警告を受け取ることができることは大きな価値があり、たとえば、人の命を救うことができます。もちろん、多くの技術はまだ研究と改良の段階にあります。一方、街中のカメラデータ以外にも、衛星データやドローンデータなどもあり、都市計画や環境保護などの検出にも役立つ可能性があります。一般的に言えば、それは街全体の目のようなものです。実際、それは単なる目ではなく、複眼のようなものです。そして、それは単に見るだけでなく、理解して識別し、すべてを見て、明確に見て、見通すこと、そしてそれに応じた決定を下すことも意味します。 Synced: 道路状況を効率的かつ正確にシミュレーションして予測することは、解決が難しい問題です。リアルタイムの交通予測を実行するために使用されるアルゴリズムについて詳しく紹介していただけますか? 華先生氏:まず、都市全体とその交通状況を包括的かつ明確かつ徹底的に理解する必要があります。全体像を見るには、街中にカメラがたくさんあるため、先ほど述べたような大規模な映像処理が必要となり、また、歩行者情報など、これまでの交通分野では得られなかった情報も含まれます。実際、これまでの交通モデルでは、情報を取得する方法がなかったため、利用できませんでした。車両情報も、地上の誘導コイルなど、他の手段で部分的に取得できます。もちろん、これは少し大まかで、車種を知る方法はありません。 2つ目は、GPSを通じて情報をサンプリングすることですが、これも完全ではありません。ビデオからの情報は非常に完全に見ることができ、車両や人の流れ全体を見ることができます。 技術的に言えば、はっきりと見えるということは、通過する車の台数、車の種類、ナンバープレート、行き先、左折、右折、直進のいずれなのか、速度はどれくらいか、などを確認することを意味します。また、横断歩道を占有している歩行者の数なども含まれます。これらは交通を最適化するために非常に重要な情報ですが、以前は入手できませんでした。 徹底的な観点から言えば、それは実際には大量のデータ間の関係性を探究してルールを発見したり、データ間の相互制約を発見したりして、意思決定を行うことです。たとえば、交通の最適化で信号機を最適化したい場合、この交差点の情報だけを見るのではなく、多くの交差点を見る必要があります。なぜなら、この交差点の問題を解決すると、他の交差点でさらに渋滞が発生する可能性があるからです。 これら 3 つのレベルの理解が得られたら、トラフィック モデルに進むことができます。クラウドコンピューティング企業として、当社は交通専門家の研究成果と交通管理部門の実践経験と組み合わせた、より大規模でより正確なデータ、特に視覚データに基づいて、交通モデリングと最適化の問題を解決することを目指しています。 Synced: 交通事故や渋滞問題に遭遇したとき、最善の解決戦略を導き出すためにどのような評価指標システムが使用されますか? Hua Xiansheng: 一般的に言えば、交通状況を確認した後で、実際に信号を最適化することができます。オフライン最適化とは、毎日のルールや週の長期ルール、およびタイミング計画に従って、信号機の 1 回限りのオフライン最適化を行うことです。タイミング計画は、月曜日の朝、正午と夕方、火曜日の特定の時間から特定の時間までの様子を、日ごとに異なる計画で示します。 交通事故への対応にはリアルタイムの規制が必要であり、それは2つのカテゴリに分けられます。1つは、交通がすでに混雑しているが、完全にブロックされる前に傾向が見られた場合です。信号を制御し、一方の方向の時間を延長し、もう一方の方向の時間を短縮することができます。これが信号規制です。もっと賢い方法は、事故が起きているのを観察すれば、その規模やそれが引き起こす可能性のある交通問題を大まかに見積もって、事前に交通迂回計画を立てることです。これは実行可能です。 Synced: City Brain プロジェクトにおけるリアルタイムおよびオフライン ビジュアル コンピューティング プラットフォームの主要な技術的ポイントとデータ規模について詳しく紹介していただけますか? 華先生:これは非常に良い質問です。 Alibaba Cloud のコンピューティング プラットフォームは FeiTian システムと呼ばれ、スーパーコンピューターと考えることができます。 FeiTian のオフライン コンピューティングおよびリアルタイム コンピューティング システムには 100 万個の CPU コアがあり、これはかなりの数です。 1EBの容量のハードディスクが60万台あります。1EBは1024PB、1PBは1024TB、1TBは1024GBです。この量は非常に大きいです。ビデオ分析はこのような大規模なコンピューティング能力に依存しており、このような能力があって初めて複雑で大規模な計算を完了することができます。 ビデオに関しては、もちろん、ビデオ処理には、大量のデータ、高いスループット、非常に高いコンピューティング消費などの独自の特性があるため、ここではいくつかの特別な側面があります。これを基に、コンピューティング プラットフォームと連携してビデオ データを処理できるようにします。比喩的に言えば、栄養素を食べて消化し、吸収することで、最終的に結果を生み出すことができます。 しかし、ここでのビデオ処理は特別です。ビデオ処理には時間的な相関関係があります。たとえば、ある瞬間の画像を処理する場合、その画像はそれ以前のいくつかの瞬間の画像に依存するため、このロジックはビデオ内で便利に処理される必要があります。たとえば、交通のシナリオでは、現在のビデオでさえ、決定を下すために他のいくつかのビデオと組み合わせる必要があります。たとえば、信号制御の場合、交差点で 1 つの道路だけを見るだけでは、あるいは交差点で 4 つの道路を見るだけでは絶対に不十分です。決定を下すには、複数の交差点を一緒に見る必要があります。これも物理空間における相関関係です。私はこれを「空間と時間の相関関係」とよく呼んでいます。この場合、計算はスムーズに完了し、リアルタイムで意思決定を行うことができますが、これはプラットフォームを通じてのみ実現できます。アルゴリズムの専門家は、アルゴリズムの精度と計算効率を向上させるために、アルゴリズムの研究開発にさらに多くのエネルギーを注ぎます。 同期:オフラインおよびリアルタイム処理において、道路車両情報、道路状況情報などの理想的な認識精度を実現するには、どの程度の大きさのトレーニング サンプル ライブラリが必要ですか? Hua Xiansheng: これはケースバイケースのアプローチです。より単純な問題の場合、識別するターゲットが非常に具体的で、他のターゲットや背景と大きく異なる場合、それほど多くのサンプルは必要ありません。もちろん、実際のアプリケーション環境では状況はより複雑であることが多く、実際のアプリケーションでは認識モデルを反復的に最適化する必要があることがよくあります。オフラインおよびリアルタイム処理は、トレーニング環境ではなく、モデルがトレーニングされた後の運用環境です。もちろん、モデルのオンライン更新は、オフラインのリアルタイム処理システムと連動して行われます。 Synced: 近年、ディープラーニングの産業応用が開発トレンドとなっており、計算速度もアルゴリズムが実装可能かどうかを測る重要な性能指標となっています。このプロジェクトでは、計算速度の向上が驚くべきものであることがわかりました。シングルコア CPU での画像 1 フレームの処理速度は、998 ミリ秒から 135 ミリ秒に向上しました。Intel ベースの MKL アクセラレーションと、ディープラーニング モデルの最適化においてどのような取り組みが行われたかについて教えてください。 Hua Xiansheng: 実際、当社の初期モデルは CPU で処理するのに 2,600 ミリ秒かかりました。これは実はかなり遅いです。その後、私たちは Intel と協力し、Intel の CPU 最適化を利用して、処理時間を 1 つのコアで 900 ミリ秒以上に短縮しました。その後、モデル構造の最適化、パラメータの最適化など、アルゴリズム自体の最適化を行い、130ミリ秒以上に短縮しました。これは、合計で10倍以上の何倍もの改善でした。この 10 倍以上の改善は大したことではないように思えるかもしれませんが、大量のコンピューティング リソースにとっては非常に重要です。何かを実行するのに必要なマシンが 1 台か 2 台だけであれば、大きな問題にはなりません。しかし、同時に 10,000 台または 20,000 台のマシンを実行する必要がある場合、それは大きな問題になります。この金額の差は非常に大きいです。したがって、大規模コンピューティングの効率化も非常に重要な方向性です。 Synced: ディープラーニング コンピューティング アクセラレーション テクノロジの実際のアプリケーションでは、GPU (M4) アクセラレーション、CPU (Intel MKL) アクセラレーション、FPGA アクセラレーションのどれが業界のニーズに合っていると思いますか? Hua Xiansheng: それぞれに利点があります。もちろん、CPU の特性だけに基づいて最適化するのは、依然として非常に困難です。技術的には、FPGA は確かに複雑ですが、コストはより低くなるはずです。 Synced: 顔認識技術はコンピュータービジョンの重要なトピックです。Alibaba Cloud の顔認識技術は、サーバー上で 99.53%、モバイル フォン上で 98.93% の精度を達成しています。その背景にある顔認識技術とアルゴリズムの革新について教えていただけますか? 華先生:当社の認識技術と他社の間には大きな違いはありませんが、他の分野(3D試着、衣服試着、メイク試着など)では革新的なアプリケーションをいくつか提供しています。精度は主流の企業が提供するものと同等です。一般的な方法に加えて、Pailitaoでは電子商取引の画像特徴学習の経験も活用しています。 Synced:顔認識や画像認識技術は、セキュリティファイナンス、インテリジェント監査、画像編集など幅広い用途があります。アリババグループの内部製品をサポートするだけでなく、他のプラットフォームベンダーとの連携も推進していますか? 華先生:アリババクラウドのビジュアルコンピューティング技術は主にBサイドアプリケーションに使用されていますが、もちろんCサイドアプリケーションにも使用されています。私たちは、視覚インテリジェンスを活用してあらゆる分野の問題を解決することに重点を置いています。過去には解決できなかった問題や、人間の目だけで解決できた問題、つまり時間と労力がかかった問題が、今ではシンプルかつ効率的になっています。また、サードパーティのアルゴリズムを Alibaba Cloud のビジュアル コンピューティング プラットフォーム上で実行し、より多くの顧客とユーザーに真の価値をもたらすエコシステムの構築にも力を入れています。 同期: 今日の顔認識システムは、依然として主にラベル付きデータによるトレーニングに依存しています。ただし、特定のタスクにおける特定のグループ (犯罪捜査や公安監視タスクにおける子供やティーンエイジャーなど) に対するトレーニング データが不十分な場合、アプリケーションの結果は悪くなります。さらに、不安定な画像品質や、ターゲットの意図的な偽装が認識に影響を与える可能性があります。今後の顔認識においてこれらの問題を解決するための方向性は何でしょうか? 華先生氏:金融の場面では、Ant Financial が買収した EyeVerify のアイプリント技術などのアイプリント方式を使用して、精度をさらに高めることを検討できます。しかし、多くの監視シーンでは顔の解像度があまり高くなかったり、画質が悪かったりするのも事実です。この場合、人体の特徴や歩き方などのコンテキストを利用することが考えられます。このシナリオでは、金融シナリオでの顔の比較とは異なり、人間または顔の認識に対する要件が異なります。非常に高い精度は必要ではなく (また、達成できません)、むしろ高い再現率が必要であり、その後、手動でさらに確認されます。 Synced: 産業診断でも医療画像処理の分野でも、コンピューター ビジョンで問題を解決するには高い精度が必須条件です。精度向上における現在の課題は何ですか? Hua Xiansheng: このシナリオは、典型的な認識シナリオとは異なります。このタイプのシナリオの対象は通常、低確率のイベントであり、肯定的な例は非常に少なく、肯定的な例間の違いが非常に大きいため、列挙することさえできない場合があります。この場合、高い再現率が主な目標であり、精度は犠牲にされるべき目標です。たとえば、10,000 個のサンプルのうち、陽性ターゲット サンプルが 10 個しかなく、アルゴリズムによって陽性サンプルが 100 個あることが検出された場合、陽性サンプルがこの 100 個以内であれば、再現率は 100% になりますが、精度率はわずか 10% になります。ただし、これはすでに非常に良い結果です。10,000 個のサンプルを確認せずに、これらの 100 個のサンプルを手動で確認するだけで済み、手作業の 99% を節約できるからです。したがって、このアプリケーションの鍵となるのはリコールであり、その後徐々に誤報を減らし、つまり精度を向上させることです。 Synced: Alibaba Cloud はシミュレートされたビデオ画像を生成するためにどのような方法を使用していますか? 華先生:ここでは2種類の世代があります。 1つは、3次元シーンへのオブジェクトの埋め込みです。このシナリオでは、3次元再構成、埋め込み位置の検出、3次元ターゲットのシーンへの埋め込み、シーンとともにの移動が必要です。もう1つは、平面グラフィックスの生成です。これは、本物と区別がつかない特定の種類の画像を生成するために使用されます。この方法は、現在、トレーニングデータの大規模な自動合成に使用されているGAN(生成的敵対的ネットワーク)に基づいて独自に開発された方法です。 Synced: Alibaba Cloud の画像検索技術の特徴について簡単にお話しいただけますか? 華先生:アリババの画像検索技術は技術的にも実践的にも深い蓄積があり、電子商取引の分野で長年にわたり改良されてきました。現在、都市画像検索のシナリオに適用しています。一般的に言えば、画像インデックス作成プロセスは画像検索の鍵であり、認識、ターゲット検出、特徴抽出、インデックス確立が含まれます。インデックス確立の品質は、検索結果のランキングの品質(関連性)と検索効率に直接関係しています。認識、ターゲット検出、特徴はインデックスの品質の鍵となります。基本的に、各ステップはディープラーニングによって実現されます。1 つのステップに問題があると、満足のいく結果は得られません。 Synced: コンピューター ビジョンは、ディープラーニングでブレークスルーを達成した最初の分野です。静止画像では大きな成功を収めています。次のブレークスルーはどこにあると思いますか? 解決すべき重要な課題は何ですか? 華先生:確かに、ディープラーニングは視覚、音声、自動翻訳の分野で大きな応用があります。テキスト検索ではなぜそれほど進歩していないのでしょうか?もちろん、ディープラーニングが十分に進んでいないと考える人もいます。また、画像と音声、特に画像とセマンティクスの間にはまだ大きなギャップがあるためだと言う人もいます。そのため、ディープラーニングはこの点で重要な役割を果たすことができます。視覚的に見ると、まだ解決すべき問題が多く、ディープラーニングのアルゴリズム自体にも研究の余地がたくさんあると思います。だからといって、すべての問題がうまく解決されたというわけではありません。このモデルは長年にわたって進化しており、トレーニング戦略は常に改善されてきました。 もう1つは人工知能プラットフォームですが、これも検討する価値のある方向性だと思います。過去のコンピュータに Windows のようなスタンドアロンのオペレーティング システムがあったのと同様に、多数のプログラムが Windows プラットフォーム上で生成されました。携帯電話でも同じです。Android や Apple の iOS では、多数のアプリケーションが生まれています。クラウド コンピューティングでも同じです。クラウド コンピューティング プラットフォーム上で、徐々に多数のアプリケーションが形成されつつあります。では、AI も同じでしょうか? 従来のプログラム作成と同じくらい簡単に、AI アプリケーションの開発や研究を行えるプラットフォームが必要でしょうか? これも非常に重要だと思います。 アプリケーションの観点から見ると、特に大規模なビジュアルコンピューティングでは、コンピューティング効率も非常に重要になると思います。大量のデータが必要な場合は、計算量が非常に大きくなり、制御可能なリソース消費で完了する必要があります。このタスクを完了しようとすると破産してしまうことがわかったら、続行する方法はありません。これには、アルゴリズム自体の効率など、システムアーキテクチャの効率など、さまざまな最適化が含まれます。これも非常に重要なシステムの問題です。 アルゴリズムの配当は徐々に消えていく Synced: あなたはこの業界に約 20 年間携わり、人工知能業界の技術的変化を目の当たりにしてきました。あなたの意見では、この業界の人気の波に貢献した要因は何ですか? 華先生氏:個人的には、テクノロジーが最も重要な理由であり、根本的な原動力であると考えています。近年、テクノロジーは大きく変化しました。まず、機械学習テクノロジー、特にディープラーニングテクノロジーは、認識、検索、生成において従来の方法よりも優れたパフォーマンスを発揮します。 2つ目はコンピューティングパワーです。特にクラウドコンピューティングにより、コンピューティング能力は従来をはるかに超えるものとなり、大量のコンピューティングパワーを手に入れることが非常に便利になりました。もちろん、モバイルデバイスの発達も重要な要素です。画像検索がちょうど前世紀に研究され始めた頃、非常に人気があったことを覚えています。当時は CBIR と呼ばれ、多くの博士論文が生み出されました。しかし、当時は、最初の写真はどこで手に入れたのかとよく聞かれました。今では、データの入手が非常に簡単になったため、これはもう問題ではありません。ネットワーク帯域幅の発達により、デバイス側とインターネット上で大量のデータ、特に視覚画像認識データを送信できるようになりました。これらの要因は、人工知能の急成長に貢献しています。 Synced: あなたの意見では、成功する商用アプリケーションにはどのような条件が必要ですか? 華先生:条件は5つあると思います。 1つ目はアルゴリズムです。優れたアルゴリズムが必要であり、そのアルゴリズムは高度でなければなりません。アルゴリズムが優れていなければ、すべてに基礎がなくなります。 (もちろん、才能とアルゴリズムは密接に結びついているので、アルゴリズムを科学者とみなすこともできます)。 2つ目はデータを取得することです。データ自体は、データの収集、収集、クリーニング、効果的なラベル付け、さらにはアルゴリズムでのデータの使用方法など、非常に大きなトピックです。 3番目はユーザーです。あなたが作るものにはユーザーがいるべきです。なぜなら、それをさらに良くするためにはユーザーの参加を必要とする問題がたくさんあるからです。もちろん、ビジネスの観点から言えば、ユーザーがいなければ長くは続かないでしょう。ユーザー自身はデータの消費者であると同時に提供者でもあります。これは過去の検索エンジンでは非常に重要でした。誰もが検索エンジン技術の成功に貢献してきたと言えます。 4番目はプラットフォームです。これには、強力なコンピューティング能力と、研究開発、展開、生産を促進できるシステム アーキテクチャが必要です。これは必須です。もちろん、クラウド コンピューティングの登場により、多くの企業にとってこのボトルネックは以前ほど困難なものではなくなりました。 5つ目は、優れたビジネスモデルを持つことです。良いビジネスモデルがなければ、長続きしません。頻度が低く、あまり多くの人が利用しなかったり、少数のユーザーに大きな価値を提供できず、生み出される全体的な価値が十分でなかったりするようなことをすると、それを長く継続することは実際には困難です。これらの点は誰もが持つべきであると個人的には思います。もちろん、ビジネス アプリケーションによって重点は異なりますが、すべてのアプリケーションに同じ重点があるべきだと思います。 Synced:多くの大企業がAIに賭けており、スタートアップ企業もどんどん参入しています。企業間の差はどのような部分に表れるのでしょうか?アルゴリズムは企業競争の中核となる要素なのでしょうか? Hua Xiansheng: これは非常に良い質問で、多くの議論が行われています。私の意見を述べさせてください。多くの企業はアルゴリズムからスタートしましたが、アルゴリズム間の違いは徐々に小さくなると思います。特に現在では、ディープラーニング手法や多くのオープンソース技術が登場しており、内部関係者や専門家にとって、それらのアルゴリズムのパフォーマンスの違いは実際にはそれほど大きくありません。たとえば、AFW の顔認識では、全員のテストの差は小数点以下 1 桁か 2 桁で、大きな差ではありません。 ImageNet の場合も同様で、約 99.6% または 99.7% であり、達成するのは難しくありません。内部的には大した違いはありませんが、実際のシナリオに適用すると違いが出てきます。時間が経つにつれて、全員が実際の戦闘で磨かれれば、違いはそれほど大きくなくなります。データの優位性も低下します。大手企業であれスタートアップ企業であれ、多くの企業は少し早くからスタートし、ラベル付けされた情報であれ、実践中にアルゴリズムによって収集されたフィードバックであれ、大量のデータを蓄積してきました。時間が経つにつれて、アルゴリズムとデータの配当は徐々に減少します。もちろん、これは特定の画像認識、検索、または生成アルゴリズムを指します。多くの業界では、データの取得に障壁があり、データ自体は価値があります。関連データがない場合や不十分な場合、データに基づくインテリジェンスとアプリケーションは完成しません。このとき、データ自体がコア競争力になります。関連データに簡単にアクセスできる場合、それは競争上の優位性の中核にはなりません。 他に何が競争力があるのでしょうか? それはやはりプラットフォームとビジネス アプリケーションによって決まると思います。ビジネスモデルの観点から見ると、特にこのニッチな業界において競争力を持続させることができ、大きな深みを達成しています。この部分はそれほど明白ではないため、気軽にやっても 90% などを達成できるわけではありません。一生懸命努力し、この業界に深く入り込み、実際のシーン データのいくつかの特性を組み合わせて、徐々にこの業界を理解して浸透し、この業界で地位を確立してマスターになる必要があります。まあ、これは実際に区別することができます。この分野には非常に多くの業界があるため、必ずしも単一の板橋に押し込む必要はありません。一般的な画像認識や非常にホットな分野を磨く必要はありません。実際、進むべき道はたくさんあります。 Synced: 現在、AI の脅威に関する理論は数多くありますが、振り返ってみると、AI の全体的な発展とその実証された技術的能力について、人々は楽観的すぎるのではないでしょうか。 華先生氏:確かに、いくつかの問題については冷静に、さまざまな角度から検討する必要があります。たとえば、現在の認識は本当にそれほど優れているのでしょうか? 精度の数値は非常に高いように思えるが、実際のシナリオではそれほど良くないことがあるという経験があるかもしれません。例を挙げてみましょう。有名な ImageNet コンテストには、1,000 のカテゴリに分類された何百万もの画像があります。現在、精度は 96% を超えており、エラー率は約 3% であると言われています。実のところ、ここで議論すべきことはたくさんあります。 *** ポイント、96% 以上は、上位 5 つの正解率を示します。つまり、画像が 5 つの結果で認識された場合、そのうちの 1 つが正しければ正しいとみなされます。最後の 1 つだけが正しい場合にのみ正解とみなされると規定されている場合、正解率は 80% 程度にしかならない可能性があります。 2 つ目のポイントは、私たちの世界は非常に複雑であるということです。カテゴリは 1,000 をはるかに超えています。現実の世界には、識別する必要のあるさまざまなものが多すぎます。これは実際にはカバレッジの問題です。先ほど、標準テストレベルでは非常に高いレベルに達する可能性があると述べました。これは精度の問題です。精度はもちろん非常に重要であり、この分野の発展を促進するための重要な指標です。しかし、現実の実際のカバレッジも非常に重要です。カバレッジは、特に識別と検索において、人々の体験に直接関係します。たとえば、その年に Pailitao に取り組んでいたとき、私はカバレッジ問題の解決についても多くの時間を費やして考えました。カバレッジとは、何を検索しても関連する結果が得られることを意味します。正確率とは、検索したものが想像したものと関連している必要があることを意味します。これらは両方とも非常に重要です。現在の認識技術は、実はカバー範囲が狭いのですが、もちろんカバー範囲が広ければ解決できないというわけではありません。私も数年前にシステムを作ったことを覚えています。その時は、インターネットのデータを利用してカバレッジを大幅に向上させました。インターネットのデータを使用してトレーニングデータを自動的にマイニングし、何でも認識できるようにしました。もちろん、この任意のものはまだ条件付きです。データはインターネット上で見つけることができ、十分なデータが見つかったら、自動的にクリーニングしてモデルを構築できます。 3 つ目のポイントは、優れたビジネス アプリケーションがあり、それが本当に業界に浸透して価値を生み出せるかどうかであり、これも非常に重要です。この部分ができないと、長くは続かないでしょう。たとえば、私は存在する私の視点の5つの要素であるかどうかを真剣に考えてください。 同期:AIモデルはどの程度普遍的であり、その場合、カスタマイズされたソリューションが必要ですか? Hua Xiansheng:これは、私たちが業界に深く入るべきだと言っています。携帯電話オペレーティングシステムの多くの楽しいアプリと、これはAppleが単独で作成できるものではないため、このようなエコシステムを作成する必要があります。それはあなたがそこで演奏する唯一の人ではありませんが、多くの人々が現れて演奏することができます。現実の世界は非常に残酷であるため、1つのモデルが世界を征服することはまれです。 [この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id: Almosthuman2014)」からのオリジナル記事です] この著者の他の記事を読むにはここをクリックしてください |
<<: PyTorch から Mxnet まで、7 つの主要な Python ディープラーニング フレームワークを比較
>>: 人工知能 VS 人間: 私たちは本当にいつも負け続けるのでしょうか?
オハイオ州立大学とアイオワ大学の研究者による研究で、ハトは問題を解決する際に人工知能に似た「力ずく」...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
あなたの目の前に表示されている画像の人物は現実には存在しません。実は、機械学習モデルによって作成され...
「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...
最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 ...
テクノロジーへの関心と導入が多様化するにつれ、多くの企業が将来の進路を決める岐路に立たされています。...
量子プロセッサは最先端の研究テーマです。世界トップクラスの研究室や企業の研究機関が常に新たな進歩を遂...
人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...
これは単純なプッシュです。今日はディープラーニングという名前についてのみお話します。ディープラーニン...
[[378431]] 01 5Gのコンセプト5Gの正式名称は第5世代移動通信技術です。これは最新世代...
「ディープラーニングフレームワークは人工知能技術システムの真ん中にあり、下のチップと上のアプリケーシ...
「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...