Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く新たな大変革の時代を迎えています。 IDC は、AI 時代の到来は次の 3 つの推進要因と密接に関係していると考えています。
1. より膨大なデータ<br /> ある程度、データの量が多いほど、ニューラル ネットワーク モデルの予測精度が高まり、機械の自律的な意思決定の結果もよりスマートになります。過去 10 年間で、モバイル インターネットの発展により、ネットワーク データの量が急増しました。
IDCの予測によると、2020年には世界のデータ総量は44ZBを超え、そのうち中国のデータ総量は8ZBを超え、世界のデータの約18%を占めることになります。また、IoT技術の成熟に伴い、2025年までに世界のIoT端末の数は800億に達し、大規模で効率的なセンサー技術がデータ収集に大きなサポートを提供するでしょう。豊富なデータ リソースは、AI の成熟した開発のためのリソース基盤を構成します。
2. より強力なコンピューティングパワー<br /> まず、クラウドコンピューティング技術の弾力性と拡張性により、ニューラルネットワークは低コストで大規模なCPUコンピューティングパワーを動的に取得できます。次に、GPUと並列アーキテクチャにより、ディープラーニングのコンピューティング速度を加速し、機械学習システムを高速にトレーニングできます。さらに、チップと半導体技術の発展により、FPGAやTPUなどのAI専用のハードウェアアーキテクチャが登場し始めており、ニューラルネットワークの結果の速度と精度が大幅に向上しています。
3. よりスマートなアルゴリズム<br /> ディープラーニングは、コア機械学習アルゴリズムの変革に消えることのない貢献をしてきました。ディープラーニングでは、以前のニューラル ネットワークと比較して、グラフ モデルのレイヤー数と単一レイヤー内のノード数が大幅に改善されました。現在、大手のAIサービスプロバイダーは、数多くのディープラーニングアルゴリズムを公開しています。これらのサービスプロバイダーは、豊富なデータの蓄積に基づいて、比較的安定した画像処理および音声認識アルゴリズムモデルをトレーニングし、クラウドプラットフォームを通じて出力することで、開発者が開発環境を迅速に展開し、アプリケーションを構築できるようにしています。同時に、TensorFlowやTorchなどのオープンソースフレームワークや、Brain++などの独自開発のディープラーニング基本プラットフォームも開発を加速させており、アルゴリズム指向の研究開発が主流になりつつあり、AIの成熟度と知能化を大きく促進しています。


AIはスマートフォンのユーザーエクスペリエンスを向上させる鍵となる

AIの台頭は私たちの生活にも大きな変化をもたらしました。近年、AI技術の急速な発展に伴い、インテリジェント製品やサービスが徐々に発見され、さまざまなスマート端末デバイスに採用され、統合されてきました。AI、スマート端末、アプリケーションの組み合わせにより、アルゴリズム、ハードウェアから産業アプリケーションまで、完全な産業エコシステムが形成されています。スマートフォン、AR/VR デバイス、ドローン、スマート ホームなどの製品は、ニッチなシナリオの探索から大規模な消費者向けアプリケーションへと移行しました。人々の生活は AI の助けを借りてデジタル的に再形成され、効率的で便利なデジタルライフ体験を提供しています。携帯電話は、単なる通信ツールから人々の生活や仕事への入り口へと進化しました。
IDCの統計によると、2017年の世界スマートフォン出荷台数は14.7億台で、前年比0.3%減となった。前年比での減少は***年に発生し、中国市場の変化傾向がより顕著となった。2017年の中国のスマートフォン出荷台数は4.4億台で、前年比4.9%減となった。これは、従来のスマートフォン市場が飽和状態になり、携帯電話メーカーは販売と価格の競争から品質と体験の競争に転換しなければならないことを意味する。
2017年には、ますます多くの携帯電話メーカーがAIがスマートフォン業界にもたらした価値を認識し、独自の「AI+携帯電話」を発売しました。 2018年、主流の携帯電話メーカーはフラッグシップモデルにAI技術を全面的に導入し、AIチップを搭載した携帯電話も市場の主流になりつつあります。


モバイルアプリケーションにおける AI 技術の普及率 出典: IDC、2018 年


モバイル AI アプリケーションでは、視覚的なアプリケーションが主な需要です。また、上の図から、主流のモバイル AI アプリケーションのほとんどは視覚アプリケーションに関連していることがはっきりとわかります (青い棒グラフ)。視覚技術の向上は現在、ユーザー エクスペリエンスを向上させる最も直接的で効果的な手段であると言えます。


「AI+ケータイ」はまだ初期段階
最近、IDC中国デジタル変革年次式典が北京で盛大に開催されました。コラボレーション、イノベーション、加速をテーマにしたこの会議では、業界のホットな話題や業界リーダーに焦点を当て、中国のデジタル変革の道筋について共同で議論しました。
会議では、Megvii Technologyの副社長である謝怡南氏が51CTO記者との独占インタビューに応じ、AIで携帯電話業界を強化したMegvii Technologyの経験を共有した。


Megvii Technology副社長、謝怡南氏

AIフォンについては、早くも2017年7月に、中国情報通信研究院がMegviiなどのAI+携帯電話業界と共同で「AIモバイルインテリジェント端末ブルーブック」を発表し、より直接的なサービス、つまりより高速、より自然なインタラクション、つまりより温かみのある対応、よりスマートなアシスタント、つまりユーザーをより深く理解する、という定義を示しました。しかし、顔認証でロック解除できる携帯電話は AI 携帯電話と言えるのでしょうか?明らかにそうではありません。 IDCは、AI+携帯電話業界に関するホワイトペーパーで、スマートフォンにおけるAIの価値は、ユーザーのニーズを事前に予測し、それに応じたガイダンスや応答を積極的に提供し、スマートからインテリジェントへの移行を実現する能力にあると指摘しました。AIロック解除は、業界にとって前進の第一歩にすぎません。


MegviiとIDCが発表したAI+携帯電話業界のホワイトペーパーデータによると、現在の「AI+携帯電話」はまだ比較的初期段階にあり、多くの機能アプリケーションはまだ制限があり、特定のシナリオでしか機能しません。謝怡南氏は「完全な人工知能携帯電話はまだ遠い。真の人工知能携帯電話は、あらゆる方法でユーザーを認識し、総合的な体験、消費、プロセス、パフォーマンス制御を考慮した一流の製品でなければならない。現在私たちが取り組んでいるのはAIカメラだけだ。視覚技術は携帯電話業界がユーザー体験を向上させるための最も直接的で効果的な手段だ」と語った。


2017年、MegviiはコアAI技術の携帯電話業界への応用を拡大し始めました。当社は、コアとなるディープラーニングとコンピュータービジョン技術をベースに、顔認証による決済、顔認識によるロック解除、ポートレート照明効果、ポートレート背景ぼかし、動画美化、3Dアニ文字などを含む一連のモバイルAI製品を発売し、顔認証によるロック解除、画像強化、カメラ強化、インテリジェントな画像および動画処理におけるさまざまな携帯電話メーカーのニーズに応えています。1年足らずで、Huawei、Xiaomi、vivo、OPPOなど、国内の大手携帯電話会社との緊密な協力関係を実現しました。
Megvii Technologyは、AI+モバイル業界に関するホワイトペーパーで、ロック解除、支払い、ポートレート処理などのシナリオにおけるアプリケーションのイノベーションを共有しました。これには、3D構造化ライトを搭載した最初の量産AndroidモデルであるOPPO Find Xが含まれます。Megviiは、大量のデータトレーニングと自社開発のコアアルゴリズムを通じて、OPPO Find Xに3D顔ロック解除支払いと3Dポートレート照明効果を提供し、ユーザーに破壊的なヒューマンコンピューターインタラクション体験をもたらします。また、Megvii Technologyはvivoと協力して、単一のフロントカメラのみを備えたvivo X23に赤外線デュアルパスゼロライト顔ロック解除ソリューションを提供し、ロック解除体験、セキュリティ、ハードウェアコストを組み合わせます。 10月18日に発売されたばかりのLenovo S5 proには、ロック解除、3D美化、ポートレート照明効果処理のためのMegviiのAI機能も統合されています。
人工知能の恩恵とあらゆるもののインターネット時代の到来により、AI は新たな発展の機会に直面しており、モノのインターネットとの統合はさらに緊密になります。個人が IoT 時代を受け入れるための窓口として、携帯電話は社会のデジタル化の過程で必然的に新しい技術によって革新されるでしょう。 AI ビジョン テクノロジーで業界を強化する過程で、Megvii はモバイル インテリジェンスの分野を探求し続け、より多くのエコシステム パートナーと協力して、AI で携帯電話のビジョンの世界を変革していきます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  AI+がん診断:巨人の「小さなそろばん」はまだ実現困難

>>:  フロントエンドエンジニアは、これらの18のトリッ​​クをマスターすることで、ブラウザでディープラーニングを習得できます

推薦する

今日のアルゴリズム: 文字列内の単語を反転する

[[423004]]文字列が与えられたら、文字列内の各単語を 1 つずつ逆にします。例1:入力: 「...

...

市場規模は100億を超え、マシンビジョンはブルーオーシャンの傾向を示す

マシンビジョンとは、人間の目の代わりに機械を使って物事を測定・判断し、その判断結果に基づいて現場の設...

LLVM の創始者、クリス・ラトナー: AI インフラ ソフトウェアを再構築する必要がある理由

かつて人々は AI の美しいビジョンを思い描いていましたが、現状は満足できるものではありません。 A...

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

持続可能なスマートシティの開発におけるスマートビルの重要な役割

[[388162]]画像ソース: https://pixabay.com/images/id-158...

AI テクノロジーは二酸化炭素排出量とどのような関係があるのでしょうか?

現在、世界のビジネスで大きな波を起こしている大きなトレンドが 2 つあります。 1 つ目は、企業が生...

...

人工知能は人間の言語を習得したのか?見た目は騙されることがある

[[247418]]人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人...

Java 上級: 負荷分散のための 5 つのアルゴリズムの詳細な理解

この記事はWeChatの公開アカウント「Android Development and Progra...

297 件の論文すべてを 1 つの記事で読むことができます。中国科学院が「拡散モデルに基づく画像編集」に関する初のレビューの出版を主導

この記事では、画像編集の最先端の手法を包括的に研究し、技術的なルートに基づいて 3 つの主要なカテゴ...

...

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されていま...

機械学習パイプラインについて知っておくべきことは何ですか?

【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD)...

Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

最近、ドリームワークスの創設者ジェフリー・カッツェンバーグ氏は、生成AIの技術がメディアとエンターテ...