最近、アリババは軽量ディープラーニングエッジ推論エンジン「MNN」を正式にオープンソース化しました。 AI科学者の賈楊青氏は次のようにコメントしています。「TensorflowやCaffe2など、トレーニングと推論の両方をカバーする一般的なフレームワークと比較すると、MNNは推論中の加速と最適化に重点を置いており、モデル展開段階での効率性の問題を解決し、モバイル側でモデルの背後にあるビジネスをより効率的に実装します。これは、TensorRTなどのサーバー側推論エンジンの考え方と一致しています。大規模な機械学習アプリケーションでは、大規模なモデル展開を考慮すると、機械学習の推論側の計算量はトレーニング側の10倍以上になることが多いため、推論側の最適化が特に重要です。」 MNN の背後にある技術的フレームワークはどのように設計されているのでしょうか?将来の計画は何ですか?今日はそれについてもっと詳しく学びましょう。 1. MNN とは何ですか?MNN は軽量なディープラーニングデバイス側推論エンジンです。その中核機能は、ディープニューラルネットワークモデルの最適化、変換、推論をカバーし、デバイス側でディープニューラルネットワークモデルを実行する問題を解決することです。現在、MNNはTaobao Mobile、Tmall Mobile、Youku、Juhuasuan、UC、Fliggy、Qianniuなど20以上のアプリで使用されており、ライブ放送、ショートビデオ、検索推奨、商品画像検索、インタラクティブマーケティング、権利発行、セキュリティリスク管理などのシナリオをカバーし、毎日数億回安定して実行されています。さらに、CainiaoセルフサービスロッカーなどのIoTデバイスにも使用されています。 2018年双十一ショッピングフェスティバルでは、MNNが天猫祝賀会の笑顔の赤い封筒、スキャン、有名人のじゃんけん大会などのシーンで使用されました。 Taobao の軽量ディープラーニング クライアント側推論エンジン MNN プロジェクトが、次のアドレスの Github でオープンソース化されました。 https://github.com/alibaba/MNN 2. MNNの利点MNN は、ネットワーク モデルの読み込み、推論と予測、および関連する結果の返送を担当します。推論プロセス全体は、モデルの読み込みと解析、計算グラフのスケジューリング、異種バックエンドでの効率的な操作に分けられます。 MNN は、汎用性、軽量性、高性能、使いやすさなどの特徴を備えています。 汎用性:
軽量:
高性能:
使いやすさ:
3. MNNコアの紹介3.1 モジュール設計 上の図に示すように、MNN はコンバーターとインタープリターの 2 つの部分に分けられます。 コンバーターは、フロントエンドとグラフ最適化で構成されています。前者はさまざまなトレーニング フレームワークをサポートする役割を担います。MNN は現在、Tensorflow (Lite)、Caffe、ONNX をサポートしています。後者は、演算子の融合、演算子の置換、レイアウトの調整などを通じてグラフを最適化します。 インタプリタはエンジンとバックエンドで構成されています。前者はモデルのロードと計算グラフのスケジュールを担当し、後者は各コンピューティング デバイスでのメモリ割り当てと Op 実装を含みます。エンジンとバックエンドでは、MNN は、畳み込みと逆畳み込みにおける Winograd アルゴリズム、行列乗算における Strassen アルゴリズム、低精度計算、Neon 最適化、手書きアセンブリ、マルチスレッド最適化、メモリ再利用、異種コンピューティングなど、さまざまな最適化スキームを適用します。 3.2 パフォーマンス比較 一般的に使用されている MobileNet、SqueezeNet、および主流のオープンソース フレームワークを比較します。結果は次のとおりです。 MNN は、NCNN、Mace、Tensorflow Lite、Caffe2 に比べて 20% 以上優れています。私たちは実際には社内で使用しているビジネスモデルの最適化に重点を置いており、顔検出などのモデルを徹底的に最適化してきました。iPhone 6では、約5ミリ秒でシングルフレーム検出を実現できます。 注: Mace、Tensorflow Lite、Caffe2 はすべて、2019 年 3 月 1 日現在、GitHub コード リポジトリのマスター ブランチを使用しています。NCNN は、コンパイルの問題のため、20181228 リリースのプリコンパイル済みライブラリを使用しています。 4. MNNのオープンソースの歴史4.1 なぜデバイス上で推論を実行する必要があるのですか? 携帯電話の計算能力の継続的な向上とディープラーニングの急速な発展、特に小規模ネットワークモデルの継続的な成熟により、もともとクラウドで実行されていた推論と予測を端末に転送できるようになりました。エンド インテリジェンスとは、エンド側で AI アルゴリズムを展開して実行することを意味します。サーバー側のインテリジェンスと比較して、エンド インテリジェンスには、低レイテンシ、データ プライバシー、クラウド リソースの節約などの利点があります。現在、エッジインテリジェンスは徐々にトレンドになりつつあり、業界の観点から見ると、AI写真撮影や視覚効果などのシナリオで大きな役割を果たしています。 電子商取引のスーパーアプリである Taobao Mobile には、幅広いビジネスモデルがあります。 Pailitao、ライブショートビデオ、インタラクティブマーケティング、メイクアップトライアル、パーソナライズされた推奨検索などのビジネスシナリオには、エンドツーエンドのインテリジェンスが必要です。エンドツーエンドのインテリジェンス機能と組み合わせることで、ユーザーに新しいインタラクティブな体験をもたらし、ビジネスイノベーションの飛躍的進歩を促進することができます。 一般的に、エッジでのディープラーニングの応用は、次の段階に分けられます。
上図からわかるように、エンドサイド推論エンジンはエンドサイドインテリジェントアプリケーションの中核モジュールであり、限られた計算能力とメモリの制約下でリソースを効率的に使用し、迅速に推論を完了する必要があります。エンド側推論エンジンの実装品質が、アルゴリズムモデルがエンド側で実行可能かどうか、そしてビジネスを立ち上げられるかどうかを直接決定すると言えます。したがって、エンドサイド推論エンジン、優れたエンドサイド推論エンジンが必要です。 4.2 なぜオープンソースの MNN なのか? 2017 年初頭、エンジン開発を開始する前に、システムソリューションとオープンソースソリューションの調査に重点を置き、汎用性、軽量性、高性能、セキュリティの側面から詳細な分析を実施しました。 CoreML は Apple のシステム フレームワークで、MLKit と NNAPI は Android のシステム フレームワークです。システム フレームワークの最大の利点は軽量であることで、パッケージ サイズは比較的大きめです。 ***のデメリットは汎用性です。CoreMLはiOS 11以上、MLKitとNNAPIはAndroid 8.1以上が必要で、カバーできる機種が非常に限られており、組み込み機器の利用シナリオに対応するのも困難です。さらに、システム フレームワークはサポートするネットワーク タイプと Op タイプが少なく、スケーラビリティが低く、デバイスの計算能力が十分に活用されておらず、モデルのセキュリティに問題があります。まとめると、システム フレームワークは適切な選択ではありません。オープンソース ソリューションの中で、Tensorflow Lite は発表されているもののまだリリースされておらず、Caffe は比較的成熟していますがエンドサイドのシナリオ向けに設計および開発されておらず、NCNN はリリースされたばかりで十分に成熟していません。一般的に、さまざまなトレーニング フレームワークや展開環境に適した、シンプルで効率的かつ安全なエンドツーエンドの推論エンジンを見つけることはできません。 そのため、私たちは、さまざまなビジネス アルゴリズム シナリオ、さまざまなトレーニング フレームワーク、さまざまな展開環境向けに、シンプルで効率的かつ安全なエンドサイド推論エンジン MNN を提供したいと考えています。 AndroidとiOSの違い、断片化されたデバイスの違い、異なるトレーニングフレームワークの違いを解消し、エンド側での迅速な展開と運用を実現し、ビジネスモデルに応じて柔軟にOPを追加し、CPU/GPUなどの異種デバイスのパフォーマンスを深く最適化することができます。 時が経つにつれ、NCNN、Tensorflow Lite、Mace、Anakin などが徐々にアップグレードされ、オープンソース化され、私たちに良いインプットとリファレンスを提供してくれます。私たちはビジネスニーズに合わせて常に反復と最適化を行っており、Double Eleven のテストを経て、比較的成熟し完成度が高まったため、コミュニティにオープンソース化し、アプリケーション開発者や IoT 開発者に私たちの強みを貢献したいと考えています。 5. 適用シナリオ現在、MNNはTaobao Mobile、Maoke、Youku、Juhuasuan、UC、Fliggy、Qianniuなど20以上のグループアプリに統合されており、Pailitao、ライブショートビデオ、インタラクティブマーケティング、実名認証、メイクアップトライアル、検索推奨などのシーンで使用され、毎日数億回安定して実行されています。 2018年ダブルイレブンショッピングフェスティバルでは、MNNは「マオワン スマイリー レッド パケット」や「QR コード スキャン スター じゃんけん コンテスト」などのシナリオでも使用されました。 Pailitao は、Taobao Mobile の画像検索および認識製品です。2014 年のリリース以来、改良と開発を続け、現在では 1,000 万を超える UV を持つアプリケーションに成長しました。関連する技術も、初期の写真撮影とクラウド認識のための画像のアップロードから、現在では端末上での物体認識と切り抜き処理、そしてクラウドにアップロードして認識するまで、常に反復して更新されており、サーバー側の計算コストを節約しながらユーザーエクスペリエンスを効果的に向上させています。単純な物体分類、万物認識、ロゴ認識などでは、端末上のモデルを通じて直接リアルタイム認識がサポートされるようになりました。 スマイリーレッドエンベロープは、2018年のダブルイレブンキャットナイトのオープニングを飾る最初のプログラムでした。このゲームプレイは、リアルタイムの顔検出と表情認識機能に基づいています。これまでのさまざまな画面タッチによるインタラクティブゲームプレイと比較して、このアクティビティはカメラのリアルタイム顔検出アルゴリズムを使用して、従来のタッチインタラクティブゲームプレイから自然なインタラクティブゲームプレイへの飛躍を実現し、ユーザーに新しいユーザーエクスペリエンスをもたらします。 五福集めは2019年春節のイベントであり、タオバオモバイルが新年の商品の購入を通じてこのイベントに参加したのも初めてです。商品認識機能をスキャンして赤い正月商品を識別すると、ラッキーカードに加えて、羽毛布団、五糧液、茅台酒、タラバガニ、猫潮、天猫精霊などの閾値なしクーポンなどの実物賞品も獲得でき、自宅の正月商品が金の卵を産む「鶏」に変身します。 6. ロードマップ2か月ごとに安定バージョンをリリースする予定です。現在の計画は次のとおりです。 モデルの最適化:
スケジュールの最適化:
計算最適化:
他の:
|
>>: 顔認識技術は議論を呼んでいる。人工知能はどのように制御されるべきか?
[[441323]]早すぎるオールインデータ文化を一夜にして構築することはできないのと同様に、分析...
ディープラーニングが注目を集めています。 4月23日、北京で第1回WAVE SUMMIT 2019デ...
インターネット上で話題となったスタンフォード大学のエビ揚げロボットは、1日で人気が急上昇した。結局の...
[[383847]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[248236]]皆さんは、イ・セドルと柯潔を破った Google の「Alpha Go」をまだ覚...
コンピューティング能力は、デジタル技術の継続的な発展とデジタル経済時代の中核的な生産性にとって重要な...
人々は、データ、人、ビジネスなど、AI を導入する際の課題を理解する必要があります。 [[27672...
データ中心の人工知能の構築は、今後のトレンドになりつつあります。 1年以上前、アンドリュー・ン氏は「...
新たな進歩の時代を迎えるにあたり、「スマートホーム」という概念がかつてないほど普及しています。人工知...
大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...