アリババ機械知能チームの3年間の取り組みの概要

アリババ機械知能チームの3年間の取り組みの概要

[[266129]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

2016年から現在に至るまで、アリババ機械知能研究所のオフラインインテリジェンスチームは、オフラインインテリジェンス分野に参入し始めました。これまで、アルゴリズムの面では独自に開発したモデル圧縮方法、新しいモデル構造、ターゲット検出フレームワークを提案し、エンジニアリングの面ではデータに依存しない定量的トレーニングツールセットを開発し、さまざまなハードウェアプラットフォーム向けの効率的な推論コンピューティングライブラリを開発しました。同時に、サーバーR&Dチームと協力して一連のソフトウェアおよびハードウェア製品ソリューションを抽象化し、さまざまなビジネス形態に対応して実際のビジネスシナリオに実装しました。

本日の記事では、Ali Lingchongがアルゴリズム探索、トレーニングツール、推論フレームワーク、製品化、ビジネスモデルの側面からこれまでの研究を要約して共有します。全文は次のとおりです。Leiphone.com(パブリックアカウント:Leiphone.com)AI Technology Reviewは、これを転載することを許可されています。

アルゴリズムの探索

ADMMに基づく低ビット量子化

低ビット量子化は、モデル圧縮と推論高速化における中核的な課題です。その目的は、ニューラル ネットワーク内の元の浮動小数点パラメータを 1 ~ 8 ビットの固定小数点パラメータに量子化し、モデル サイズとコンピューティング リソースの消費を削減することです。この問題を解決するために、ADMM (交互方向乗算法) に基づく低ビット量子化方式を提案します。公開データセット ImageNet では、Alexnet、ResNet-18、Resnet-50 などの従来の CNN ネットワーク構造に関する実験を実施し、精度と速度の両方において現在知られているアルゴリズムを上回る結果が出ました。 3 ビットではほぼロスレスの圧縮を実現できます。現在、この方法は、オンエンドの物体検出や画像認識のさまざまな実用的なプロジェクトで広く使用されています。関連する結果はAAAI 2018に掲載されています。

統一量子化スパースフレームワーク

量子化技術は、演算器を簡素化(浮動小数点演算器→固定小数点演算器)することで推論速度を向上させることができます。プルーニング技術は、ニューラル ネットワーク内の経路をプルーニングすることで、実際の計算量を削減します。私たちは、これら 2 つのテクノロジを自然に組み合わせて、究極の理論上の高速化率を実現しました。剪定プロセスでは、漸進的なトレーニング方法を採用し、勾配情報を組み合わせてネットワーク内のパスの重要性を判断しました。 ResNet 構造では、90% のスパース性でほぼロスレスの圧縮を実現できます。

スパース化の研究中に、私たちは問題を発見しました。より細かい粒度のクロッピングは多くの場合、より高い精度をもたらしますが、ハードウェアへの親和性が犠牲になり、実際のアプリケーションで理論的な高速化率を達成することが困難になります。次の章では、この問題を 2 つの観点から取り上げます。

  • ソフトウェアとハ​​ードウェアの共同設計により、ソフトウェアとハ​​ードウェアの両方の観点から問題を解決します。

  • 既存のハードウェア構造に適したソフトウェアの観点から設計された新しい軽量ネットワーク。

ソフトウェアとハ​​ードウェアの連携ネットワーク構造

量子化とスパース技術により、理論的な計算コストが十分に低く、必要な計算ユニットが十分に単純なディープ ネットワーク モデルを取得できます。次に解決すべき問題は、実際の推論レイテンシが低いアルゴリズム サービスに変換する方法です。推論加速効果の限界に挑戦するため、サーバー研究開発チームと連携し、ソフトウェアとハ​​ードウェアの共同設計の観点からこの課題の解決に取り組みました。このプロジェクトでは、次のようないくつかの革新的な点を提案しました。

  • ハードウェアとソフトウェアの共同設計に関しては、並列効率を最大化するために、ハードウェアの物理的特性に基づいた異種並列分岐構造を提案しました。

  • アルゴリズム面では、量子化、スパース性、知識蒸留などの技術を使用して、理論的な計算量を元のモデルの 18% に圧縮します。

  • ハードウェア面では、演算子充填技術を使用してスパースコンピューティングによって発生する帯域幅の問題を解決し、演算子再配置技術を使用して PE 負荷のバランスをとります。

上記のソリューションでは、Resnet-18 の複雑さを持つモデルの推論を完了するのに必要なレイテンシはわずか 0.174 ミリ秒となり、業界最高レベルに達します。このソリューションは、レイテンシに敏感な分野で大きな利点があります。関連する結果は HotChips 30 で展示されました。

新しい軽量ネットワーク

ソフトウェアとハ​​ードウェアの共同設計は非常に優れた推論ソリューションですが、このソリューションの開発コストとハードウェア コストは非常に高くなります。特定のシナリオでは、遅延と精度に対する許容度が高くなります (顔のキャプチャなど)。このニーズに対応するために、次の 3 つの機能を備えた Multi-Layer Feature Federation Network (MuffNet) を提案します。

  • スパーストポロジーにより高周波応答が得られやすくなります。

  • 高密度コンピューティング ノードによりハードウェアの使いやすさが確保されます。

  • 低コストのハードウェアに完全に最適化されており、計算負荷が小さい場合でも精度が大幅に向上します。

私たちが提案した新しいネットワークは、各ユニットが計算集約的であり、断片化された操作がそれほど多くないため、汎用ハードウェア上での実行に非常に適しています。公開データセット ImageNet では、業界をリードする Shufflenet v2 構造と比較して、40MFLOPS の計算能力により精度が 2% 向上しました。

デバイス上のオブジェクト検出フレームワーク

画像認識タスクと比較して、物体検出タスクには適用可能なシナリオの範囲が広くなります。効率的なオブジェクト検出フレームワークは研究価値が高いです。デバイス上のシナリオでは、次の機能を備えた LRSSD フレームワーク (軽量リファイン シングル ショート マルチボックス検出器) を提案しました。

  • SSD HEAD を簡素化し、共有予測レイヤーを使用して機能融合モジュールを設計します。

  • 異なるスケールでのカスケード情報形式の Bbox 回帰。

  • 検出モデルを完全に量子化します。

上記の表に示すように、同じバックボーン ネットワークでは、提案された LRSSD により、SSD HEAD 計算の量を削減しながら、mAP を 3% ~ 4% 着実に向上できます。別の観点から見ると、私たちの方法は、検出精度を変えずにモデルの複雑さを元の約 50% に削減できます。量子化によってもたらされる速度ボーナスも考慮すると、同じ精度で、元のフル精度モデルと比較して、合計で約 2 ~ 3 倍の実際の速度向上を実現できます。

まとめ

上記の記事では、過去 2 年間にオフライン インテリジェンス モデル圧縮の分野で私たちが蓄積してきた技術的成果の一部を紹介します。総括する:

  • 量子化に関しては、3 ビットの量子化とほぼロスレスの圧縮を実現できます。

  • スパース性に関して: 従来のネットワーク構造では、90% のスパース性でほぼロスレスの圧縮を実現できます。

  • ソフトウェアとハ​​ードウェアの共同設計に関しては、サーバーの研究開発チームと協力して、resnet18 の極限推論速度 0.174 ミリ秒/ページを達成しました。これは現在、業界最高の結果です。

  • 軽量ネットワーク設計に関しては、40MFlops の計算能力により、業界の現在の最高の構造と比較して、ImageNet データセットで 2% の絶対改善を達成しました。

  • デバイス上の物体検出に関しては、同じ精度を保ちながら速度を約 2 ~ 3 倍向上させました。

当社では、技術の探求と同時に、上記技術を実際のビジネスに適用する活動も積極的に行っております。このプロセス中に、次の問題が発見されました。

  • 使いやすさ: ビジネス シナリオでは、高速な反復機能と柔軟で便利な展開機能が求められることが多いため、非標準のソリューションを広く使用することは困難です。

  • 理論上の速度と実際の速度: 実際のモデル推論速度には、アルゴリズムとハードウェアに加えて、効率的なエンジニアリング実装のサポートが必要です。

  • 統合: オフライン インテリジェンスでは、チームがハードウェアとソフトウェアの両方の機能を備えている必要がありますが、これは多くの場合、ビジネスにとって負担が大きすぎます。

この記事の後半では、まず上記の問題に対して私たちが行った試みと、私たちが考え出した解決策を紹介します。 ***、より直感的な理解が得られるよう、オフライン インテリジェント テクノロジーを特定のビジネス シナリオに適用する方法を示す例をいくつか挙げました。

トレーニングツール

実際の事業推進の過程で、最初に遭遇した問題はユーザビリティの問題でした。

さまざまなビジネスでは、Caffe、Tensorflow、Mxnet などのさまざまなディープラーニング ライブラリが使用されることがよくあります。

分類認識、検出、セグメンテーション、音声など、さまざまなビジネスで使用される基本テクノロジーは大きく異なります。

企業によってデータのセキュリティ レベルは大きく異なります。公開できるものもあれば、完全に物理的に分離する必要があるものもあります。

より多くのシナリオで当社のサービスを利用し、AI のメリットを享受できるようにするために、標準化された定量的なトレーニング ツールのセットを提案しました。

上の図に示すように、まず、当社のツール入力は複数のモデル形式 (TensorFlow、Caffe、Mxnet など) をサポートしています。次に、2 つの異なるモデル量子化方法を提供します。1 つは、さまざまなタスク (分類、検出、セグメンテーションなど) をサポートするデータ依存型圧縮方法 (データ依存型圧縮) で、データ セキュリティの要件がそれほど高くなく、最大限の精度を追求したいビジネスに適しています。もう 1 つは、データ非依存型圧縮方法 (データ非依存型圧縮) で、データ セキュリティの要件が高いシナリオや、ビジネス ロジックがそれほど複雑ではないシナリオに適しています。

***、量子化作業が完了すると、当社のツールは自動的に推論グラフを最適化し、モデルを暗号化して、実際に展開できるモデル ファイルを生成します。対応する推論加速ライブラリを使用してターミナル上で実行できます。使いやすさとデータセキュリティの観点から、データに依存しない圧縮方法を使用することをお勧めします。

現在、このツールセットは、MNN が推奨する定量的ツールとして、アリババ グループ内の複数のオフライン ビジネス シナリオで広く使用されています。

推論フレームワーク

実際に遭遇する 2 番目の問題は、実際の推論速度の問題です。結局のところ、使いやすさだけでは不十分であり、実際のビジネス結果こそが企業が最も望んでいるものです。ここでは、Alibaba グループの他の兄弟チームが提供する推論フレームワークを使用します。

  • ARM アーキテクチャ: Taobao 技術チームが開発した MNN を推論フレームワークとして使用します。

  • GPU アーキテクチャ: 推論フレームワークとして、機械知能技術チームによって開発された falcon_conv 畳み込みライブラリを使用します。

  • FPGA アーキテクチャ: サーバー R&D チームによって開発された推論フレームワークを使用します。

MNN

MNN は軽量なディープラーニングデバイス側推論エンジンです。その中核機能は、ディープニューラルネットワークモデルの最適化、変換、推論をカバーし、デバイス側でディープニューラルネットワークモデルを実行する問題を解決することです。現在、MNN は Taobao Mobile、Tmall Mobile、Youku、Juhuasuan、UC、Fliggy、Qianniu など 20 以上のアプリで使用されています。一般的なディープニューラルネットワークモデルであるMobileNet V2とSqueezeNet V1.1がテストサンプルとして選択されました。Androidの場合、Xiaomi 6を例にとると、MNNはCPUとGPUで少なくとも30%業界をリードしています。iOSの場合、iPhone 7を例にとると、MNNはCPUとGPUで少なくとも15%業界をリードしています。

プログラマブルロジック

FPGA 上の推論フレームワークは、サーバー R&D チームによって完成されました。 ResNet18 ネットワークの推論時間はわずか 0.174 ミリ秒で、これは現在業界最高のパフォーマンスです。エッジコンピューティング製品 Alibaba Edge では、ハードウェアに実装された効率的な演算子に基づいて、推論速度がエッジ GPU の 2 倍になります。後ほど、製品全体の形態と合わせてこのソリューションをご紹介します。

グラフィックプロセッサ

falcon_conv は、マシン インテリジェンス技術チームによって開発された低精度畳み込みライブラリです。CUDA C++ で記述されており、Nvidia GPU で動作します。入力として 2 つの低精度 (INT8) テンソルを受け入れ、畳み込み結果を float/int32 データとして出力し、畳み込み後の一般的な操作 (スケール、バッチ正規化、relu など) のマージをサポートします。図に示すように、単一の Tesla P4 GPU 上で falcon_conv のパフォーマンスを Nvidia の公式コンピューティング ライブラリ Cudnn v7.1 と比較しました。ほぼすべてのケースで、falcon_conv は Cudnn よりも優れており、RESNET と VGG のより時間のかかる畳み込みパラメータから選択されたケースでは、最大 5 倍の改善が見られる場合もあります。

製品化

ビジネス サポート プロセスで遭遇する 3 番目の問題は、統合と製品化の問題です。携帯電話のシナリオを除き、他のオフライン ビジネスではサポートのために追加のハードウェア プラットフォームが必要です。初期の頃は、サードパーティが提供するハードウェア機器に大きく依存していました。このとき、コスト、安​​定性、拡張性がいくつかの大きな問題となり、オフライン プロジェクトの拡張が制限されていました。これらの問題を解決するために、私たちは過去のプロジェクト経験に基づいてハードウェア機器をまとめ、比較的一般的な 2 つのオフライン製品ソリューション、スマート ボックスと統合カメラを考案しました。各製品カテゴリには、さまざまなニーズのシナリオに合わせてさまざまなモデルが含まれています。

スマートボックス

当社が提供する最初のソリューションは、スマート ボックス ソリューションです。スマート ボックスは、小規模から中規模のシナリオに適したエッジ サーバーとして簡単に考えることができます。ボックス自体にはさまざまなインターフェースが用意されており、外部の USB/IP カメラ、音声モジュール、その他のセンサーに接続できます。高いデータセキュリティを備えた直接ローカル展開。当社では、ビジネス特性に応じて、高バージョンと低バージョンの 2 つのバージョンのスマート ボックスを提供しています。このうちハイエンド版では、アリババが独自に開発したエッジコンピューティング製品であるAlibaba Edgeを採用している。完璧なハードウェア設計と効率的な推論フレームワークに加えて、このボックスには完璧なコンパイラ サポートも含まれており、非常に使いやすいです。ローエンドバージョンは純粋な ARM ボックスです。次の表は、これら 2 つのボックスのパフォーマンス、コスト、適用可能なシナリオを比較したものです。

ここでは、アリババが自社開発したエッジコンピューティング製品であるAlibaba Edgeに焦点を当てたいと思います。この製品は、最大3TGFlopsのAIコンピューティング能力を備えていることに加え、エッジGPUソリューションに比べて大幅な価格優位性があります。また、クラウド統合型の展開機能を備え、プラットフォームベースで迅速に起動でき、大規模な運用と保守をサポートしています。

以下の表では、より直感的な理解が得られるよう、さまざまなハードウェア デバイスでの LRSSD300+MobileNetV2 の実行時間を比較しています。

内蔵カメラ

当社が提供するもう一つの統合ソリューションは、オールインワン カメラです。統合カメラは、クラウド + 端末展開モデルに特に適しています。比較的単純な処理機能はオフラインで実行され、クラウドはオフラインで送り返された情報を詳細に処理するため、帯域幅が節約され、クラウド コストが削減されます。同時に、統合カメラは導入が容易で、量産後のコスト上の利点も高くなります。現在、当社が取り組んでいる外部協力プロジェクトでは、統合カメラが重要なキャリア形式として活用されています。

ビジネス協力

過去 2 年間、私たちはさまざまなビジネス モデルを試してきました。ここでは、さまざまな形式の主な例を挙げます。

菜鳥未来園

Cainiao Future Parkプロジェクトでは、主に基本的なビジュアルアルゴリズムの出力を担当し、Cainiao Smart Parkチームはビジネスアルゴリズムとエンジニアリングサービスの研究開発を担当しています。半年間の共同作業を経て、勤務時間外睡眠検知、非常階段異常検知、駐車スペース占有検知、横断歩道検知、入場カウント検知など、複数の機能を順次完成させました。

[[266132]]

プロジェクトの共同作業中に、コンピューティング ユニットの高コストがアルゴリズムの大規模な推進を制限する主な要因であることがわかりました。この問題を解決するために、当社はサーバーの研究開発チームと協力してカスタマイズされたソフトウェアとハ​​ードウェアのソリューションを開発しました。このソリューションのハードウェア プラットフォームは、前述のエッジ コンピューティング製品 Alibaba Edge であり、特別にカスタマイズされた効率的なモデル構造と自社開発の高速検出アルゴリズムを備えています。新しいソリューションは、ほぼロスレスの検出精度を維持しながら推論速度を 4 ~ 5 倍向上させ、エッジ GPU ソリューションと比較してコストを半分に削減します。

モデル圧縮加速

私たちは、アリババグループのさまざまな事業部の同僚を支援して、既存のアルゴリズム モデルの定量的なスリム化と高速化を完了します。たとえば、モバイル OCR 認識、モバイル オブジェクト検出、Taobao 実名認証および顔スキャンによるログイン/検証、Cainiao セルフ コレクション キャビネット、Ali スポーツ イベントへの顔スキャンによる入場、Shenzhou Eagle 顔認識クラウド アルバムなど。

要約と展望

機械知能技術研究所のオフライン知能チームは、約2年間の努力を経て、オフライン知能分野に深く関わってきました。

アルゴリズム面では、低ビット量子化、スパース化、ハードウェアとソフトウェアの共同設計、軽量ネットワーク設計、オンエンドターゲット検出など、さまざまな面で一定の成果を上げており、多くの指標が業界のトップレベルに達しています。

エンジニアリング: 当社は、柔軟性が高く、データが安全なトレーニング ツールのセットを開発しました。また、パートナーの協力を得て、ARM、FPGA、GPU などの複数のプラットフォームで業界をリードする推論パフォーマンスを実現しました。

製品化: 当社はパートナーと協力して、さまざまなビジネス シナリオに適したスマート ボックスと統合カメラを開発しています。

*** 幸運なことに、当社はグループ内外のさまざまなビジネスシーンで技術を磨くことができます。

<<:  [AI開発] ディープラーニングに基づくビデオマルチターゲットトラッキングの実装

>>:  Facebook の最新傑作 Pythia: モジュール式、プラグアンドプレイ、モデルの進行を大幅に簡素化

推薦する

...

Kaggle で競争する方法、全プロセスを解説

導入Kaggle は機械学習のコンペティションで最も有名なウェブサイトです。 Kaggle コンテス...

...

ドローンは将来のスマートシティで重要な役割を果たすだろう

「スマートシティ」という概念は何十年も前から存在していたが、その最新版では、住民の生活を向上させるた...

...

GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

1. Transformer 大規模言語モデルのための SOTA トレーニング技術1. 大規模言語モ...

人工知能が普及したら、誰が職を失うのでしょうか?この3つのタイプの人々が最前線にいるかもしれない

科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...

多くの国で人工知能産業が発展を加速している(国際的視点)

[[358162]]コアリーディング人工知能は、世界的な科学技術革命と産業変革の新たな流れを導く重...

ついに! SM2 国家暗号アルゴリズムが Linux カーネル コミュニティに承認されました

背景Guomi は国家商用暗号化の略称です。アルゴリズム標準は国家暗号管理局によって策定され、多数の...

...

...

「天宮2.0」MoE大型モデル発売

2月6日、崑崙万為はMoE大規模言語モデルの新バージョン「天宮2.0」と「天宮AIスマートアシスタン...