EasyDLコンピューティング機能：10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネスシナリオで、効率の向上とコストの削減のために人工知能が適用されています。人工知能は、産業の高度化と人間の生活の向上においてますます重要な役割を果たしています。開発者が AI モデルを展開する場合、使用シナリオの問題に直面します。つまり、使用シナリオやビジネス上の問題によって、モデルの展開方法が異なります。

AI モデルにはさまざまな展開方法があります。一般的なモデルの展開形式は、サーバー展開と組み込み展開の 2 種類に分けられます。サーバー展開とは、CPU/GPU 上にモデルを展開して、呼び出し可能な API インターフェイスを形成することを指します。クラウドサーバー展開とローカルサーバー展開は、必要に応じて選択できます。組み込み展開とは、スタンドアロンのオフライン操作のためにエッジ側またはエンド側の組み込みデバイスに展開することを指します。次の表は、これら 2 つの展開方法の特性を比較したものです。ユーザーのモデル適用シナリオにネットワークカバレッジがない場合、ビジネスデータが比較的機密性が高い場合、または予測遅延の要件が高い場合は、組み込み展開が選択されることが多いです。

組み込み展開方式には、リアルタイム応答、ネットワークオーバーヘッドの低さ、プライバシー保護、高いエネルギー効率比などの利点がありますが、同時に、エッジデバイスの種類が多岐にわたるため、適応と展開が困難です。

Baidu と Boston Consulting Group の共同調査では、カスタマイズされたビジネスモデル要件を持つ顧客のうち、35% 以上のシナリオでオフラインエッジコンピューティングの要件があることがわかりました。前述のように、デバイスの多様性により、エッジコンピューティングの研究開発および展開コストはクラウド展開よりも高く、実際のビジネスシナリオでは、エッジで実行されるモデルのレイテンシと安定性に対する要件が非常に高いことがよくあります。そのため、カスタマイズされたモデルをさまざまな端末デバイスに展開する方法が技術的な課題となっています。

多様な展開形態に対する開発者のニーズを満たすために、Baidu Brain のワンストップ AI 開発プラットフォーム EasyDL は、パブリッククラウド展開、ローカルサーバー展開、デバイス側 SDK、ハードウェアとソフトウェアの統合ソリューションなど、複数の展開方法をサポートしています。 EasyDL は、PaddlePaddle をベースにした企業向けのワンストップ開発プラットフォームです。インテリジェントなラベリング、モデルトレーニング、サービス展開などのフルプロセス機能を提供します。豊富な事前トレーニング済みモデルが組み込まれており、PaddlePaddle マスターモードを完全にサポートしています。さまざまなグループの人々やニーズに合わせて、クラシックエディション、プロフェッショナルエディション、リテールエディションの 3 つのバージョンを提供しています。

EasyDL は、さまざまなビジネスシナリオや動作環境に適したさまざまな展開方法をサポートしており、開発者はニーズに応じて柔軟に選択できます。また、最も一般的な x86、ARM、Nvidia-GPU から NPU や FPGA まで、幅広いデバイスをサポートしており、10 種類以上のハードウェアをサポートしています。 Baidu PaddlePaddle ディープラーニングプラットフォームの関連機能のサポートにより、EasyDL は強力なエンドコンピューティング展開機能を備えています。エンドコンピューティングモデルを生成する際には、一連の最適化、加速、圧縮機能が実行されます。

この一連の機能の説明は、ネットワーク構造とチップ機能という 2 つの側面から始めることができます。

ネットワーク構造レベルでは、op fusion (conv-add-relu、conv-bn など)、fp16/int8 量子化、モデルプルーニングなどの最適化が実行されます。

最近リリースされたARM 固定小数点量子化を例にとると、その利点としては、メモリ帯域幅の低さ、消費電力の低さ、コンピューティングリソースの使用量が少ないことが挙げられます。一部のネットワークでは、モデル圧縮が 4 倍、メモリ帯域幅が 4 倍向上し、キャッシュ利用効率が向上します。多くのシナリオでは、固定小数点量子化によってネットワークの精度がさらに低下することはありません。量子化は主に、トレーニング後の量子化と量子化を考慮したトレーニングの 2 つのカテゴリに分けられます。前者は、KL ダイバージェンスなどの方法を使用して量子化パラメータを決定し、再トレーニングを必要としない固定小数点量子化方法です。後者は、トレーニング済みのモデルを再トレーニングし、量子化パラメータをモデル化します。量子化トレーニングプロセス中、順方向伝播ワークフローは次のように表現できます。

シミュレートされた量子化トレーニングフォワードプロセスに基づく同等のワークフロー

トレーニング量子化プロセスでは、元のネットワーク演算子の前後に連続量子化演算子と逆量子化演算子が挿入され、対応する逆演算子の入力が変更されます。評価フェーズでは、量子化演算子のパラメータが量子化された値に変更されます。最後に、モデルファイル内のパラメータのデータ型が、PaddleLite ツールを使用して、int8 のナイーブバッファ形式に変更されます。

今後のバージョンアップグレードでは、EasyDL は引き続きモデルプルーニングの最適化を開始します。感度に応じて最適なクロッピング率の組み合わせを選択し、部分畳み込みとクロッピングを行うことで、モデル体積を半分以下に削減し、精度損失を1%未満に抑える最適化効果が得られます。固定小数点量子化とそれに続く蒸留戦略と組み合わせることで、モデルのサイズと推論速度がさらに包括的に最適化されます。

チップレベルでは、EasyDL は特定のハードウェアタイプに基づいて特別な最適化を実行します。たとえば、ARM64 では、チップが NEON をサポートしている場合、16 個の 128 ビットレジスタを最大限に活用して浮動小数点計算を最適化します。NVIDIA GPU デバイスでは、EasyDL は TensorRT ライブラリを使用してサブグラフを計算し、加速します。Apple の電話では、推論の加速に CoreML エンジンを使用します。Huawei の電話では、DDK がサポートされている場合、推論に Huawei HiAI エンジンを呼び出します。さらに、EasyDL は、Intel の MKL OpenVino や Qualcomm の SNPE などの推論エンジンもサポートしています。一部のプラットフォームでは、特定のディープラーニングネットワークとチップの種類に基づいて合理的な自動選択を行うことが可能であり、精度を確保しながらチップの機能を最大限に活用し、推論速度を大幅に向上させることができます。ネットワークやハードウェアなどのさまざまなレベルで最適化すると、モデルのサイズ、メモリ使用量、推論速度のパフォーマンスが向上します。一部のモデルの推論速度は数倍以上向上する可能性があります。

最近、EasyDL は、開発ボードとサーバーのシナリオを考慮しながら、最新の DaVinci アーキテクチャ Ascend 310 AI プロセッサをサポートできる Huawei Atlas 200 および Atlas 300 アクセラレータカードのサポートを開始しました。 EasyDL の既存の最適化テクノロジーと組み合わせることで、EasyDL の高性能モデルで 6 ミリ秒のパフォーマンスを実現できます。マルチバッチ最適化を有効にすると、1 枚の 300 アクセラレータカードで 1 秒あたり最大 1,000 枚の画像を処理できます。

EasyDL プラットフォームでは、モデルの高速化と最適化の全プロセスがシステム内で自動的に完了します。ユーザーはシナリオのニーズに応じて特定のハードウェアを選択するだけで、対応するハードウェアに適合したエンドコンピューティング展開パッケージが自動的に生成されます。現在、モデルを公開する際に、ユーザーは「同時に高速バージョンを取得する」にチェックを入れるだけで、EasyDL バックエンドがユーザーのために量子化や圧縮などの最適化機能を備えた高速バージョン SDK とモデルを自動的に生成します。ユーザーはそれを直接ダウンロードして使用することができ、使用プロセスは基本的に同じです。さらに、展開パッケージは非常に迅速かつ簡単に使用できます。ユーザーは、ディープラーニングや特定のハードウェアなどの基盤となるロジックに注意を払う必要はなく、入力画像と出力認識結果のみに集中する必要があります。

現在、多くの企業がEasyDLプラットフォームを活用し、特定の業務シナリオに基づき、少量の業務データのみで高精度なAIモデルをトレーニングし、利用シナリオや運用環境に応じて適切な導入方法を選択しています。利用の敷居が低く、便利で高速な高速SDKは、定量的な圧縮などの機能を備えており、ますます多くのビジネスシナリオで役割を果たし、ビジネスニーズを迅速に解決しています。

今すぐ EasyDL をお試しください: https://ai.baidu.com/easydl/

<<: 2020年の人工知能開発動向予測

>>: 権威あるレポート：テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン