EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコストの削減のために人工知能が適用されています。人工知能は、産業の高度化と人間の生活の向上においてますます重要な役割を果たしています。開発者が AI モデルを展開する場合、使用シナリオの問題に直面します。つまり、使用シナリオやビジネス上の問題によって、モデルの展開方法が異なります。

AI モデルにはさまざまな展開方法があります。一般的なモデルの展開形式は、サーバー展開と組み込み展開の 2 種類に分けられます。サーバー展開とは、CPU/GPU 上にモデルを展開して、呼び出し可能な API インターフェイスを形成することを指します。クラウド サーバー展開とローカル サーバー展開は、必要に応じて選択できます。組み込み展開とは、スタンドアロンのオフライン操作のためにエッジ側またはエンド側の組み込みデバイスに展開することを指します。次の表は、これら 2 つの展開方法の特性を比較したものです。ユーザーのモデル適用シナリオにネットワーク カバレッジがない場合、ビジネス データが比較的機密性が高い場合、または予測遅延の要件が高い場合は組み込み展開が選択されることが多いです。

組み込み展開方式には、リアルタイム応答、ネットワークオーバーヘッドの低さ、プライバシー保護、高いエネルギー効率比などの利点がありますが、同時に、エッジデバイスの種類が多岐にわたるため、適応と展開が困難です。

Baidu と Boston Consulting Group の共同調査では、カスタマイズされたビジネス モデル要件を持つ顧客のうち、35% 以上のシナリオでオフライン エッジ コンピューティングの要件があることがわかりました。前述のように、デバイスの多様性により、エッジ コンピューティングの研究開発および展開コストはクラウド展開よりも高く、実際のビジネス シナリオでは、エッジで実行されるモデルのレイテンシと安定性に対する要件が非常に高いことがよくあります。そのため、カスタマイズされたモデルをさまざまな端末デバイスに展開する方法が技術的な課題となっています。

多様な展開形態に対する開発者のニーズを満たすために、Baidu Brain のワンストップ AI 開発プラットフォーム EasyDL は、パブリック クラウド展開、ローカル サーバー展開、デバイス側 SDK、ハードウェアとソフトウェアの統合ソリューションなど、複数の展開方法をサポートしています。 EasyDL は、PaddlePaddle をベースにした企業向けのワンストップ開発プラットフォームです。インテリジェントなラベリング、モデル トレーニング、サービス展開などのフルプロセス機能を提供します。豊富な事前トレーニング済みモデルが組み込まれており、PaddlePaddle マスター モードを完全にサポートしています。さまざまなグループの人々やニーズに合わせて、クラシック エディション、プロフェッショナル エディション、リテール エディションの 3 つのバージョンを提供しています。

EasyDL は、さまざまなビジネス シナリオや動作環境に適したさまざまな展開方法をサポートしており、開発者はニーズに応じて柔軟に選択できます。また、最も一般的な x86、ARM、Nvidia-GPU から NPU や FPGA まで、幅広いデバイスをサポートしており、10 種類以上のハードウェアをサポートしています。 Baidu PaddlePaddle ディープラーニング プラットフォームの関連機能のサポートにより、EasyDL は強力なエンド コンピューティング展開機能を備えています。エンド コンピューティング モデルを生成する際には、一連の最適化、加速、圧縮機能が実行されます。

この一連の機能の説明は、ネットワーク構造とチップ機能という 2 つの側面から始めることができます。

ネットワーク構造レベルでは、op fusion (conv-add-relu、conv-bn など)、fp16/int8 量子化、モデル プルーニングなどの最適化が実行されます。

最近リリースされたARM 固定小数点量子化を例にとると、その利点としては、メモリ帯域幅の低さ、消費電力の低さ、コンピューティング リソースの使用量が少ないことが挙げられます。一部のネットワークでは、モデル圧縮が 4 倍、メモリ帯域幅が 4 倍向上しキャッシュ利用効率が向上します。多くのシナリオでは、固定小数点量子化によってネットワークの精度がさらに低下することはありません。量子化は主に、トレーニング後の量子化と量子化を考慮したトレーニングの 2 つのカテゴリに分けられます。前者は、KL ダイバージェンスなどの方法を使用して量子化パラメータを決定し、再トレーニングを必要としない固定小数点量子化方法です。後者は、トレーニング済みのモデルを再トレーニングし、量子化パラメータをモデル化します。量子化トレーニング プロセス中、順方向伝播ワークフローは次のように表現できます。

シミュレートされた量子化トレーニングフォワードプロセスに基づく同等のワークフロー

トレーニング量子化プロセスでは、元のネットワーク演算子の前後に連続量子化演算子と逆量子化演算子が挿入され、対応する逆演算子の入力が変更されます。評価フェーズでは、量子化演算子のパラメータが量子化された値に変更されます。最後に、モデルファイル内のパラメータのデータ型が、PaddleLite ツールを使用して、int8 のナイーブ バッファ形式に変更されます。

今後のバージョンアップグレードでは、EasyDL は引き続きモデルプルーニングの最適化を開始します。感度に応じて最適なクロッピング率の組み合わせを選択し、部分畳み込みとクロッピングを行うことで、モデル体積を半分以下に削減し、精度損失を1%未満に抑える最適化効果が得られます。固定小数点量子化とそれに続く蒸留戦略と組み合わせることで、モデルのサイズと推論速度がさらに包括的に最適化されます。

チップ レベルでは、EasyDL は特定のハードウェア タイプに基づいて特別な最適化を実行します。たとえば、ARM64 では、チップが NEON をサポートしている場合、16 個の 128 ビット レジスタを最大限に活用して浮動小数点計算を最適化します。NVIDIA GPU デバイスでは、EasyDL は TensorRT ライブラリを使用してサブグラフを計算し、加速します。Apple の電話では、推論の加速に CoreML エンジンを使用します。Huawei の電話では、DDK がサポートされている場合、推論に Huawei HiAI エンジンを呼び出します。さらに、EasyDL は、Intel の MKL OpenVino や Qualcomm の SNPE などの推論エンジンもサポートしています。一部のプラットフォームでは、特定のディープラーニング ネットワークとチップの種類に基づいて合理的な自動選択を行うことが可能であり、精度を確保しながらチップの機能を最大限に活用し、推論速度を大幅に向上させることができます。ネットワークやハードウェアなどのさまざまなレベルで最適化すると、モデルのサイズ、メモリ使用量、推論速度のパフォーマンスが向上します。一部のモデルの推論速度は数倍以上向上する可能性があります。

最近、EasyDL は、開発ボードとサーバーのシナリオを考慮しながら、最新の DaVinci アーキテクチャ Ascend 310 AI プロセッサをサポートできる Huawei Atlas 200 および Atlas 300 アクセラレータ カードのサポートを開始しました。 EasyDL の既存の最適化テクノロジーと組み合わせることで、EasyDL の高性能モデルで 6 ミリ秒のパフォーマンスを実現できます。マルチバッチ最適化を有効にすると、1 枚の 300 アクセラレータ カードで 1 秒あたり最大 1,000 枚の画像を処理できます。

EasyDL プラットフォームでは、モデルの高速化と最適化の全プロセスがシステム内で自動的に完了します。ユーザーはシナリオのニーズに応じて特定のハードウェアを選択するだけで、対応するハードウェアに適合したエンド コンピューティング展開パッケージが自動的に生成されます。現在、モデルを公開する際に、ユーザーは「同時に高速バージョンを取得する」にチェックを入れるだけで、EasyDL バックエンドがユーザーのために量子化や圧縮などの最適化機能を備えた高速バージョン SDK とモデルを自動的に生成します。ユーザーはそれを直接ダウンロードして使用することができ、使用プロセスは基本的に同じです。さらに、展開パッケージは非常に迅速かつ簡単に使用できます。ユーザーは、ディープラーニングや特定のハードウェアなどの基盤となるロジックに注意を払う必要はなく、入力画像と出力認識結果のみに集中する必要があります。

現在、多くの企業がEasyDLプラットフォームを活用し、特定の業務シナリオに基づき、少量の業務データのみで高精度なAIモデルをトレーニングし、利用シナリオや運用環境に応じて適切な導入方法を選択しています。利用の敷居が低く、便利で高速な高速SDKは、定量的な圧縮などの機能を備えており、ますます多くのビジネスシナリオで役割を果たし、ビジネスニーズを迅速に解決しています。

今すぐ EasyDL をお試しください: https://ai.baidu.com/easydl/

<<:  2020年の人工知能開発動向予測

>>:  権威あるレポート:テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン

ブログ    

推薦する

人工知能「トレーナー」がAIをより賢くする

「人工知能は子供のようなものです。継続的なトレーニング、調整、育成を通じて、その「IQ」はますます高...

AIOps が企業で成功する方法

企業による IT 運用における人工知能の使用は AIOps として知られています。 AIOps は、...

大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ニューラルネットワークの説明不可能性は、AI の分野では常に「長年の」問題となってきました。しかし、...

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...

クイックソートアルゴリズムの実装と最適化

[[385051]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

コンピュータービジョン技術の急速な発展に伴い、機械学習はビデオゲーム業界、特に仮想現実の分野で広く使...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

...

AIと拡張現実が職場でどのように進化しているか

[51CTO.com クイック翻訳]職場における支援/拡張現実 (AR) と人工知能 (AI) の潜...

...

あなたの AI は規制に対応できる準備ができていますか?

現在、人工知能 (AI) に関する同様の規制が世界中の複数の地域で施行され始めており、GDPR に関...

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...

米国は、中国のAIチップ量子の3つの主要分野への投資を制限する最新の大統領令に署名しました。大手メーカーが50億ドル相当のA800を緊急発注

水曜日、ホワイトハウスは大統領令に署名した。米国は、中国の半導体設計ソフトウェアや製造ハードウェアへ...

...