EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコストの削減のために人工知能が適用されています。人工知能は、産業の高度化と人間の生活の向上においてますます重要な役割を果たしています。開発者が AI モデルを展開する場合、使用シナリオの問題に直面します。つまり、使用シナリオやビジネス上の問題によって、モデルの展開方法が異なります。

AI モデルにはさまざまな展開方法があります。一般的なモデルの展開形式は、サーバー展開と組み込み展開の 2 種類に分けられます。サーバー展開とは、CPU/GPU 上にモデルを展開して、呼び出し可能な API インターフェイスを形成することを指します。クラウド サーバー展開とローカル サーバー展開は、必要に応じて選択できます。組み込み展開とは、スタンドアロンのオフライン操作のためにエッジ側またはエンド側の組み込みデバイスに展開することを指します。次の表は、これら 2 つの展開方法の特性を比較したものです。ユーザーのモデル適用シナリオにネットワーク カバレッジがない場合、ビジネス データが比較的機密性が高い場合、または予測遅延の要件が高い場合は組み込み展開が選択されることが多いです。

組み込み展開方式には、リアルタイム応答、ネットワークオーバーヘッドの低さ、プライバシー保護、高いエネルギー効率比などの利点がありますが、同時に、エッジデバイスの種類が多岐にわたるため、適応と展開が困難です。

Baidu と Boston Consulting Group の共同調査では、カスタマイズされたビジネス モデル要件を持つ顧客のうち、35% 以上のシナリオでオフライン エッジ コンピューティングの要件があることがわかりました。前述のように、デバイスの多様性により、エッジ コンピューティングの研究開発および展開コストはクラウド展開よりも高く、実際のビジネス シナリオでは、エッジで実行されるモデルのレイテンシと安定性に対する要件が非常に高いことがよくあります。そのため、カスタマイズされたモデルをさまざまな端末デバイスに展開する方法が技術的な課題となっています。

多様な展開形態に対する開発者のニーズを満たすために、Baidu Brain のワンストップ AI 開発プラットフォーム EasyDL は、パブリック クラウド展開、ローカル サーバー展開、デバイス側 SDK、ハードウェアとソフトウェアの統合ソリューションなど、複数の展開方法をサポートしています。 EasyDL は、PaddlePaddle をベースにした企業向けのワンストップ開発プラットフォームです。インテリジェントなラベリング、モデル トレーニング、サービス展開などのフルプロセス機能を提供します。豊富な事前トレーニング済みモデルが組み込まれており、PaddlePaddle マスター モードを完全にサポートしています。さまざまなグループの人々やニーズに合わせて、クラシック エディション、プロフェッショナル エディション、リテール エディションの 3 つのバージョンを提供しています。

EasyDL は、さまざまなビジネス シナリオや動作環境に適したさまざまな展開方法をサポートしており、開発者はニーズに応じて柔軟に選択できます。また、最も一般的な x86、ARM、Nvidia-GPU から NPU や FPGA まで、幅広いデバイスをサポートしており、10 種類以上のハードウェアをサポートしています。 Baidu PaddlePaddle ディープラーニング プラットフォームの関連機能のサポートにより、EasyDL は強力なエンド コンピューティング展開機能を備えています。エンド コンピューティング モデルを生成する際には、一連の最適化、加速、圧縮機能が実行されます。

この一連の機能の説明は、ネットワーク構造とチップ機能という 2 つの側面から始めることができます。

ネットワーク構造レベルでは、op fusion (conv-add-relu、conv-bn など)、fp16/int8 量子化、モデル プルーニングなどの最適化が実行されます。

最近リリースされたARM 固定小数点量子化を例にとると、その利点としては、メモリ帯域幅の低さ、消費電力の低さ、コンピューティング リソースの使用量が少ないことが挙げられます。一部のネットワークでは、モデル圧縮が 4 倍、メモリ帯域幅が 4 倍向上しキャッシュ利用効率が向上します。多くのシナリオでは、固定小数点量子化によってネットワークの精度がさらに低下することはありません。量子化は主に、トレーニング後の量子化と量子化を考慮したトレーニングの 2 つのカテゴリに分けられます。前者は、KL ダイバージェンスなどの方法を使用して量子化パラメータを決定し、再トレーニングを必要としない固定小数点量子化方法です。後者は、トレーニング済みのモデルを再トレーニングし、量子化パラメータをモデル化します。量子化トレーニング プロセス中、順方向伝播ワークフローは次のように表現できます。

シミュレートされた量子化トレーニングフォワードプロセスに基づく同等のワークフロー

トレーニング量子化プロセスでは、元のネットワーク演算子の前後に連続量子化演算子と逆量子化演算子が挿入され、対応する逆演算子の入力が変更されます。評価フェーズでは、量子化演算子のパラメータが量子化された値に変更されます。最後に、モデルファイル内のパラメータのデータ型が、PaddleLite ツールを使用して、int8 のナイーブ バッファ形式に変更されます。

今後のバージョンアップグレードでは、EasyDL は引き続きモデルプルーニングの最適化を開始します。感度に応じて最適なクロッピング率の組み合わせを選択し、部分畳み込みとクロッピングを行うことで、モデル体積を半分以下に削減し、精度損失を1%未満に抑える最適化効果が得られます。固定小数点量子化とそれに続く蒸留戦略と組み合わせることで、モデルのサイズと推論速度がさらに包括的に最適化されます。

チップ レベルでは、EasyDL は特定のハードウェア タイプに基づいて特別な最適化を実行します。たとえば、ARM64 では、チップが NEON をサポートしている場合、16 個の 128 ビット レジスタを最大限に活用して浮動小数点計算を最適化します。NVIDIA GPU デバイスでは、EasyDL は TensorRT ライブラリを使用してサブグラフを計算し、加速します。Apple の電話では、推論の加速に CoreML エンジンを使用します。Huawei の電話では、DDK がサポートされている場合、推論に Huawei HiAI エンジンを呼び出します。さらに、EasyDL は、Intel の MKL OpenVino や Qualcomm の SNPE などの推論エンジンもサポートしています。一部のプラットフォームでは、特定のディープラーニング ネットワークとチップの種類に基づいて合理的な自動選択を行うことが可能であり、精度を確保しながらチップの機能を最大限に活用し、推論速度を大幅に向上させることができます。ネットワークやハードウェアなどのさまざまなレベルで最適化すると、モデルのサイズ、メモリ使用量、推論速度のパフォーマンスが向上します。一部のモデルの推論速度は数倍以上向上する可能性があります。

最近、EasyDL は、開発ボードとサーバーのシナリオを考慮しながら、最新の DaVinci アーキテクチャ Ascend 310 AI プロセッサをサポートできる Huawei Atlas 200 および Atlas 300 アクセラレータ カードのサポートを開始しました。 EasyDL の既存の最適化テクノロジーと組み合わせることで、EasyDL の高性能モデルで 6 ミリ秒のパフォーマンスを実現できます。マルチバッチ最適化を有効にすると、1 枚の 300 アクセラレータ カードで 1 秒あたり最大 1,000 枚の画像を処理できます。

EasyDL プラットフォームでは、モデルの高速化と最適化の全プロセスがシステム内で自動的に完了します。ユーザーはシナリオのニーズに応じて特定のハードウェアを選択するだけで、対応するハードウェアに適合したエンド コンピューティング展開パッケージが自動的に生成されます。現在、モデルを公開する際に、ユーザーは「同時に高速バージョンを取得する」にチェックを入れるだけで、EasyDL バックエンドがユーザーのために量子化や圧縮などの最適化機能を備えた高速バージョン SDK とモデルを自動的に生成します。ユーザーはそれを直接ダウンロードして使用することができ、使用プロセスは基本的に同じです。さらに、展開パッケージは非常に迅速かつ簡単に使用できます。ユーザーは、ディープラーニングや特定のハードウェアなどの基盤となるロジックに注意を払う必要はなく、入力画像と出力認識結果のみに集中する必要があります。

現在、多くの企業がEasyDLプラットフォームを活用し、特定の業務シナリオに基づき、少量の業務データのみで高精度なAIモデルをトレーニングし、利用シナリオや運用環境に応じて適切な導入方法を選択しています。利用の敷居が低く、便利で高速な高速SDKは、定量的な圧縮などの機能を備えており、ますます多くのビジネスシナリオで役割を果たし、ビジネスニーズを迅速に解決しています。

今すぐ EasyDL をお試しください: https://ai.baidu.com/easydl/

<<:  2020年の人工知能開発動向予測

>>:  権威あるレポート:テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン

ブログ    
ブログ    

推薦する

1行のコマンドで顔認識を実装する方法を教えます

[[207803]]環境要件ウブントゥ 17.10 Python 2.7.14環境構築1. Ubun...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

ヘルスケアにおける AI の活用: データを行動に変える

ヘルスケアにおける人工知能 (AI) の利点を裏付ける統計、調査、業界の誇大宣伝は数多くあります。人...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

先頭に立つ! 16人の学際的な専門家がAIの次の10年について語る

ニューヨーク大学の心理学・神経科学教授ゲイリー・マーカス氏と、ディープラーニングの先駆者で2018年...

環境センシング:スマートホームの次のステップ

「スマートホーム」という用語は何年も前から存在しているようですが、業界自体は比較的初期段階にあります...

自分のIQに挑戦してみませんか? 10 種類の機械学習アルゴリズムを理解してデータ サイエンティストになろう

データ サイエンティストになりたいですか? 十分な知識と新しいことに対する好奇心が必要です。このため...

Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携

ここ数カ月、国内外のテクノロジー大手は大規模モデルをめぐって動きを見せているが、OpenAIを所有す...

IoT生体認証は職場でより大きな役割を果たす

組織はセンサーや監視を通じて職場のセキュリティと従業員の安全性を向上させるために生体認証を使用できま...

スマートホテルの室内技術トレンドを探る

オンライン予約プラットフォームは人々の旅行計画の方法に革命をもたらし、モバイルアプリによりユーザーは...

RNN の理論から PyTorch まで

RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...

App Store 中国地域がアルゴリズムを調整?一部のアプリではフルネームによる検索が機能しません

最近、中国の Apple App Store で「奇妙な現象」が発生しました。一部のアプリケーション...

自動運転:「乗っ取り」という言葉を恐れるのをやめよう

編集者注:過去2年間、ロボタクシーの公共運行は中国の多くの場所で開花しました。これらのロボタクシーに...

300 万行から 100 行へ: 機械学習により開発エクスペリエンスが向上

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...