AIコンピューティング能力のボトルネックを打破するソリューションは、FPGAベースの異種コンピューティングアクセラレーションプラットフォームソリューションです。

AIコンピューティング能力のボトルネックを打破するソリューションは、FPGAベースの異種コンピューティングアクセラレーションプラットフォームソリューションです。

【51CTO.comより引用】無人スーパーマーケットが誕生し、ヒューマノイドロボットがインタビューを受け、自動運転車が量産されようとしています...現在、AIはさまざまなサブセクターに統合され、私たちの生活を静かに変えつつあります。しかし、SF映画のような人間とコンピュータの相互作用の効果を実現するには、計算能力が重要なボトルネックの1つとなります。ハードウェアの計算能力は、AI の開発に不可欠な条件の 1 つです。GPU/ASIC/FPGA はすべて、膨大な計算ワークロードを解決するための加速エンジンです。

[[228624]]

アクセラレータークラウドの創設者兼CEO、ウー・ガン氏

最近、杭州アクセラレータクラウド情報技術有限公司(以下、アクセラレータクラウド)の創設者兼CEOである呉剛氏は、新製品発表会で次のように述べました。「人工知能の今後の発展にはボトルネックがあり、ハードウェア技術とアルゴリズムのブレークスルーが必要です。ヘテロジニアスコンピューティングはコンピューティングアーキテクチャの将来のトレンドであり、FPGAはヘテロジニアスコンピューティングを実現するための最良の選択肢です。」

FPGAベースのディープラーニングソリューションは、ディープラーニングモデルの効率的な実行に役立ちます。

ビッグデータの時代において、ディープラーニングは人工知能の主な原動力です。近年のビッグデータとコンピューティング能力の急速な成長により、ディープラーニング技術の質的な飛躍が可能になり、コンピュータービジョン、音声認識、自然言語処理などの分野で大きな進歩がもたらされました。しかし、ディープラーニングには大量の並列コンピューティングが必要であり、従来のコンピュータでは満たせない非常に高いハードウェア プラットフォーム要件があります。

既存のソリューションでは、GPU を使用してディープラーニング トレーニングを完了しますが、GPU は消費電力が高く、パフォーマンスと電力の比率が低く、処理の遅延が大きいため、大規模な推論の展開や遅延に敏感なシナリオには適していません。 FPGA は性能電力比が非常に高く、ゲートレベルの回路設計により超低レイテンシかつ確定的なレイテンシのソリューションを実現しているため、FPGA のプログラマビリティと動的再構成により、ディープラーニング アルゴリズムの将来の変化に適応でき、IO プログラマビリティにより、より多くのビジネス ニーズ (ネットワーク アクセラレーション、エッジ コンピューティング) に対応できます。そのため、FPGA ベースのディープラーニング ソリューションは、今後の技術開発の方向となっています。

今回の記者会見で、アクセラレーションクラウドは、SC-OPM/SC-OPF/SC-OPSアクセラレーションカードやFDNNアクセラレーションライブラリなど、FPGAベースのディープラーニングアクセラレーションソリューションの完全なセットを発表し、市場の需要に迅速に対応しました。

SC-OPS アクセラレータ カード

SC-OPSは、最新の14nmプロセスを採用したIntelのStratix10 FPGAをベースにしています。2800K LEと9.2TFLOPSのコンピューティング性能を提供し、8つのDDR4コントローラをサポートし、最大150GB/Sのメモリ帯域幅を提供し、PCIe*16Laneインターフェースを提供し、最大128Gbpsのアクセス速度をサポートし、データセンターの高性能ディープラーニングアクセラレーション要件を満たすことを目指しています。

SC-OPM/SC-OPF アクセラレータ カード

SC-OPM/SC-OPFは、最新の20nmプロセスを採用したIntelのARRIA 10 FPGAをベースとしており、1150K~2*1150K LEおよび1.5~2TFLOPSのコンピューティング性能を提供し、データセンターやエッジコンピューティングゲートウェイのディープラーニングアクセラレーションのニーズを満たすことを目指しています。

FDNN アクセラレーション ライブラリ

FDNN アクセラレーション ライブラリは、RTL ベースのディープ ニューラル ネットワーク アクセラレーション ライブラリ FDNN のセットであり、パラメータ設定可能な CNN/DNN/LSTM を実装できるほか、高性能な共通ネットワーク モデル アクセラレーション ライブラリ (Lenet、VGG16、Darknet19、YOLOV2、RestNet、DNN、LSTM など) も提供し、高性能で柔軟なディープラーニング アクセラレーションに対する顧客の要件を満たすことに専念しています。

FPGA ベースの完全な OpenCL 異種開発環境

顧客が開発に高級言語を使用できるようにするために、Acceleration Cloud は、ユーザー定義のディープラーニング アクセラレーション ソリューションを迅速に実装するための完全な FPGA ベースの OpenCL 異種開発環境を提供します。また、高速なディープ ニューラル ネットワークのカスタマイズされたアクセラレーション サービスも提供します。

プログラムの特徴:

A. 高性能な統合IP、使いやすさ、二次開発

B. 豊富なIOインターフェース、便利で柔軟な拡張

C. さまざまなアプリケーションシナリオをサポートするモジュール設計

D. 高性能な電力消費率で運用コストを削減

E. 超低レイテンシと確定的レイテンシ、時間に敏感なアプリケーションシナリオをサポート

具体的なパフォーマンス指標:

ディープラーニング加速ソリューションの応用 - 画像OCR

電子商取引プラットフォームは、毎日大量の顧客の店舗開設や業務申請の要求に直面しており、大量の営業許可証やその他の証明書を審査する必要があります。従来は手動による審査方法が使用されていましたが、ビジネスの成長に伴い、手動による審査は完了できなくなりました。ディープラーニング画像OCRを使用することは、優れたソリューションです。

ディープラーニングに基づく画像 OCR ソリューションには、テキスト配置とテキスト認識の 2 つの部分が含まれます。テキスト配置では 4 層の CNN ネットワークを使用し、テキスト認識では 4 層の双方向 LSTM を使用します。CNN 部分は多くの計算を必要とせず、主な計算は LSTM で行われるため、LSTM 部分は高速化されます。

元のソリューションでは GPU を使用しますが、次の 2 つの問題があります。

  1. 処理遅延が非常に大きく、要件を満たすことができない
  2. 一部の画像内のテキストは非常に長いです。非常に長いテキストと通常の長さのテキストを GPU に送信して一緒に処理すると、通常の長さのテキストの処理時間は非常に長いテキストの処理時間と同じになり、ビジネスがオンライン条件を満たすことができなくなります。

具体的な LSTM 仕様は次のとおりです。

Acceleration Cloud は FPGA ソリューションを使用して双方向 LSTM の高速化を実現し、顧客の要件を満たします。具体的なソリューション機能は次のとおりです。

  • SC-OPMアクセラレータカードを採用(ハーフハイト、ハーフレングス:56×167mm)
  • 660k LEと1.5T FLOPSの単精度浮動小数点処理機能を統合したAltera Arria 10 GX660デバイス
  • 4層LSTM + 1層完全接続、各層のネットワークパラメータはソフトウェア構成を通じてダウンロード可能
  • 40000T/Sのフローレート、超低遅延、混合データ長を実現
  • シングルカードのみ 33W

上記の内容に加え、アクセラレーションクラウドは今回の記者会見で、FBLAS IPライブラリ、高性能コンピューティングおよびデジタル信号処理ソリューション、エッジコンピューティングソリューションも発表しました。

インタビューの中で、呉剛氏は次のように述べた。「アクセラレータクラウドはテクノロジーから生まれた企業です。同社のソリューションは、ディープラーニング、人工知能、金融、マシンビジョンなどの分野で幅広く活用できます。現在、同社はアリババ、テンセント、iFlytekなど多くの企業と緊密な協力関係を築いています。」

***で書かれています:

当初、FPGA はグルー ロジックにのみ使用されていました。グルー ロジックからアルゴリズム ロジック、さらにデジタル信号処理、高速シリアル トランシーバー、組み込みプロセッサへと、FPGA はサポート役から主役へと真に変化しました。高性能コンピューティングやデジタル信号処理、エッジ コンピューティング、AI などの新しいアプリケーション要求の出現により、FPGA に歴史的な開発機会がもたらされました。現在、国内メーカーの主要市場は依然としてアプリケーション端末と中低価格帯のバックエンドサーバー市場にあります。クラウドに参入し、AIコンピューティングパワーのボトルネックを打破するには、FPGAハイエンド技術者、先進プロセス技術などのボトルネックも打破し、独自のエコシステムを確立する必要があります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  Python が Java や C/C++ に勝って機械学習に最適な言語である理由!

>>:  人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

ブログ    
ブログ    
ブログ    

推薦する

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...

...

コンピューティング技術を変えた偉大なアルゴリズムを数えてみましょう

これまで、多くの独創的なコンピュータ アルゴリズムの設計が私たちのコンピューティング技術を変えてきま...

GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作:V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

サム・アルトマン氏は最近、世界経済フォーラムで講演し、人間レベルの AI が間もなく登場すると述べま...

...

DAMOアカデミーの医療AIは、整形外科手術における歴史的課題を解決し、解剖学的位置を0.3秒で特定します。

「21世紀で最も成功した手術」として知られる人工股関節全置換術(THA)では、まもなく最新のAI技...

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなど...

...

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント!

モデルの展開は、ディープラーニング アルゴリズムの実装において常に重要な部分です。ディープラーニング...

2020 年の最もクールな機械学習スタートアップ 12 社

人工知能は近年注目されている技術分野です。機械学習は人工知能のサブセットであり、人工知能分野全体の中...

...

C# アルゴリズムが張さんの誕生日問題を解決する

C# アルゴリズムは張さんの誕生日問題をどのように実装するのでしょうか?まず、張さんの誕生日に関する...

...

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにお...

メタ啓示: AIはメタバースの重要な変数である

最近、メタバースに新たな水が流れ込んできました。 Metaが開催した研究室でのディスカッションにおい...