アダプティブコンピューティングがAI製品化の課題にどのように対処するか

アダプティブコンピューティングがAI製品化の課題にどのように対処するか

[[389356]]

今日、人工知能技術は急速に発展しており、イノベーションのペースは加速しています。ソフトウェア業界では人工知能の導入が成功していますが、自動車、工業、スマート小売などのハードウェア業界では、人工知能の製品化の面ではまだ初期段階にあります。依然として大きなギャップがあり、AI アルゴリズムの概念実証 (PoC) が実際のハードウェア展開になるのを妨げています。これらの欠陥は主に、データ量が少ないこと、入力データが「不完全」であること、最先端のモデルが絶えず変化していることに起因します。ソフトウェア開発者と AI 科学者は、これらの課題をどのように克服できるでしょうか? 答えは、より適応性の高いハードウェアにあります。

少量のデータ

Google や Facebook などのインターネット大手は、毎日膨大な量のデータを定期的に収集し、分析しています。彼らはこのデータを活用して、許容できるパフォーマンスを持つ AI モデルを作成しました。この場合、モデルのトレーニングに使用されるハードウェアは、モデルの実行に使用されるハードウェアとは大きく異なります。

一方、ハードウェア業界では、ビッグデータの利用可能性が限られているため、AI モデルが未熟になっています。したがって、組織はより多くのデータを収集し、展開されたハードウェア上でトレーニングと推論が実行されるオンライン モデルを実行して、精度を継続的に向上させる必要があります。

これに対処するために、実績のあるフィールド プログラマブル ゲート アレイ (FPGA) や適応型システム オン チップ (SoC) デバイスなどの適応型コンピューティングでは、推論とトレーニングを実行して、新たにキャプチャされたデータで継続的に更新できます。従来の AI トレーニングは、クラウド プラットフォームまたは大規模なデータ センターで実行する必要があり、完了するまでに数日、場合によっては数週間もかかります。一方、実際のデータは主にエッジで生成されます。同じエッジ デバイスで AI 推論とトレーニングを実行すると、総所有コスト (TCO) が削減されるだけでなく、レイテンシとセキュリティ上の懸念も軽減されます。

不完全な入力

たとえば、X線画像を使用してコロナウイルスをより正確に検出するためのAIモデルの概念実証(PoC)を実装することが容易になってきていますが、これらのPoCはほとんどの場合、適切に処理された入力画像と情報に基づいています。現実の世界では、医療機器、ロボット、走行中の車からのカメラやセンサーの入力によって、暗い画像や不自然な角度の物体などのランダムな歪みが生じます。この入力データは、AI モデルに取り込む前に、まず複雑な前処理を行ってクリーンアップし、再フォーマットする必要があります。 AI モデルの出力を理解し、正しい決定を計算するには、前処理が非常に重要です。

確かに、一部のチップは AI 推論の高速化に非常に優れていますが、実際にはアプリケーションのサブセットのみを高速化します。スマート小売業界を例にとると、前処理にはマルチストリーム ビデオのデコードが含まれ、その後、従来のコンピューター ビジョン アルゴリズムを使用してビデオのサイズ変更、変形、フォーマットが行われます。前処理には、オブジェクトの追跡とデータベースの検索も含まれます。エンド カスタマーは、AI 推論の実行速度よりも、ビデオ ストリーミングのパフォーマンスやアプリケーション パイプライン全体のリアルタイム応答性が満たされるかどうかを重視します。 FPGA と適応型概念実証 (PoC) は、ドメイン固有アーキテクチャ (DSA) を使用してこれらの前処理を高速化する優れた実績を持っています。さらに、AI 推論の概念実証 (PoC) を追加することで、システム全体を最適化し、エンドツーエンドの製品要件を満たすことができます。

変化する「最先端」モデル

AI研究コミュニティはますます活発になっており、世界中の研究者が日々新しいAIモデルを開発しています。これらのモデルは、精度を向上させ、計算要件を削減し、新しいタイプの AI アプリケーションに対応します。これらの急速な技術革新により、既存の半導体ハードウェア デバイスに負担がかかり、最新のアルゴリズムを効果的にサポートするには、より新しいアーキテクチャが必要になります。 MLPerf などの標準ベンチマークでは、最先端の CPU、GPU、AI ASIC チップは、実際の AI ワークロードを実行する場合、ベンダーの主張の 30% 未満のパフォーマンスしか発揮しないことが実証されています。このような状況により、イノベーションに対応するために新しいドメイン固有アーキテクチャ (DSA) の必要性が高まっています。

最近のいくつかの傾向により、新しいドメイン固有アーキテクチャ (DSA) の必要性が高まっています。深さ方向の畳み込みは、効果を発揮するためにより大きなメモリ帯域幅と特別なメモリ キャッシュを必要とする新しいレイヤーです。一般的な AI チップと GPU は固定の L1/L2/L3 キャッシュ アーキテクチャと限られた内部メモリ帯域幅を備えているため、効率が非常に低くなります。

研究者たちは、今日のチップがネイティブにサポートできない新しいカスタム レイヤーを絶えず開発しています。したがって、アクセラレーションなしでサーバーの CPU 上で実行する必要があり、パフォーマンスのボトルネックになることがよくあります。

スパース ニューラル ネットワークは、エッジを刈り込み、畳み込みの細粒度のマトリックス値を削除することで、ネットワークを大幅に(場合によっては 99% 程度)刈り込む、もう 1 つの有望な最適化アプローチです。ただし、ハードウェアで効率的に実行するには特殊なスパース アーキテクチャが必要であり、ほとんどのチップにはこれらの操作のためのエンコーダーとデコーダーがありません。

バイナリ/ターナリは、すべての数学演算をビット演算に変換する極端な最適化です。ほとんどの AI チップと GPU には 8 ビット、16 ビット、または浮動小数点の計算ユニットしかないため、非常に低い精度で実行してもパフォーマンスや電力効率は向上しません。 FPGA と適応型 SoC は、開発者が完璧な DSA を開発し、非常に高いワークロードを持つ既存のデバイス用にそれを再プログラムできるため最適です。その証拠として、最新の MLPerf には、ResNet-50 標準ベンチマークを使用してハードウェア データシートのパフォーマンスの 100% を達成した、Mipsology と提携した Xilinx からの提出物が含まれています。

ハードウェアの専門知識がなくても心配はいりません

歴史的に、FPGA とアダプティブ SoC の最大の課題は、DSA を実装および展開するためにハードウェアの専門知識が必要であることでした。幸いなことに、Vitis 統合ソフトウェア プラットフォームなど、C++、Python、TensorFlow や PyTorch などの一般的な AI フレームワークをサポートするツールが登場し、ソフトウェア開発者と AI 開発者の間のギャップを埋めています。

ソフトウェア抽象化ツールの開発が進むだけでなく、Vitis ハードウェア アクセラレーション ライブラリなどのオープン ソース ライブラリも開発者コミュニティでの採用を大きく促進しました。ザイリンクスは最近開催された設計コンテストで、ジェスチャー制御ドローンからバイナリ ニューラル ネットワークを使用した強化学習に至るまで、1,000 人を超える開発者を参加させ、多くの革新的なプロジェクトを公開しました。重要なのは、提出されたプロジェクトの大部分が、FPGA の経験がないソフトウェアおよび AI 開発者によって提供されたことです。これは、FPGA 業界がソフトウェアおよび AI 開発者が現実世界の AI 製品化の課題を解決できるようにするために適切な措置を講じていることを証明しています。

最近まで、ハードウェアの適応性の可能性を解き放つことは、ソフトウェア開発者や AI 科学者にとって手の届かないものでした。以前は特定のハードウェアの専門知識が必要でしたが、新しいオープンソース ツールのおかげで、ソフトウェア開発者は適応性の高いハードウェアを使用できるようになりました。この新しいプログラミングの容易さにより、FPGA と Adaptive SoC はソフトウェア開発者や AI 科学者にとってよりアクセスしやすくなり、これらのデバイスは次世代アプリケーションに最適なハードウェア ソリューションになります。実際、ソフトウェア開発者や AI 科学者がハードウェアの適応性を活用して次世代アプリケーションを強化するため、DSA は AI 推論の未来を代表することになります。

<<:  いくつかの小さな図でディープラーニングを徹底的に説明します

>>:  このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...

推薦する

医療における会話型 AI の 5 つの応用

パンデミックの影響で、医療業界は世界中で医師、看護師、その他の医療スタッフの深刻な不足に直面していま...

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...

人工知能はあらゆる点で人間よりも優れているのに、なぜ人間の言っていることを理解できないのでしょうか?

9月8日、英国の新聞「ガーディアン」は、熱心な読者でも記者でもなく、サンフランシスコの人工知能スタ...

機械学習入門

1. 機械学習の定義機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装...

ホンダのエンジニアはAIを活用して安全性と燃費規制を設計

[[378826]]本田技術研究所では、エキスパートナレッジシステムを活用して車体設計プロセスに A...

EasyDL モデルのトレーニングから EdgeBoard 推論までのステップバイステップ ガイド

まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...

戦争の太鼓はすでに鳴り響いています。人工知能に関して、あなたはどちらの陣営に属しますか?

[[240281]]人工知能が将来の技術の方向性であることは誰もが知っていますが、AIの学習に対す...

知識が求められるポストディープラーニング時代に、知識グラフをいかに効率的かつ自動的に構築するか

ナレッジグラフは何ができるのでしょうか?ナレッジグラフを自動的かつ効率的に構築するにはどうすればよい...

プロジェクト Digging 21 - 軽量 LLM エージェントの構築方法

8 月 12 日、Juli プロジェクト シリーズの第 21 回「大規模言語モデルのトレーニングとア...

ロボット兵士はもはやSFではない

ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...

Pythonは画像内のすべての顔を認識し、それを表示する機能を実装しています

Python3 を使用して、写真内のすべての顔を認識して表示します。コードは次のとおりです。 # -...

...

「ZAO」かっこいいですね!ディープフェイクを使って顔を変える方法

最近、SNS上で「ZAO」と呼ばれるAI顔変換ソフトが話題になっている。人気が出る一方で、多くの疑問...

CNN、RNN、GAN とは何ですか?ついに誰かが明らかにした

[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...

...