今日、人工知能技術は急速に発展しており、イノベーションのペースは加速しています。ソフトウェア業界では人工知能の導入が成功していますが、自動車、工業、スマート小売などのハードウェア業界では、人工知能の製品化の面ではまだ初期段階にあります。依然として大きなギャップがあり、AI アルゴリズムの概念実証 (PoC) が実際のハードウェア展開になるのを妨げています。これらの欠陥は主に、データ量が少ないこと、入力データが「不完全」であること、最先端のモデルが絶えず変化していることに起因します。ソフトウェア開発者と AI 科学者は、これらの課題をどのように克服できるでしょうか? 答えは、より適応性の高いハードウェアにあります。 少量のデータGoogle や Facebook などのインターネット大手は、毎日膨大な量のデータを定期的に収集し、分析しています。彼らはこのデータを活用して、許容できるパフォーマンスを持つ AI モデルを作成しました。この場合、モデルのトレーニングに使用されるハードウェアは、モデルの実行に使用されるハードウェアとは大きく異なります。 一方、ハードウェア業界では、ビッグデータの利用可能性が限られているため、AI モデルが未熟になっています。したがって、組織はより多くのデータを収集し、展開されたハードウェア上でトレーニングと推論が実行されるオンライン モデルを実行して、精度を継続的に向上させる必要があります。 これに対処するために、実績のあるフィールド プログラマブル ゲート アレイ (FPGA) や適応型システム オン チップ (SoC) デバイスなどの適応型コンピューティングでは、推論とトレーニングを実行して、新たにキャプチャされたデータで継続的に更新できます。従来の AI トレーニングは、クラウド プラットフォームまたは大規模なデータ センターで実行する必要があり、完了するまでに数日、場合によっては数週間もかかります。一方、実際のデータは主にエッジで生成されます。同じエッジ デバイスで AI 推論とトレーニングを実行すると、総所有コスト (TCO) が削減されるだけでなく、レイテンシとセキュリティ上の懸念も軽減されます。 不完全な入力たとえば、X線画像を使用してコロナウイルスをより正確に検出するためのAIモデルの概念実証(PoC)を実装することが容易になってきていますが、これらのPoCはほとんどの場合、適切に処理された入力画像と情報に基づいています。現実の世界では、医療機器、ロボット、走行中の車からのカメラやセンサーの入力によって、暗い画像や不自然な角度の物体などのランダムな歪みが生じます。この入力データは、AI モデルに取り込む前に、まず複雑な前処理を行ってクリーンアップし、再フォーマットする必要があります。 AI モデルの出力を理解し、正しい決定を計算するには、前処理が非常に重要です。 確かに、一部のチップは AI 推論の高速化に非常に優れていますが、実際にはアプリケーションのサブセットのみを高速化します。スマート小売業界を例にとると、前処理にはマルチストリーム ビデオのデコードが含まれ、その後、従来のコンピューター ビジョン アルゴリズムを使用してビデオのサイズ変更、変形、フォーマットが行われます。前処理には、オブジェクトの追跡とデータベースの検索も含まれます。エンド カスタマーは、AI 推論の実行速度よりも、ビデオ ストリーミングのパフォーマンスやアプリケーション パイプライン全体のリアルタイム応答性が満たされるかどうかを重視します。 FPGA と適応型概念実証 (PoC) は、ドメイン固有アーキテクチャ (DSA) を使用してこれらの前処理を高速化する優れた実績を持っています。さらに、AI 推論の概念実証 (PoC) を追加することで、システム全体を最適化し、エンドツーエンドの製品要件を満たすことができます。 変化する「最先端」モデルAI研究コミュニティはますます活発になっており、世界中の研究者が日々新しいAIモデルを開発しています。これらのモデルは、精度を向上させ、計算要件を削減し、新しいタイプの AI アプリケーションに対応します。これらの急速な技術革新により、既存の半導体ハードウェア デバイスに負担がかかり、最新のアルゴリズムを効果的にサポートするには、より新しいアーキテクチャが必要になります。 MLPerf などの標準ベンチマークでは、最先端の CPU、GPU、AI ASIC チップは、実際の AI ワークロードを実行する場合、ベンダーの主張の 30% 未満のパフォーマンスしか発揮しないことが実証されています。このような状況により、イノベーションに対応するために新しいドメイン固有アーキテクチャ (DSA) の必要性が高まっています。 最近のいくつかの傾向により、新しいドメイン固有アーキテクチャ (DSA) の必要性が高まっています。深さ方向の畳み込みは、効果を発揮するためにより大きなメモリ帯域幅と特別なメモリ キャッシュを必要とする新しいレイヤーです。一般的な AI チップと GPU は固定の L1/L2/L3 キャッシュ アーキテクチャと限られた内部メモリ帯域幅を備えているため、効率が非常に低くなります。 研究者たちは、今日のチップがネイティブにサポートできない新しいカスタム レイヤーを絶えず開発しています。したがって、アクセラレーションなしでサーバーの CPU 上で実行する必要があり、パフォーマンスのボトルネックになることがよくあります。 スパース ニューラル ネットワークは、エッジを刈り込み、畳み込みの細粒度のマトリックス値を削除することで、ネットワークを大幅に(場合によっては 99% 程度)刈り込む、もう 1 つの有望な最適化アプローチです。ただし、ハードウェアで効率的に実行するには特殊なスパース アーキテクチャが必要であり、ほとんどのチップにはこれらの操作のためのエンコーダーとデコーダーがありません。 バイナリ/ターナリは、すべての数学演算をビット演算に変換する極端な最適化です。ほとんどの AI チップと GPU には 8 ビット、16 ビット、または浮動小数点の計算ユニットしかないため、非常に低い精度で実行してもパフォーマンスや電力効率は向上しません。 FPGA と適応型 SoC は、開発者が完璧な DSA を開発し、非常に高いワークロードを持つ既存のデバイス用にそれを再プログラムできるため最適です。その証拠として、最新の MLPerf には、ResNet-50 標準ベンチマークを使用してハードウェア データシートのパフォーマンスの 100% を達成した、Mipsology と提携した Xilinx からの提出物が含まれています。 ハードウェアの専門知識がなくても心配はいりません歴史的に、FPGA とアダプティブ SoC の最大の課題は、DSA を実装および展開するためにハードウェアの専門知識が必要であることでした。幸いなことに、Vitis 統合ソフトウェア プラットフォームなど、C++、Python、TensorFlow や PyTorch などの一般的な AI フレームワークをサポートするツールが登場し、ソフトウェア開発者と AI 開発者の間のギャップを埋めています。 ソフトウェア抽象化ツールの開発が進むだけでなく、Vitis ハードウェア アクセラレーション ライブラリなどのオープン ソース ライブラリも開発者コミュニティでの採用を大きく促進しました。ザイリンクスは最近開催された設計コンテストで、ジェスチャー制御ドローンからバイナリ ニューラル ネットワークを使用した強化学習に至るまで、1,000 人を超える開発者を参加させ、多くの革新的なプロジェクトを公開しました。重要なのは、提出されたプロジェクトの大部分が、FPGA の経験がないソフトウェアおよび AI 開発者によって提供されたことです。これは、FPGA 業界がソフトウェアおよび AI 開発者が現実世界の AI 製品化の課題を解決できるようにするために適切な措置を講じていることを証明しています。 最近まで、ハードウェアの適応性の可能性を解き放つことは、ソフトウェア開発者や AI 科学者にとって手の届かないものでした。以前は特定のハードウェアの専門知識が必要でしたが、新しいオープンソース ツールのおかげで、ソフトウェア開発者は適応性の高いハードウェアを使用できるようになりました。この新しいプログラミングの容易さにより、FPGA と Adaptive SoC はソフトウェア開発者や AI 科学者にとってよりアクセスしやすくなり、これらのデバイスは次世代アプリケーションに最適なハードウェア ソリューションになります。実際、ソフトウェア開発者や AI 科学者がハードウェアの適応性を活用して次世代アプリケーションを強化するため、DSA は AI 推論の未来を代表することになります。 |
<<: いくつかの小さな図でディープラーニングを徹底的に説明します
>>: このデータ サイエンスの間違いに注意し、30 時間以上の無駄な作業を回避しましょう...
最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...
音声認識から言語翻訳、囲碁ロボットから自動運転車まで、あらゆる分野で人工知能による新たな進歩が起こっ...
[[192284]]回帰は幅広い概念です。その基本的な概念は、変数のグループを使用して別の変数を予測...
カーボン クレジットとは、保有者に 1 トンの二酸化炭素またはその他の温室効果ガスに相当する排出権を...
1. 適用シナリオ高精度のサンプリング結果の場合、最大値には 3 バイト、最小値には 1 バイトが必...
海外メディアの報道によると、研究者らは、マスクはCOVID-19などの空気感染する病気の拡散を効果的...
[[270666]] [51CTO.com クイック翻訳] 昨今、クラウドコンピューティング、ブロ...
序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、Open...
リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要...
最近、GPT-3などのTransformerベースのディープラーニングモデルが機械学習の分野で大きな...
ロボットは長年にわたり開発され、無人運転の需要が継続的に解放され、主要なコア技術が継続的に進歩するに...
[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...
1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...