FPGA と GPU を使用したニューラルネットワークの作成

現代の CPU は、命令を順番に実行し、アルゴリズムを 1 つずつロードされて実行される命令に分解して、1 次元的に計算を実行します。しかし、将来のコンピューティングの傾向では、並列実行をサポートするためにハードウェアアクセラレータにますます依存するようになり、それがコンピューティングの標準となることが予想されます。この開発動向により、アルゴリズムとハードウェア構造の使用が統合され、より高速で効率的なソリューションが実現します。

この開発トレンドでは、2次元コンピューティングをサポートするGPUの台頭により、このトレンドが部分的に実現されました。 GPU は大規模な並列コンピューティング機能を備えており、本来並列化が困難だった多くのアプリケーションのパフォーマンスを大幅に向上させます。

写真

[左] GPU は、画像処理アルゴリズムの複雑な並列処理に最適です。ビデオ画像は滑らかです。 [右] CPU のシリアル制限により、顕著な遅延とパフォーマンスの低下が発生します。

ただし、GPU は特定の状況でのみ特定のアルゴリズムを高速化できます。将来的には、相互接続された CPU とさまざまなハードウェアアクセラレータを通じて超最適化が可能になります。 FPGA は、ハードウェア構造のプログラミングを通じて高度にカスタマイズされた 2 次元コンピューティングを可能にするため、この未来において重要な役割を果たすことになります。

写真

[左の画像] は、CPU が命令を 1 つずつ順番に実行して問題を解決する様子を示しています。 [右] は、GPU、FPGA、ASIC などのハードウェアアクセラレータが空間と時間で 2 次元計算を実行する方法を示しています。

この記事では、睡眠追跡に特定のニューラルネットワークを使用し、それを FPGA にマッピングする方法を説明します。さらに重要なことは、ハードウェアをアルゴリズムにマッピングするために必要な主要なツールを示し、異種コンピューティングを実現する方法を紹介することです。

1. 睡眠追跡: 鉛筆の先にニューラルネットワーク

ウェアラブル FPGA ベースの睡眠トラッカーを作成しました。このプロセスでは、元々 Python (Keras) で記述されたニューラルネットワークをシリコンチップ (FPGA) にマッピングできるパイプラインが構築されました。データの取得からニューラルネットワークの予測まで、睡眠追跡プロセス全体は、プロセッサを介さずに、完全に小さな FPGA 上で実行されます。

写真

3 層のフィードフォワードニューラルネットワーク (左) は、鉛筆の先よりも小さい FPGA に展開されており、iCE40 Ultra ウェアラブル開発プラットフォーム (右側の緑色で囲まれた部分) に搭載されています。

これは、ミシガン大学で開発された査読済みのアルゴリズム (Walch et al.、Sleep 2019) を使用して実装されました。これは、睡眠データセットと対応するアルゴリズムの最初のオープンソースリポジトリです。

ここでの FPGA ニューラルネットワーク (NN) コアは、このプロジェクトのラベル付きデータを使用して検証されました。使用されたニューラルネットワークは、加速度計データ、心拍数、概日リズムデータを入力として、覚醒、急速眼球運動 (REM) 睡眠、非 REM 睡眠を全体的な精度 91.3% で予測する多層パーセプトロンでした。

写真

FPGA 睡眠トラッカーの高レベルアーキテクチャ図。フロントエンドでは、STM IMU チップが FPGA に接続されたデータソースです。バックエンドでは、ホストコンピューターを接続してデータを読み取り、睡眠トラッカーにコマンドを送信できます。私は、SystemVerilog を使用して、サンプラー、特徴抽出器、NN コア、UART コアをゼロから自分で開発しました。これにより、小型 FPGA 上に展開可能な効率的なソリューションが可能になります。

構築されたパラメータ化された FPGA NN コアはベンダーに依存せず、パイプラインにより特定の制約下でモデルの形状とパラメータを簡単に更新できるため、このアプリケーションの範囲を超えた他のアプリケーションにも適しています。

2 加速器上の2次元アルゴリズムの将来

現在、FPGA などの適応型アクセラレータを導入することは、非常に手間がかかり、時間のかかる作業です。 FPGA 開発の 3 つの側面について、現在の実践と将来の改善の観点から説明します。

2.1 2Dアルゴリズムは高水準な方法（例えばPython）で記述され、自動的に展開される

FPGA コードの記述は、データサイエンティストやほとんどのソフトウェアエンジニアとは異なる専門知識を必要とする難解なタスクです。これは、FPGA ベースの 2D アクセラレーションから大きなメリットを得られるチームにとって障害となる可能性があります。 FPGA をターゲットとしたアルゴリズムを Python などの使い慣れた高級言語で記述できることは、FPGA の普及に重要です。 FPGA の専門家も、このインフラストラクチャによってもたらされる大幅な効率性の向上の恩恵を受けることになります。

アプリに新しい睡眠トラッカーネットワークを展開するには、ユーザーはスクリプトを実行し、いくつかのファイルを少し変更するだけです。ハードウェアの知識は必要ありませんし、新しい SystemVerilog コードを記述する必要もありません。

写真

ニューラルネットワークの展開フローにより、FPGA の専門家でない人でも新しいモデルをトレーニングし、FPGA に展開できるようになります。フロー内の手順には、Keras モデルのトレーニングとエクスポート、スクリプトを使用して出力モデルを FPGA コンパイラツールチェーンに必要なデータに解析、最上位 FPGA プロジェクトファイル内のモデル定数の更新、FPGA ビットストリームの再コンパイルが含まれます。

これが機能する理由は、高度に制約されたモデルのみが許可されるためです。将来的には、ザイリンクスの Vitis HLS や Google の XLS など、より汎用的な高レベル合成 (HLS) ツールにより、ユーザーは適応型アクセラレータに展開できる汎用的な高レベルアルゴリズム記述を提供できるようになります。

2.2 Pythonなどの言語で2Dアルゴリズムを効率的にテストおよびデバッグする

シミュレーション、検証、デバッグは、FPGA アプリケーション設計プロセスの重要な部分です。これらのプロセスは、高度なインターフェースとツールによって大幅に改善されます。

写真

睡眠トラッカーアプリのトップレベルテストベッドの画像。 Cocotb と Python を使用して FPGA 設計をテスト、検証、デバッグできることは大きな利点です。 Python の async/await 構文の利便性と、Python でのサブコンポーネントのモック作成やテストデータのインポートの容易さにより、私たちの作業は大幅に加速されました。

大きな進歩がありました。たとえば、すべてのコンポーネントは SystemVerilog で直接記述されていますが、Python を離れることなく、すべてのオフデバイス検証とテストベンチ (各モジュールとスリープアプリケーション全体) に Cocotb が使用されました。 Cocotb を使用すると、サイクル精度のシミュレーションを Python エコシステムで使用できます。これは、FPGA 検証にとって非常に重要であり、開発者にとって非常に効率的です。

2.3 Rustは異種システムをつなぐ接着剤となる

組み込みエンジニアにとって一般的なシナリオは、ハードウェアアクセラレータ (FPGA など) とホスト CPU 間の通信を確立することです。この仕事は退屈で間違いが起きやすいことで有名です。

FPGA スリープアプリケーション用のデバイスドライバーと高レベルのセッション API が Rust で構築されました。前者はカスタムパケットプロトコルを実装し、後者は FPGA スリープアプリケーションと対話するさまざまなプログラムを作成するために使用されました。 Rust は、その型システムと静的チェックにより、安全な低レベルコードと人間工学に基づいた高レベル API を簡単に記述できるため、優れたソリューションです。この講演の後半では、これらの機能のいくつかについて詳しく説明します。

私たちは、異機種コンピューティングシステムを接続するには Rust が最適な選択肢であると考えています。この役割において、Rust は低レベルの通信の安全性を提供し、ドライバーの脆弱性を軽減し、ハードウェア境界を越えて通信するアルゴリズムに人間工学に基づいた API を提供します。

写真

共通 I/O クラスのコード生成機能を含む、CPU<->FPGA 接着剤としての Rust のビジョン。

<<: GPT4 はロボットにペンをスムーズに回転させる方法を教えます。

>>:

FPGA と GPU を使用したニューラルネットワークの作成

1. 睡眠追跡: 鉛筆の先にニューラルネットワーク

2 加速器上の2次元アルゴリズムの将来

2.1 2Dアルゴリズムは高水準な方法（例えばPython）で記述され、自動的に展開される

2.2 Pythonなどの言語で2Dアルゴリズムを効率的にテストおよびデバッグする

2.3 Rustは異種システムをつなぐ接着剤となる

人工知能でカスタマーサービスエージェントを強化する方法

マイクロソフトは、すべての人に機械学習を推進し、Windowsアプリケーション「Ren Du two meridians」を公開し、5000万人の開発者に利益をもたらす

英国で新たな自動運転規制が導入され、ドライバーはもはや「集中」する必要がなくなった

ガートナー：今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する

Titanium Technology CEO、Li Shuhao氏：ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか？

Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

グーグルの従業員は米国の人工知能プロジェクトへの参加に反対する公開書簡を発表した。「私たちは違う」

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

訓練されたディープラーニングモデルは、もともとこのように展開されていました

推薦する

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

目録：2021年1月の人工知能分野における資金調達活動のリスト

本当に良いものです！機械学習技術と市場の最強評価ガイド

最も需要の高い AIGC 関連の仕事 11 選

李偉博士がブロックチェーンについてわかりやすく語る：技術原理、実用的応用、AIとの統合

無線ルーターのさまざまな暗号化アルゴリズムの包括的な説明

サイバーセキュリティの専門家は、悪意のあるAIが広がり始めると述べている

リモートワークにおけるAIの活用事例

ホットトピックのクイックレビュー：ドイツはシステムと技術の複数回の並行開発でAI戦略を強化

毎日のアルゴリズム: 階段登り問題

自然言語の事前トレーニングを10倍高速化する方法