最近、モバイル端末向けのディープラーニングフレームワークの開発がますます増えてきています。最近、アリババはMNN推論エンジンをベースにした最新のMNNKitディープラーニングSDKもオープンソース化しており、AndroidおよびiOS開発者が簡単に呼び出すことができます。 近年、多くの企業がモバイルデバイス向けのディープラーニングフレームワークを開発しています。中国では、XiaomiのMace、TencentのFeatherCNN(Tencent AI)やncnn(Tencent Youtu)、BaiduのPaddle-moblieなどがあります。 Alibaba は独自のモバイル ディープラーニング フレームワーク MNN も開発しました。 最近、アリババはMNNエンジンをベースにしたMNNKitプロジェクトをオープンソース化し、AndroidおよびiOS向けのSDKの形でAIエンドサイド推論機能を提供しています。開発者はアルゴリズムの詳細を理解しなくても直接使用できます。 プロジェクトアドレス: https://github.com/alibaba/MNNKit 現在、MNNKit には顔検出、ジェスチャー認識、ポートレートセグメンテーションなどがすでに備わっており、将来的にはさらに多くの API が追加される可能性があります。 MNNKit: MNN に基づくディープラーニングツール MNN は、Alibaba の MNN オンデバイス推論エンジンに基づいて開発されたアプリケーション ソリューションであり、主に Android および iOS システムを対象として、実際のモバイル シナリオに AI 機能を適用するのに役立ちます。 MNNKit アーキテクチャ MNNKit は開発者が使用できる SDK を提供します。以下は SDK のアーキテクチャです。 図からわかるように、MNNKit は下から上に向かって 3 つの層に分けられます。
内部原則 MNNKit は主に Alibaba のエンドサイド AI 機能を提供するため、関連アプリケーションの多くの API をカプセル化します。呼び出し内容は次のとおりです。 たとえば、ユーザーが API を呼び出す必要がある場合、まずインスタンスを作成し、次に画像、ビデオ、またはその他の構造化データを入力して AI モデルで推論を実行する必要があります。作業が完了したら、インスタンスを解放します。 現在、MNNKit は次の API をサポートしています。
顔検出を例にとると、検出内容は主に次の 3 つのセクションに分かれます。
106 個のキーポイントの配布 (公式オープンソース github より) 顔の各部位のツボ分布対応表
3つの角度値: ヨー、ピッチ、ロール
プロセス 顔検出のために検出する必要があるデータがわかったので、処理プロセスを見てみましょう。 図に示すように、このプロセスは、iOS および Android デバイスの背面カメラが前方に撮影した後のモバイル端末上の全体的な処理です。 まず、システムはカメラからデータを SDK への入力として取得します。次に、SDK は次のことを実行します。
プロセス アプリケーションでは、最終結果のキー ポイントがユーザーの画面に表示され、フロント エンドはレンダリングに「キャンバス」を使用します。キャンバスの座標系はレンダリング座標系と呼ばれます。 SDK 検出の最後のステップでは、キー ポイントをレンダリング座標系と同じ方向に変換し、キー ポイントの座標をレンダリング座標系の座標に比例してマッピングします。マッピング後、キャンバスに直接レンダリングできます コードサンプル MNNKit は顔検出、ジェスチャー認識などのサンプルコードを提供します。次に、顔検出を例に、Android または iOS で API を呼び出して推論を実行する方法を確認します。 Androidコード 前述のように、API を呼び出すには、まずインスタンスを作成する必要があります。以下は、非同期的に FaceDetector インスタンスを作成し、メイン スレッドでコールバックするコードです。 パブリック静的void createInstanceAsync (コンテキスト コンテキスト、 FaceDetectorCreateConfig createConfig、 InstanceCreatedListener<FaceDetector> リスナー) ここで、顔検出 API は検出と追跡という 2 つのアクションを実行します。検出は顔の位置とキーポイントを取得するプロセスであり、追跡は顔の動きに合わせてキーポイントを再配置するプロセスです。 ビデオ モードでは、システムはデフォルトで 20 フレームごとに 1 回検出し、残りのフレームのみを追跡します。画像モードでは、各通話が検出されます。 インスタンスを作成したら、推論のためにモデルにデータを入力できます。 MNNKit は入力として複数のデータ形式をサポートするようになりました。ビデオ ストリーム検出シナリオでは、カメラのコールバック データをインターフェイスの入力として使用できます。データを入力するためのコードは次のとおりです。 パブリック同期FaceDetectionReport[] 推論( byte [] data、 int width、 int height、 MNNCVImageFormat format、 long detectConfig、 inAngle 、 int outAngle、 MNNFlipType outputFlip) ビットマップを入力データとして使用する推論コードは次のとおりです。 パブリック同期FaceDetectionReport[] 推論(Bitmap bitmap、 long detectConfig、 int inAngle、 int outAngle、MNNFlipType outputFlip) FaceDetector インスタンスが使い果たされた場合は、インスタンスを手動で解放する必要があります。そうしないと、ネイティブ メモリ リークが発生します。 パブリック同期void解放() iOSコード Android コードと同様に、まず顔検出インスタンスを作成する必要があります。
+ ( void ) createInstanceAsync: (MNNFaceDetectorCreateConfig*)configコールバック: ( void (^)(NSError *error, MNNFaceDetector *faceDetector))blockコールバックキュー: (dispatch_queue_t)callbackQueue; デフォルトのメインスレッドコールバック:
+ ( void ) createInstanceAsync: (MNNFaceDetectorCreateConfig*)configコールバック: ( void (^)(NSError *error, MNNFaceDetector *faceDetector))block; PixelBuffer 入力を使用した推論のコードは次のとおりです。
- (NSArray<MNNFaceDetectionReport *> *)推論: (CVPixelBufferRef)pixelBuffer構成: (MNNFaceDetectConfig)detectConfig角度: ( float )inAngle出力角度: ( float )outAngleフリップタイプ: (MNNFlipType)flipTypeエラー: (NSError *__autoreleasing *)error; UIImage 入力を使用した推論のコードは次のとおりです。
- (NSArray<MNNFaceDetectionReport *> *) inferenceImage: (UIImage*)image Config: (MNNFaceDetectConfig)detectConfig Angle: ( float )inAngle OutAngle: ( float )outAngle FlipType: (MNNFlipType)flipType error: (NSError *__autoreleasing *)error; 一般的なバッファ配列入力を使用するコードは次のとおりです。
- ( NSArray < MNNFaceDetectionReport *> *)inference:(unsigned char*) data幅:( float )w高さ:( float )h形式:( MNNCVImageFormat )format構成: (MNNFaceDetectConfig )detectConfig角度:( float )inAngle出力角度:( float )outAngle 反転タイプ:( MNNFlipType )flipType エラー:( NSError * __autoreleasing *)error; インスタンスのライフサイクルが終了すると、呼び出し元が手動で解放する必要なく、関連するメモリの解放が自動的にトリガーされます。 報道によると、MNNKitはMNNチームがアリババでの大規模なビジネス実践を経て開発した成熟したソリューションであり、Double Elevenなどのプロジェクトのテストに耐え、バックエンドに依存せずに高性能な推論を実行でき、安定していて使いやすいとのこと。 |
<<: Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました
>>: 主流のブロックチェーンコンセンサスアルゴリズムの包括的なガイド
ロボットは私たちの都市生活を変えています。この記事では、交通、物流、検知、食品、安全の 5 つの側面...
長い間、感情があるかどうかは、人間と機械を区別する重要な基準の一つでした。つまり、機械が感情を持って...
次のような状況に遭遇したことがあるかもしれません:携帯電話でアプリを開くと、最初に表示されるのは数分...
現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
まず、タイトルには、検索構造ではなく、ルーティング項目の配置構造と書かれています。つまり、この構造を...
近年の科学技術の発展に伴い、企業サービスと企業は多くの反復的な労働と投資に直面していると思います。現...
これは単純なプッシュです。今日はディープラーニングという名前についてのみお話します。ディープラーニン...
前回の記事では、オペレーティング システムが CPU を仮想化する方法についてすでに説明しました。今...
近年、人工知能の応用は世界中で大きな進歩を遂げています。職場でのビジネス活動の拡大に伴い、クラウド ...
ビッグデータダイジェスト制作著者: カレブエリザベス2世女王の即位70周年を祝い、英国は早くも祝賀ム...
研究論文によると、写真が実際に生きている人物を写したものか、それとも攻撃のデモンストレーションなのか...
6月13日にリリースされたChatGPTの関数呼び出し機能は、自然言語の世界と既存のプログラミング言...