JavaScript チュートリアル: Web アプリケーションに顔検出機能を追加する

JavaScript チュートリアル: Web アプリケーションに顔検出機能を追加する

[51CTO.com クイック翻訳] 先週、annyang を使用してマップ インターフェースに音声コマンドを追加しました (https://www.infoworld.com/article/3400658/javascript-tutorial-add-speech-recognition-to-your-web-app.html)。今週は、pico.js を使用してシンプルなヘッド トラッキング機能を追加することで、マルチモーダル インターフェイスをさらに強化します。 pico.js は、実稼働グレードのライブラリというよりは概念実証に近い、シンプルな JavaScript ライブラリですが、私が調査した顔検出ライブラリの中で最もよく機能するようです。

[[269281]]

この記事の目的は、ユーザーの頭の位置を地図上に重ねて表示するシンプルな赤い点から始めることです。

図1

まず、ユーザーの顔の位置の更新を取得するために使用できる pico.js 機能をラップするシンプルな React クラスを作成しましょう。

  1. <ReactPico onFaceFound={(face) => {this.setState({face})}} />

顔が検出された場合は、顔の位置の詳細を含むコンポーネントをレンダリングできます。

  1. {face && <FaceIndicator x={face.totalX} y={face.totalY} />}}

pico.js で最初に直面した課題は、それが JavaScript で実装された研究プロジェクトであり、必ずしも最新の JavaScript 標準に準拠した製品レベルのライブラリではなかったことです。とりわけ、これは yarn add picojs を実行できないことを意味します。 pico.js の紹介ではオブジェクト検出について詳しく説明されていますが、API ドキュメントというよりは研究論文のような内容になっています。ただし、実際にコードを使用するには、添付の例で十分です。数時間かけて、添付のサンプルを、コードを最大限に活用できる比較的シンプルな React クラスに組み込みました。

pico.js が最初に行うことは、カスケード モデルを読み込むことです。これには、顔に対して事前トレーニングされたモデルのバイナリ表現を取得するために AJAX 呼び出しが必要です。 (同じライブラリを使用して他の種類のオブジェクトを追跡することもできますが、カスタム モデルをトレーニングするには公式の pico 実装を使用する必要があります。) このモデル読み込みコードを componentDidMount ライフサイクル メソッドに配置できます。わかりやすくするために、サンプル コードをさらに抽象化して、loadFaceFinder という別のメソッドにしました。

  1. コンポーネントマウント() {
  2. FaceFinder をロードします。
  3. }
  4. フェイスファインダーをロードする(){
  5. const cascadeurl = 'https://raw.githubusercontent.com/nenadmarkus/pico/c2e81f9d23cc11d1a612fd21e4f9de0921a5d0d9/rnt/cascades/facefinder' ;
  6. fetch (cascadeurl).then ( (response) => {
  7. response.arrayBuffer(). then ((buffer) => {
  8. var bytes = new Int8Array(バッファ);
  9. this.setState({
  10. フェイスファインダー: pico.unpack_cascade(バイト)
  11. });
  12. 新しい camvas(this.canvasRef. current .getContext( '2d' ), this.processVideo);
  13. });
  14. });
  15. }

顔検出モデルのバイナリ表現を取得して解析し、状態を設定することに加えて、<canvas> コンテキストとコールバック ハンドラーを参照する新しい camvas も作成します。 camvas ライブラリは、ユーザーのウェブカメラからのビデオをキャンバスに読み込み、レンダリングされるフレームごとにハンドラーを呼び出します。 loadFaceFinder の内容は、pico.js が提供する参照プロジェクトのほぼ正確なコピーです。状態からアクセスできるように、モデルの保存場所を変更しました。ブラウザが提供する DOM API を使用する代わりに、 react Ref を通じてキャンバス コンテキストを参照します。

this.processVideo も、リファレンス プロジェクトで提供されているコードとほぼ同じです。いくつかの変更を加えるだけで済みます。モデルがロードされたときにのみコードを実行するため、コード本体全体にチェックを追加します。また、ユーザーが渡すと予想されるコールバック ハンドラーを使用してこの React クラスを作成し、そのハンドラーを定義した後でのみ処理コードを実行するようにしました。

  1. プロセスビデオ = (ビデオ、dt) => {
  2. if(this.state.faceFinder && this.props.onFaceFound) {
  3. /*すべてのコード */
  4. }
  5. }

私が行った他の唯一の変更は、顔が見つかったときに実行するアクションです。 pico.js の例ではキャンバス上にいくつかの円を描画しますが、代わりにそのコールバック ハンドラーにデータを渡す必要があります。コールバック ハンドラーがこれらの値を処理しやすくなるように、コードを少し変更してみましょう。

  1. this.props.onFaceFound({
  2. x: 640 - 結果[i][1],
  3. y: 日付[i][0],
  4. 半径: dets[i][2],
  5. x比率: (640 - dets[i][1]) / 640,
  6. y比率: dets[i][0] / 480,
  7. 合計X: (640 - dets[i][1]) / 640 * window.innerWidth、
  8. 合計Y: dets[i][0] / 480 * window.innerHeight、
  9. });

この形式を使用すると、キャプチャされたキャンバス要素内の顔の絶対位置と半径、キャンバス要素内の顔の相対位置、キャンバス要素内の顔の位置を返すことができます。弊社のカスタマイズコースは基本的に完了です。また、最新の構文を使用するために、pico.js と pico バージョンの camvas.js にいくつかの小さな変更を加える必要がありましたが、これらはロジックよりもキーワードに重点を置いたものでした。

これで、カスタム ReactPico クラスをアプリにインポートしてレンダリングし、顔が検出された場合に FaceIndicator クラスを条件付きでレンダリングできるようになりました。私は他の顔検出ライブラリをいくつか使用しましたが、pico.js はフル機能のライブラリではないにもかかわらず、その正確性と使いやすさに驚きました。

元のタイトル: JavaScript チュートリアル: Web アプリに顔検出機能を追加する、著者: Jonathan Freeman

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  何?ニューラルネットワークは新しい知識も生み出せるのでしょうか?

>>:  Zhuiyi Technology AI Lab: ビジネスとテクノロジーの両方を推進し、新しいレベルのインテリジェントなインタラクティブアプリケーションを創造

ブログ    
ブログ    
ブログ    

推薦する

1つの命令を使用してGPT-3.5またはLlama 2を微調整する方法

ChatGPT や Llama 2 などの大規模言語モデル (LLM) は、さまざまなタスクでの汎用...

RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習論文リンク: htt...

産業オートメーションにおけるコンピュータビジョンの応用と利点

コンピューター ビジョンは、製造および生産プロセスを自動化および最適化して、効率を高め、製品の品質を...

...

Reddit のホットトピック: あなたも NLP の現状に失望していますか?

ご存知のとおり、自然言語処理 (NLP) とコンピューター ビジョン (CV) は、人工知能の 2 ...

次世代人工知能の開発方向(第1部)

[[349500]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

世界人工知能会議が終了しました。今後、AIは私たちの生活にどのように浸透していくのでしょうか?

過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...

誰もが知っておくべきAIのパイオニア14人

[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...

...

HAProxy ロードバランサの構成とアルゴリズム

[51CTO.com 限定特集] HAProxyの公式ドキュメントには多くの設定内容が記載されていま...

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...

Kingsoft Cloudは、スマートシティ構築のパートナーとなり、人間中心のスマートシティエコシステムを構築することを目指しています。

スマートシティはデジタル中国とスマート社会の中核を担うものとして国家戦略のレベルにまで高まり、現在中...

...

私たちが作ったAIは私たちを裏切るでしょうか?

数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...

...