[51CTO.com クイック翻訳] 先週、annyang を使用してマップ インターフェースに音声コマンドを追加しました (https://www.infoworld.com/article/3400658/javascript-tutorial-add-speech-recognition-to-your-web-app.html)。今週は、pico.js を使用してシンプルなヘッド トラッキング機能を追加することで、マルチモーダル インターフェイスをさらに強化します。 pico.js は、実稼働グレードのライブラリというよりは概念実証に近い、シンプルな JavaScript ライブラリですが、私が調査した顔検出ライブラリの中で最もよく機能するようです。
この記事の目的は、ユーザーの頭の位置を地図上に重ねて表示するシンプルな赤い点から始めることです。 図1 まず、ユーザーの顔の位置の更新を取得するために使用できる pico.js 機能をラップするシンプルな React クラスを作成しましょう。
顔が検出された場合は、顔の位置の詳細を含むコンポーネントをレンダリングできます。
pico.js で最初に直面した課題は、それが JavaScript で実装された研究プロジェクトであり、必ずしも最新の JavaScript 標準に準拠した製品レベルのライブラリではなかったことです。とりわけ、これは yarn add picojs を実行できないことを意味します。 pico.js の紹介ではオブジェクト検出について詳しく説明されていますが、API ドキュメントというよりは研究論文のような内容になっています。ただし、実際にコードを使用するには、添付の例で十分です。数時間かけて、添付のサンプルを、コードを最大限に活用できる比較的シンプルな React クラスに組み込みました。 pico.js が最初に行うことは、カスケード モデルを読み込むことです。これには、顔に対して事前トレーニングされたモデルのバイナリ表現を取得するために AJAX 呼び出しが必要です。 (同じライブラリを使用して他の種類のオブジェクトを追跡することもできますが、カスタム モデルをトレーニングするには公式の pico 実装を使用する必要があります。) このモデル読み込みコードを componentDidMount ライフサイクル メソッドに配置できます。わかりやすくするために、サンプル コードをさらに抽象化して、loadFaceFinder という別のメソッドにしました。
顔検出モデルのバイナリ表現を取得して解析し、状態を設定することに加えて、<canvas> コンテキストとコールバック ハンドラーを参照する新しい camvas も作成します。 camvas ライブラリは、ユーザーのウェブカメラからのビデオをキャンバスに読み込み、レンダリングされるフレームごとにハンドラーを呼び出します。 loadFaceFinder の内容は、pico.js が提供する参照プロジェクトのほぼ正確なコピーです。状態からアクセスできるように、モデルの保存場所を変更しました。ブラウザが提供する DOM API を使用する代わりに、 react Ref を通じてキャンバス コンテキストを参照します。 this.processVideo も、リファレンス プロジェクトで提供されているコードとほぼ同じです。いくつかの変更を加えるだけで済みます。モデルがロードされたときにのみコードを実行するため、コード本体全体にチェックを追加します。また、ユーザーが渡すと予想されるコールバック ハンドラーを使用してこの React クラスを作成し、そのハンドラーを定義した後でのみ処理コードを実行するようにしました。
私が行った他の唯一の変更は、顔が見つかったときに実行するアクションです。 pico.js の例ではキャンバス上にいくつかの円を描画しますが、代わりにそのコールバック ハンドラーにデータを渡す必要があります。コールバック ハンドラーがこれらの値を処理しやすくなるように、コードを少し変更してみましょう。
この形式を使用すると、キャプチャされたキャンバス要素内の顔の絶対位置と半径、キャンバス要素内の顔の相対位置、キャンバス要素内の顔の位置を返すことができます。弊社のカスタマイズコースは基本的に完了です。また、最新の構文を使用するために、pico.js と pico バージョンの camvas.js にいくつかの小さな変更を加える必要がありましたが、これらはロジックよりもキーワードに重点を置いたものでした。 これで、カスタム ReactPico クラスをアプリにインポートしてレンダリングし、顔が検出された場合に FaceIndicator クラスを条件付きでレンダリングできるようになりました。私は他の顔検出ライブラリをいくつか使用しましたが、pico.js はフル機能のライブラリではないにもかかわらず、その正確性と使いやすさに驚きました。 元のタイトル: JavaScript チュートリアル: Web アプリに顔検出機能を追加する、著者: Jonathan Freeman [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 何?ニューラルネットワークは新しい知識も生み出せるのでしょうか?
>>: Zhuiyi Technology AI Lab: ビジネスとテクノロジーの両方を推進し、新しいレベルのインテリジェントなインタラクティブアプリケーションを創造
ChatGPT や Llama 2 などの大規模言語モデル (LLM) は、さまざまなタスクでの汎用...
原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習論文リンク: htt...
コンピューター ビジョンは、製造および生産プロセスを自動化および最適化して、効率を高め、製品の品質を...
ご存知のとおり、自然言語処理 (NLP) とコンピューター ビジョン (CV) は、人工知能の 2 ...
[[349500]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...
過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...
[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...
[51CTO.com 限定特集] HAProxyの公式ドキュメントには多くの設定内容が記載されていま...
[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...
スマートシティはデジタル中国とスマート社会の中核を担うものとして国家戦略のレベルにまで高まり、現在中...
数千年前、そろばんは暗算よりも速い計算ができる魔法の道具でした。 [[418541]]そろばんを使っ...