こんにちは、みんな。 最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。 本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。 写真 技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。 1. アイデア
2. 詳細OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。 詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。 写真 詳細2. 重複認識を防ぐためのマークを設定する 長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。 一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。 詳細3. マルチスレッド オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。 認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。 3. その他の技術OCR および TTS テクノロジについては、以前の記事で紹介しました。 OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。 Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。 また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。 |
<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響
>>: バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少
[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...
概要: 現在、カオスシステムと暗号化技術の組み合わせは、最もホットなトピックの 1 つです。多数の暗...
数学の巨匠、テレンス・タオ氏は、論文執筆ツールがついにアップグレードされたと投稿しました。以前は T...
日本のメディアZDNETは6月29日、中国が全国規模で鳥類識別AIの普及を推進しているとの記事を掲載...
デジタル化と AI の導入が加速する中、企業では人工知能 (AI) と機械学習 (ML) の開発者が...
機械学習機械学習は、コンピューティング システムの能力の向上とデータの可用性の向上により、過去 10...
AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...
ペンシルベニア大学医学部が最近実施した研究では、人工知能がオピオイド乱用と戦うためにどのように使用で...
ディープラーニングは高度に反復的なプロセスです。最適な組み合わせを決定するには、ハイパーパラメータの...
市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく意思決定を行うために...