こんにちは、みんな。 最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。 本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。 写真 技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。 1. アイデア
2. 詳細OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。 詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。 写真 詳細2. 重複認識を防ぐためのマークを設定する 長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。 一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。 詳細3. マルチスレッド オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。 認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。 3. その他の技術OCR および TTS テクノロジについては、以前の記事で紹介しました。 OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。 Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。 また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。 |
<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響
>>: バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少
[[258735]] 3月3日、毎年恒例の全国「両会」が正式に始まりました。「両会」シーズンが始ま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
コロナウイルスの発生前から、消費者の期待はすでに変化しており、小売業界に課題をもたらしていました。そ...
DeepMind は研究に重点を置く世界最大の AI 企業かもしれないが、過去 3 年間の損失は ...
ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...
「当社はサイバーセキュリティの専門家とサービスプロバイダーの協力を得て、問題解決に向けて直ちに行動を...
ArcSoft ビジュアルオープンプラットフォームであるArcFace 3.0の発売以来、アルゴリ...
多くのプログラマーの目には、データ構造やアルゴリズムなどは役に立たず、実際に使用されることもあまりな...
11月25日、 XiaoIceフレームワークは11人のAI歌手をリリースし、アシスタント、同僚、親戚...
AIエージェントは今話題になっています。OpenAIの応用研究ディレクターであるLilian Wen...