こんにちは、みんな。 最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。 本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。 写真 技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。 1. アイデア
2. 詳細OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。 詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。 写真 詳細2. 重複認識を防ぐためのマークを設定する 長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。 一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。 詳細3. マルチスレッド オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。 認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。 3. その他の技術OCR および TTS テクノロジについては、以前の記事で紹介しました。 OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。 Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。 また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。 |
<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響
>>: バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少
人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...
10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了!言い換えれば、過去10年間にApp...
多くの企業のセキュリティ運用センター チームにとって、サイバー攻撃に対する防御は、ますます高度化する...
米国時間9月28日水曜日、人工知能研究企業OpenAIは、同社のチャットボットChatGPTがMic...
米国のテクノロジーメディアの報道によると、IBMは本日、ワトソンブランドの人工知能サービスを自社のク...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...