こんにちは、みんな。 最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。 本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。 写真 技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。 1. アイデア
2. 詳細OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。 詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。 写真 詳細2. 重複認識を防ぐためのマークを設定する 長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。 一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。 詳細3. マルチスレッド オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。 認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。 3. その他の技術OCR および TTS テクノロジについては、以前の記事で紹介しました。 OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。 Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。 また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。 |
<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響
>>: バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少
AIは面白い動画の何が面白いのかを理解できるようになりました。 AI の回答: このビデオが面白いの...
9月10日、マイクロソフトとOpenAIが共同開発した人工知能システム「ChatGPT」のトレーニ...
ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...
業界最先端の大型モデルが一斉に「脱獄」! GPT-4 だけでなく、通常はそれほど間違いを起こさない ...
[[442868]]著者: ユン・チャオこの記事は、2021年の業界レビュー、2021年のビッグモ...
「こんにちは、泰達街人口調査事務所です。」現在、第7回全国人口調査が盛んに行われている。天津浜海新...
Transformer に関しては、Google DeepMind による新たな発見がかなりの論争を...
新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...
海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...
ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...
[[195601]]ディープラーニングは機械学習のサブセットであり、さまざまな方法を使用して人工知能...
マシンビジョンとは、人間の目の代わりに機械を使って物事を測定・判断し、その判断結果に基づいて現場の設...
[[327815]]この記事を読むと、次のことがわかります。 1. シーケンス予測問題のための単純な...
[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...