AI仮想読書機、ジェスチャー認識+OCR+音声TTS

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。

最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。

本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。

写真

技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。

1. アイデア

  1. OpenCVはビデオストリームを読み取り、人差し指の座標を識別します
  2. 人差し指の座標を頂点として長方形のボックスを描きます
  3. 四角形をキャプチャし、OCRモデルに入力してテキストを認識します。
  4. 音声合成エンジンTTSを使用してテキストを音声に合成します
  5. 音声再生モジュールを呼び出してサウンドを再生します

2. 詳細

OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。

詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。

 if self.point_start_time is None: # 首次同时检测到左右食指self.point_start_time = time.time() else: time_del = time.time() - self.point_start_time if time_del > 3:

写真

詳細2. 重複認識を防ぐためのマークを設定する

長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。

一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。

 if not self.is_processing: # 开始识别self.is_processing = True # ocr识别选定的图片t, b = min(p0_y, p1_y), max(p0_y, p1_y) l, r = min(p0_x, p1_x), max(p0_x, p1_x) selected_frame = frame[t:b, l:r] # ocr识别文字text = self.ocr_rec(selected_frame) # 文本转语音voice = self.tts.get_speech(text) # 播放语音self.player.play(voice, False, notallow=lambda: self.stop_play()) self.pc_time = time.time()

詳細3. マルチスレッド

オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。

認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。

3. その他の技術

OCR および TTS テクノロジについては、以前の記事で紹介しました。

OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。

Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。

また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。

<<:  AI言語モデルのオープンソース化による10のプラスとマイナスの影響

>>:  バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

カオスに基づくデジタル画像暗号化アルゴリズム

概要: 現在、カオスシステムと暗号化技術の組み合わせは、最もホットなトピックの 1 つです。多数の暗...

...

テレンス・タオ氏の新論文の秘密兵器が明らかに:AIを使ってLaTeXをスムーズに書く

数学の巨匠、テレンス・タオ氏は、論文執筆ツールがついにアップグレードされたと投稿しました。以前は T...

日本のメディアは、監視と保護に加えて感染症の予防にも役立つ鳥類識別AIの中国での推進に注目している。

日本のメディアZDNETは6月29日、中国が全国規模で鳥類識別AIの普及を推進しているとの記事を掲載...

機械学習を使うのに開発者である必要はありません

デジタル化と AI の導入が加速する中、企業では人工知能 (AI) と機械学習 (ML) の開発者が...

機械学習は 5G ネットワークにどのように役立ちますか?

機械学習機械学習は、コンピューティング システムの能力の向上とデータの可用性の向上により、過去 10...

...

...

アートデザインにおける人工知能

AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...

...

研究は、人工知能が手術後のオピオイド使用を減らすのにどのように役立つかを示している

ペンシルベニア大学医学部が最近実施した研究では、人工知能がオピオイド乱用と戦うためにどのように使用で...

ディープラーニング最適化アルゴリズムがどのように機能するかを知りたいですか?クリックしてください!急いで

ディープラーニングは高度に反復的なプロセスです。最適な組み合わせを決定するには、ハイパーパラメータの...

企業に利益をもたらす 5 つの AI トレンド

市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく意思決定を行うために...