AI仮想読書機、ジェスチャー認識+OCR+音声TTS

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。

最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。

本日、皆さんにご紹介したいのは、コンピュータービジョンテクノロジーを使用して仮想読書機を作成する方法です。

写真

技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。

1. アイデア

OpenCVはビデオストリームを読み取り、人差し指の座標を識別します
人差し指の座標を頂点として長方形のボックスを描きます
四角形をキャプチャし、OCRモデルに入力してテキストを認識します。
音声合成エンジンTTSを使用してテキストを音声に合成します
音声再生モジュールを呼び出してサウンドを再生します

2. 詳細

OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。

詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。

 if self.point_start_time is None: # 首次同时检测到左右食指self.point_start_time = time.time() else: time_del = time.time() - self.point_start_time if time_del > 3:

写真

詳細2. 重複認識を防ぐためのマークを設定する

長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。

一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。

 if not self.is_processing: # 开始识别self.is_processing = True # ocr识别选定的图片t, b = min(p0_y, p1_y), max(p0_y, p1_y) l, r = min(p0_x, p1_x), max(p0_x, p1_x) selected_frame = frame[t:b, l:r] # ocr识别文字text = self.ocr_rec(selected_frame) # 文本转语音voice = self.tts.get_speech(text) # 播放语音self.player.play(voice, False, notallow=lambda: self.stop_play()) self.pc_time = time.time()

詳細3. マルチスレッド

オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メインプログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。

認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。

3. その他の技術

OCR および TTS テクノロジについては、以前の記事で紹介しました。

OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。

Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。

また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキストコンテンツを読み取らせることもできます。

<<: AI言語モデルのオープンソース化による10のプラスとマイナスの影響

>>: バンク・オブ・アメリカ証券：ChatGPT iOSクライアントのダウンロード数は6月に38%減少

ブログ

オープンソースのラマ2の背後には、若い中国人たちの力がある

オープンソースのラマ2の背後には、若い中国人たちの力がある

ブログ

大規模ニューラルネットワークに関する最新の文献のレビュー：効率的な DNN のトレーニングとメモリ使用量の節約

大規模ニューラルネットワークに関する最新の文献のレビュー：効率的な DNN のトレーニングとメモリ使用量の節約

ブログ

ブログ

ブログ

ブログ

ChatGPTプロンプトワードの新しいゲームプレイ「もっと作る」、テキストと画像の効果を2倍にする

ChatGPTプロンプトワードの新しいゲームプレイ「もっと作る」、テキストと画像の効果を2倍にする

ブログ

人工知能に関する4つの大きな誤解

人工知能に関する4つの大きな誤解

ブログ

ブログ

自動運転車の長所と短所

自動運転車の長所と短所

ブログ

推薦する

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

AI人材不足は30万人に達し、月給3万5千円の人材を見つけるのは困難。人材育成レポートが中国のAI人材育成の現状を明らかにする

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

大きなモデルは本当にすべてを解決できるのでしょうか?知識駆動型自動運転に関する考察

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

Appleの10年にわたる自動車製造の夢は打ち砕かれた！ 2,000人が解雇またはAIに異動し、100億ドル近くが燃え尽き、マスク氏は大喜び

10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了！言い換えれば、過去10年間にApp...

...

...

AIを活用したリアルタイムの脅威インテリジェンスでサイバー脅威に対抗する方法

多くの企業のセキュリティ運用センターチームにとって、サイバー攻撃に対する防御は、ますます高度化する...

ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

米国時間9月28日水曜日、人工知能研究企業OpenAIは、同社のチャットボットChatGPTがMic...

...

IBM: ワトソン人工知能システムをすべてのクラウドプラットフォームに公開

米国のテクノロジーメディアの報道によると、IBMは本日、ワトソンブランドの人工知能サービスを自社のク...

北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載...

...

...

BAIRの最新のRLアルゴリズムはGoogle Dreamerを上回り、パフォーマンスが2.8倍向上しました。

ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...