AI仮想読書機、ジェスチャー認識+OCR+音声TTS

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。

最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新していませんでした。

本日、皆さんにご紹介したいのは、コンピューター ビジョン テクノロジーを使用して仮想読書機を作成する方法です。

写真

技術的には非常にシンプルですが、エンジニアリングの実装では注意が必要な詳細がいくつかあります。

1. アイデア

  1. OpenCVはビデオストリームを読み取り、人差し指の座標を識別します
  2. 人差し指の座標を頂点として長方形のボックスを描きます
  3. 四角形をキャプチャし、OCRモデルに入力してテキストを認識します。
  4. 音声合成エンジンTTSを使用してテキストを音声に合成します
  5. 音声再生モジュールを呼び出してサウンドを再生します

2. 詳細

OpenCV でビデオストリームを読み取り、mediapipe で人差し指の座標を特定します。以前の共有記事にコードがあるので、ここでは掲載しません。処理が必要な詳細に焦点を当てます。

詳細1. 2本の人差し指が検出されると、時間間隔を設定する必要があります。これにより、長方形を調整するための時間を確保できます。

 if self.point_start_time is None: # 首次同时检测到左右食指self.point_start_time = time.time() else: time_del = time.time() - self.point_start_time if time_del > 3:

写真

詳細2. 重複認識を防ぐためのマークを設定する

長方形が決定されたら、マークがない場合、各フレームが認識のために OCR モデルに送信され、その後サウンドが再生され、プログラムがフリーズします。

一度に 1 つの四角形だけが処理されるようにするには、フラグを設定する必要があります。

 if not self.is_processing: # 开始识别self.is_processing = True # ocr识别选定的图片t, b = min(p0_y, p1_y), max(p0_y, p1_y) l, r = min(p0_x, p1_x), max(p0_x, p1_x) selected_frame = frame[t:b, l:r] # ocr识别文字text = self.ocr_rec(selected_frame) # 文本转语音voice = self.tts.get_speech(text) # 播放语音self.player.play(voice, False, notallow=lambda: self.stop_play()) self.pc_time = time.time()

詳細3. マルチスレッド

オーディオを再生するときは、マルチスレッド再生を使用する必要があります。そうしないと、メイン プログラムが停止し、オーディオの再生が完了するまで実行が継続されなくなります。

認識するコンテンツが多く、再生時間が長い場合、プログラムは長時間停止し、応答しなくなります。

3. その他の技術

OCR および TTS テクノロジについては、以前の記事で紹介しました。

OCR の場合、Paddle フレームワークと事前トレーニング済みモデルを直接使用できます。

Mac を使用している場合は、他のプログラムをインストールせずに、システムに組み込まれている TTS を使用できます。 Windowsであれば、Microsoftのedge-ttsが使えます。エッジ TTS 効果は、ほとんどの TTS よりもはるかに強力です。

また、d-id、wav2lip、sadtalker を使用してリップ合成を実現し、静止画像にテキスト コンテンツを読み取らせることもできます。

<<:  AI言語モデルのオープンソース化による10のプラスとマイナスの影響

>>:  バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

北京大学の動画モデルが新たなSOTA、AIは数秒で面白いTik Tok動画の面白いポイントを理解できる

AIは面白い動画の何が面白いのかを理解できるようになりました。 AI の回答: このビデオが面白いの...

人工知能の舞台裏:マイクロソフトとOpenAIのスーパーコンピューターはアイオワ州で大量の水を消費している

9月10日、マイクロソフトとOpenAIが共同開発した人工知能システム「ChatGPT」のトレーニ...

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...

大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

業界最先端の大型モデルが一斉に「脱獄」! GPT-4 だけでなく、通常はそれほど間違いを起こさない ...

2022年、ビッグモデルはどこまで行けるでしょうか?

[[442868]]著者: ユン・チャオこの記事は、2021年の業界レビュー、2021年のビッグモ...

国勢調査ではAISのAIロボットが初めて「世帯内に入る」

「こんにちは、泰達街人口調査事務所です。」現在、第7回全国人口調査が盛んに行われている。天津浜海新...

来年1月1日からAIフェイク動画は自由に公開できなくなる

新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...

Facebookは人工知能を使ってコンテンツレビューの優先順位を決める

海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...

ソートアルゴリズムのより詳細な概要

ソートアルゴリズム平均時間計算量バブルソート (n2) 選択ソート (n2) 挿入ソート (n2) ...

...

ディープラーニングがインターネットにパーソナライゼーションをもたらす仕組み

[[195601]]ディープラーニングは機械学習のサブセットであり、さまざまな方法を使用して人工知能...

市場規模は100億を超え、マシンビジョンはブルーオーシャンの傾向を示す

マシンビジョンとは、人間の目の代わりに機械を使って物事を測定・判断し、その判断結果に基づいて現場の設...

Keras によるステートフル LSTM リカレント ニューラル ネットワークの理解

[[327815]]この記事を読むと、次のことがわかります。 1. シーケンス予測問題のための単純な...

ロボティック プロセス オートメーションについて知っておくべき 10 のこと

[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...