オンラインでいくつかの例を見つけましたが、音声をテキストに変換できる成熟したモデルがいくつかあります。たとえば、Cloud Speech API ですが、Google Cloud Platform を使用する必要があります。 音声認識 非常に成熟した接着言語である Python の場合、インターネット上で既成のツールキットを見つけるのは実際には難しい問題ではありません。 GitHubでこんな魔法のようなパッケージを見つけました: 音声認識 もちろん、リアルタイム翻訳をサポートできますが、前提条件として、マシンにマイク依存パッケージがインストールされている必要があります。また、音声ファイルからのテキストの直接抽出もサポートできます。音声認識を通じて、Google API、CMU sphinx、Microsoft Bing Speech、IBM Speech to Text、Wit.ai など、さまざまなプラットフォーム上のモデルを呼び出すことができます。 オフライン変換 国内ネットワーク環境では、本パッケージを呼び出す際にGoogleに接続する必要があるため、Google APIを使用して音声データをテキストファイルに変換することはできません。もちろん、これを実行するために海外の VPS をレンタルすることもできます。 ここでは、インターネット接続なしで Python を使用して音声ファイルをテキストに変換する方法について説明します。ここで使用するパッケージは、米国カーネギーメロン大学が開発した大語彙・非特定人物・連続英語音声認識システムである sphinx です。 スフィンクスをインストールする 私が使用している環境はUbuntuです。
Sphinxをインストールする前に、いくつかのパッケージをインストールする必要があります
その後、関連するウェブサイトからsphinxbaseインストールパッケージをダウンロードするか、GitHubでパッケージを直接クローンすることができます。 ダウンロード後、解凍してください
ファイル名を変更する
ここで、autogen.sh を実行して、後続のコンパイルとインストール用の Makefile とその他のスクリプトを生成する必要があります。
以下のソースコードのインストールを開始してください
上記のコマンドを実行した後、エラー メッセージが表示されない場合は、インストールは成功していますが、この時点ではコマンドは有効にならないため、コマンドを実行するとエラーが表示されます。
また、システムが/usr/local/libディレクトリをロードできるようにする必要があります。システムが起動するたびに自動的にロードできるようにするには、システム構成ファイルld.so.confを変更します。
この時点で、sphinx_lm_convertコマンドを使用して、モデルDMPファイルをbinファイルに変換できます。
上記のコード行は、中国語モデルの DMP ファイルを bin ファイルに変換します。 sphinx をインストールした後、デフォルトでは英語のみがサポートされます。モデルが保存されているパスには en-US というファイルが 1 つだけあるため、中国語を処理するモデルを追加する必要があります。関連ファイルは、この Web サイトからダウンロードできます。
PythonでSphinxを使用する Python で Sphinx を使用する場合は、いくつかの依存パッケージをインストールする必要があります。
この時点で、ipython を起動して効果を試すことができます。
音声認識機能が有効になっていることがわかります。しかし、私が言ったのは「今日はとても暑いですね」でした。 スフィンクスのモデルはあまり正確ではなく、単なる短い文章になっているようです。次に、長い文章の効果を見てみましょう。村上春樹の『走ることについて語るときに僕の語ること』の一節を録音しました。 その年の7月、私はギリシャに行き、アテネからマラソンまで一人で走りました。マラソンの本来のルートであるマラソンからアテネまでを逆方向に走りました。なぜ反対方向に走るのでしょうか? 道路が混雑し、空気が汚染される前に、早朝にアテネの中心部から出発し、街を抜けてマラソン会場に直行すれば、道路の交通量が大幅に減り、より快適に走れるようになるからです。これは公式レースではありません。一人で走ることもできますし、もちろん交通規制も期待できません。
さて、結果を見ると、一言で言えば「ひどい」ということしか言えないと思います。それを2つの言葉で表すと、「残念だ!」 もちろん、このモデルはインターネットから直接ダウンロードしたものです。トレーニングに使用されるコーパスはそれほど完全ではないため、テスト中に不正確さが生じるのは避けられません。モデルの精度を高めるには、sphnix を使用してモデルのトレーニングを継続する必要があります。 関連する方法は公式ウェブサイトに掲載されており、対応するチュートリアルもあります。興味のある友人は自分で調べることができます。
記事に記載されているチュートリアルの URL は https://cmusphinx.github.io/wiki/tutorialtuning/ です。 Google API Google API を使用して音声認識を処理すると、かなり正確になりますが、Google への接続が必要です。以下は、VPS で実行したコードの一部です。ご覧のとおり、録音が正確にテキストに変換されています。 しかし、録画ファイルが大きいと、実行に時間がかかり、タイムアウト エラーが返されるため、非常に煩わしいです。 幸いなことに、speech_recognition は音声ファイルの傍受と処理をサポートしています。たとえば、音声ファイルの最初の 15 秒だけを処理できます。
上記の結果から判断すると、その効果は sphnix で処理されたものよりもはるかに優れています。 ヘルプドキュメントを読んでみると、speech_recognition は前の録音だけでなく途中の録音もキャプチャできることがわかりました。
たとえば、5 秒から 20 秒の間のコンテンツを処理したいとします。
今日はこれで終わりです。世界は本当に素晴らしいです。そして、発見すべき素晴らしいものがまだまだたくさんあります! |
<<: では、「ジェミニ・キラー」が興行的に失敗したとしても、どうだろう?アン・リーのAIによる顔修正技術は、肌を滑らかにしたり顔を変えたりする映画よりもはるかに優れている
CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...
アンビエント コンピューティングとは、テクノロジーが環境にシームレスに溶け込み、日常生活に浸透する世...
Microsoft と Siemens は最近、製造業向けの Siemens Industry C...
最近、Stability AIの創設者兼CEOであるEmad Mostaque氏が再び衝撃的な発言を...
最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...
5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...
人工知能技術は私たちの日常の仕事、勉強、生活に溶け込み、静かに社会生活を変えています。人工知能技術は...
企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...
人工知能の台頭は、ホームセキュリティを含む多くの業界に大きな影響を与えています。人工知能は、監視カメ...
DeepFake は顔を本物らしく入れ替えることができますが、髪の毛の場合は同じことはできません。現...