これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWeChatチャットの音声テキスト変換機能など、幅広い用途があります。

これまで、音声テキスト変換技術はプロプライエタリなソフトウェアとライブラリが主流で、オープンソースの代替手段は存在しなかったか、非常に限られていました。しかし、この状況は変わりました。今日では、多くのオープンソースの音声テキスト変換ツールとライブラリを使用できます。今日は、5 つの便利なオープンソースの音声認識ライブラリを紹介します。

1. DeepSpeechプロジェクト

[[285482]]

これは Mozilla によって開発された、TensorFlow 機械学習フレームワークを非機能化に使用した、100% 無料のオープンソースの音声テキスト変換ライブラリです。

これを使用して、音声テキスト変換を強化するための独自のトレーニング モデルを構築したり、ニーズに応じて他の言語を導入したり、TensorFlow 上の他の機械学習プロジェクトに簡単に統合したりすることもできます。唯一残念なのは、このプロジェクトが現在デフォルトで英語のみをサポートしていることです。

また、Python (3.6) などの複数の言語もサポートしています。実行は非常に簡単です:

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model model/output_graph.pbmm --alphabet model/alphabet.txt --lm model/lm.binary --trie model/trie --audio my_audio_file.wav

npm を使用してインストールすることもできます:

  1. npm インストール deepspeech

最近、DeepSpeech は Github Trending の週間リストにも掲載されました。

Githubアドレス: https://github.com/mozilla/DeepSpeech

2. カルディ

Kaldi は、Apache Public License に従って C++ で記述され、Windows、macOS、Linux をサポートするオープンソースの音声認識ソフトウェアであり、2009 年にリリースされました。

他の音声認識ソフトウェアと比較すると、Kaldi の主な特徴は拡張性とモジュール性です。コミュニティは多数のサードパーティ モジュールを提供しています。Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトで完全な使用方法のドキュメントを提供しています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトでラップされています。したがって、基本的な音声テキスト変換機能を実装したいだけであれば、Python または Bash を使用して簡単に行うことができます。

プロジェクトのホームページ: http://kaldi-asr.org/

3. ジュリアス

これはおそらく、これまでに作成された音声認識ソフトウェアの中で最も古いものの 1 つです。京都大学が 1991 年に開発し、2005 年に独立したプロジェクト チームに引き渡しました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、ベスト単​​語 N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも動作します。

現在、英語と日本語のみをサポートしています。ソフトウェアは Linux ディストリビューションのリポジトリに簡単にインストールできます。パッケージ マネージャーで julius パッケージを検索するだけです。

プロジェクトのホームページ: https://github.com/julius-speech/julius

4. Wav2Letter++

Wav2Letter++ は、Facebook の AI 研究チームによって今年リリースされたオープンソースの音声認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。 Facebook は、自社のウェアハウスを「現在利用できる最も高速かつ最先端の音声認識システム」と表現しており、このツールが構築されているコンセプトにより、デフォルトでパフォーマンスが最適化されています。Wav2Letter++ は、Facebook の最新の機械学習ライブラリでもある FlashLight をベースに構築されています。

Wav2Letter++ を使用するには、まずアルゴリズムをトレーニングするために、必要な言語のトレーニング モデルを構築する必要があります。どの言語 (英語を含む) にも事前トレーニング済みのモデルはありません。これは、機械学習駆動型のテキストから音声への変換ツールにすぎません。C++ で記述されているため、Wav2Letter++ という名前が付けられています。

プロジェクトのホームページ: https://github.com/facebookresearch/wav2letter

5. ディープスピーチ2

Baidu の研究者たちは、独自の音声テキスト変換エンジン DeepSpeech2 の開発にも取り組んでいます。これは、「PaddlePaddle」ディープラーニング フレームワークを使用して、英語と中国語の音声をテキストに変換するエンドツーエンドのオープン ソース エンジンです。このプロジェクトは BSD ライセンスの下でリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードと一緒に配布されません。他のソフトウェアと同様に、自分で構築する必要があります。 DeepSpeech2 のソース コードは Python で記述されているため、Python を使用している場合はすぐに使い始めることができます。

プロジェクトアドレス: https://github.com/PaddlePaddle/DeepSpeech

音声認識の分野では、Google や IBM などのプロプライエタリ ソフトウェア大手が依然として大きなシェアを占めています (両社は、この目的のために独自のクローズド ソースの商用サービスを提供しています) が、オープン ソースの代替手段も有望です。これら 5 つのオープン ソース音声認識エンジンを使用すると、独自のアプリケーションを構築できます。これらのエンジンを使用したことがありますか?

<<:  国内人材レポート:機械学習エンジニアの平均給与は3万元近くで、トップクラスのエンジニアは年間100万元を稼ぐこともできる

>>:  MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI はポイントアンドクリックプログラミングに終止符を打つことができるでしょうか?

マウスクリックプログラミングは、プログラミングの世界では常に新しいトレンドとなっています。簡単に言え...

...

...

...

人工知能:現在も将来も有望

最近、2020年世界人工知能会議が中国上海で開催されました。各国の専門家らがオンラインで議論し、人工...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

メタは商業用人工知能に注力するためタンパク質折り畳みチームを解散すると報道

フィナンシャル・タイムズによると、8月8日、ソーシャルメディア大手のMeta(旧Facebook)は...

「バーチャル老黄」はあなたを騙しましたが、夏玉氷の手に触れることができますか?

昨年のNVIDIAのGTCで「Virtual Huang」はどのようにして作られたのでしょうか? ブ...

人工知能はIoTの触媒

世界中の企業がモノのインターネット (IoT) を急速に活用して新しい製品やサービスを生み出し、新た...

OpenAI は ChatGPT 機能のアップデートを多数リリースする予定ですが、そのうちいくつご存知ですか?

OpenAI 開発者関係の専門家 Logan Kilpatrick 氏は、ソーシャル メディアに「...

...

AIの威力を改めて見せつける! Baidu Map 20分間のカスタマイズされたパーソナル音声パッケージ

百度地図は9月19日、「あなたのための『音声』、そして『AI』」記者会見で「音声カスタマイズ機能」を...

大きな論争の中、ニューヨーク警察はロボット犬をボストン・ダイナミクスに返却した

ニューヨーク市警察は、その「ユートピア的」技術に対する激しい批判を受け、米国企業ボストン・ダイナミク...

サイバーセキュリティにおけるAIの新たな機会を見つける方法

[[383159]]新しいテクノロジーの適用には、多くの場合、プラスの影響とマイナスの影響の両方が伴...

注意メカニズムにバグがあり、ソフトマックスが犯人であり、すべてのトランスフォーマーに影響を与えている

「私は、8年間誰も発見できなかった注目度の式のバグを発見しました。GPTやLLaMAを含むすべてのT...