これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWeChatチャットの音声テキスト変換機能など、幅広い用途があります。

これまで、音声テキスト変換技術はプロプライエタリなソフトウェアとライブラリが主流で、オープンソースの代替手段は存在しなかったか、非常に限られていました。しかし、この状況は変わりました。今日では、多くのオープンソースの音声テキスト変換ツールとライブラリを使用できます。今日は、5 つの便利なオープンソースの音声認識ライブラリを紹介します。

1. DeepSpeechプロジェクト

[[285482]]

これは Mozilla によって開発された、TensorFlow 機械学習フレームワークを非機能化に使用した、100% 無料のオープンソースの音声テキスト変換ライブラリです。

これを使用して、音声テキスト変換を強化するための独自のトレーニング モデルを構築したり、ニーズに応じて他の言語を導入したり、TensorFlow 上の他の機械学習プロジェクトに簡単に統合したりすることもできます。唯一残念なのは、このプロジェクトが現在デフォルトで英語のみをサポートしていることです。

また、Python (3.6) などの複数の言語もサポートしています。実行は非常に簡単です:

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model model/output_graph.pbmm --alphabet model/alphabet.txt --lm model/lm.binary --trie model/trie --audio my_audio_file.wav

npm を使用してインストールすることもできます:

  1. npm インストール deepspeech

最近、DeepSpeech は Github Trending の週間リストにも掲載されました。

Githubアドレス: https://github.com/mozilla/DeepSpeech

2. カルディ

Kaldi は、Apache Public License に従って C++ で記述され、Windows、macOS、Linux をサポートするオープンソースの音声認識ソフトウェアであり、2009 年にリリースされました。

他の音声認識ソフトウェアと比較すると、Kaldi の主な特徴は拡張性とモジュール性です。コミュニティは多数のサードパーティ モジュールを提供しています。Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトで完全な使用方法のドキュメントを提供しています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトでラップされています。したがって、基本的な音声テキスト変換機能を実装したいだけであれば、Python または Bash を使用して簡単に行うことができます。

プロジェクトのホームページ: http://kaldi-asr.org/

3. ジュリアス

これはおそらく、これまでに作成された音声認識ソフトウェアの中で最も古いものの 1 つです。京都大学が 1991 年に開発し、2005 年に独立したプロジェクト チームに引き渡しました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、ベスト単​​語 N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも動作します。

現在、英語と日本語のみをサポートしています。ソフトウェアは Linux ディストリビューションのリポジトリに簡単にインストールできます。パッケージ マネージャーで julius パッケージを検索するだけです。

プロジェクトのホームページ: https://github.com/julius-speech/julius

4. Wav2Letter++

Wav2Letter++ は、Facebook の AI 研究チームによって今年リリースされたオープンソースの音声認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。 Facebook は、自社のウェアハウスを「現在利用できる最も高速かつ最先端の音声認識システム」と表現しており、このツールが構築されているコンセプトにより、デフォルトでパフォーマンスが最適化されています。Wav2Letter++ は、Facebook の最新の機械学習ライブラリでもある FlashLight をベースに構築されています。

Wav2Letter++ を使用するには、まずアルゴリズムをトレーニングするために、必要な言語のトレーニング モデルを構築する必要があります。どの言語 (英語を含む) にも事前トレーニング済みのモデルはありません。これは、機械学習駆動型のテキストから音声への変換ツールにすぎません。C++ で記述されているため、Wav2Letter++ という名前が付けられています。

プロジェクトのホームページ: https://github.com/facebookresearch/wav2letter

5. ディープスピーチ2

Baidu の研究者たちは、独自の音声テキスト変換エンジン DeepSpeech2 の開発にも取り組んでいます。これは、「PaddlePaddle」ディープラーニング フレームワークを使用して、英語と中国語の音声をテキストに変換するエンドツーエンドのオープン ソース エンジンです。このプロジェクトは BSD ライセンスの下でリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードと一緒に配布されません。他のソフトウェアと同様に、自分で構築する必要があります。 DeepSpeech2 のソース コードは Python で記述されているため、Python を使用している場合はすぐに使い始めることができます。

プロジェクトアドレス: https://github.com/PaddlePaddle/DeepSpeech

音声認識の分野では、Google や IBM などのプロプライエタリ ソフトウェア大手が依然として大きなシェアを占めています (両社は、この目的のために独自のクローズド ソースの商用サービスを提供しています) が、オープン ソースの代替手段も有望です。これら 5 つのオープン ソース音声認識エンジンを使用すると、独自のアプリケーションを構築できます。これらのエンジンを使用したことがありますか?

<<:  国内人材レポート:機械学習エンジニアの平均給与は3万元近くで、トップクラスのエンジニアは年間100万元を稼ぐこともできる

>>:  MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIは人間に取って代わるでしょうか?シリコンバレーの大物が人工知能の将来の発展の傾向を解説

[[378409]]人工知能は間違いなく将来のトレンドであり、AIは将来の経済の発展を推進するでしょ...

PaddlePaddle ディープラーニング実践 - 英語-フランス語翻訳マシン

自然言語処理[1]は、コンピュータサイエンスと人工知能の分野におけるもう一つの重要な方向性です。重要...

調達における AI の夜明け: 効率性と洞察力の新時代

McKinsey & Company の画期的なレポートでは、AI を含むデジタル調達ソリュ...

...

DidiがAoEをオープンソース化: AIの迅速な統合を可能にする端末操作環境SDK

Didi は、エンドサイド AI 統合ランタイム環境 (IRE) である AoE (AI on E...

中国のAI研究は米国を上回る?専門家:例えば、ディープラーニングに関する論文の発表数

現在、世界の人工知能分野には、業界で「神のような存在」とみなされるトップの専門家が3人いる。そのうち...

WatsonAIOps - AIの力を活用して、IT運用の効率とセキュリティの持続可能性を次のレベルに引き上げます

情報技術 (IT) 運用管理は、ミッションクリティカルなビジネス アプリケーションをサポートするため...

鳥の巣のような大きな会場で迷う心配はありません。AI+AR技術が冬季オリンピックを助けます

北京冬季オリンピックの開会式では、人工知能、5G、クラウドコンピューティングなど数多くの最新技術が活...

顧客エンゲージメントにおける 5 つの主要な AI トレンド

クラウド通信および顧客エンゲージメント プラットフォームである Twilio が発表した新しい調査レ...

Gizwits Cloud はスマートホームが機械にユーザーをよりよく理解するのを助けます

[51CTO.com からのオリジナル記事] 2016年、国内投資家のVRへの熱意はまだ薄れていなか...

人工知能が「怠け者」社員147人を解雇、「労働者」は追い詰められている

人工知能やロボットがSF小説に登場して以来、人類は人工知能と共存する未来社会に不安を抱いてきた。映画...

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

[[387945]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

デジタル変革、人工知能、そして生産性の問題

企業がデジタル変革を進める際に、生成 AI がいかにして企業の生産性を向上させることができるかについ...

6つのチャットボット構築プラットフォーム

チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...