優れたオープンソースの音声認識/音声テキスト変換システム 5 つ

優れたオープンソースの音声認識/音声テキスト変換システム 5 つ

音声テキスト変換 (STT) システムは、その名前が示すとおり、話された言葉を後で使用するためにテキスト ファイルに変換する方法です。

音声テキスト変換技術は非常に便利です。自動転写、自分の音声を使用した本やテキストの作成、生成されたテキスト ファイルやその他のツールを使用した複雑な分析など、さまざまなアプリケーションで使用できます。

これまで、音声テキスト変換技術は、オープンソースの代替手段がなかったり、厳しい制限がありコミュニティもなかったりする独自のソフトウェアとライブラリによって支配されてきました。状況は変わりつつあり、利用できるオープンソースの音声テキスト変換ツールやライブラリが数多くあります。

ここでは5つ挙げます。

オープンソース音声認識ライブラリ

DeepSpeech プロジェクト

[[268738]]

5 優れたオープンソース音声認識/音声テキスト変換システム 16 オープンソース音声認識

このプロジェクトは、Firefox ブラウザの開発組織である Mozilla チームによって開発されています。これは 100% 無料のオープンソース ソフトウェアであり、その名前が示すように、TensorFlow 機械学習フレームワークを使用して機能を実装します。

つまり、より良い結果を得るために独自のモデルをトレーニングしたり、他の言語を変換したりするために使用することもできます。独自の Tensorflow 機械学習プロジェクトに簡単に統合することもできます。残念ながら、このプロジェクトは現在、デフォルトで英語のみをサポートしています。

Python(3.6)など多くのプログラミング言語もサポートしています。数秒で作業を完了できます。

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav

npm 経由でインストールすることもできます:

  1. npm インストール deepspeech
  • プロジェクトホームページ

カルディ

5 つの優れたオープンソース音声認識/音声テキスト変換システム 18 のオープンソース音声認識

Kaldi は、C++ で記述され、Apache Public License に基づいてリリースされたオープンソースの音声認識ソフトウェアです。 Windows、macOS、Linux で動作します。開発は2009年に始まりました。

他の音声認識ソフトウェアと比較した Kaldi の主な特徴は、拡張性とモジュール性です。コミュニティでは、タスクを完了するために使用できるサードパーティ モジュールが多数提供されています。 Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトに優れたドキュメントが用意されています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトを介してラップされています。したがって、基本的な音声テキスト変換機能だけが必要な場合は、Python または Bash を使用すると簡単に実現できます。

  • プロジェクトホームページ

ジュリアス

5 つの優れたオープンソース音声認識/音声テキスト変換システム 20 のオープンソース音声認識

これはおそらく、これまでに作成された最も古い音声認識ソフトウェアの 1 つです。開発は1991年に京都大学で始まり、2005年に所有権が独立したプロジェクトグループに移管されました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも実行できます。

現在は英語と日本語のみサポートされています。ソフトウェアは、Linux ディストリビューションのリポジトリから簡単にインストールできる必要があります。パッケージマネージャーで julius を検索するだけです。 ***このバージョンはこの記事が公開される約1か月半前に公開されました。

  • プロジェクトホームページ

Wav2Letter++

5つの優れたオープンソース音声認識/音声テキスト変換システム 22のオープンソース音声認識

もう少しトレンディなものを探しているなら、これは間違いなくぴったりです。 Wav2Letter++ は、Facebook の AI 研究チームによって 2 か月前にリリースされたオープンソースの言語認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。

Facebook は自社のライブラリを「最速かつ最先端の音声認識システム」と表現しています。デフォルトでパフォーマンスが最適化された状態で構築されています。 Facebook の最新の機械学習ライブラリ FlashLight も、Wav2Letter++ の基盤コアとして使用されています。

Wav2Letter++ では、アルゴリズムをトレーニングするために、まず記述された言語のモデルを構築する必要があります。英語を含むどの言語にも事前トレーニング済みのモデルはなく、C++ で記述された機械学習駆動型のテキスト読み上げツールであるため、Wav2Letter++ という名前が付けられています。

  • プロジェクトホームページ

ディープスピーチ2

5 つの優れたオープンソース音声認識/音声テキスト変換システム 24 のオープンソース音声認識

中国のソフトウェア大手、百度の研究者も、「DeepSpeech2」と呼ばれる独自の音声テキスト変換エンジンを開発している。これは、英語と中国語間のテキスト変換に「PaddlePaddle」ディープラーニングフレームワークを使用するエンドツーエンドのオープンソースエンジンです。コードは BSD ライセンスに基づいてリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードとともにリリースされません。他のソフトウェアと同様に、モデルを自分で構築する必要があります。 DeepSpeech2のソースコードはPythonで書かれているので、以前に使ったことがあればとても簡単に使えます。

  • プロジェクトホームページ

要約する

音声認識の分野は、Google や IBM などのプロプライエタリ ソフトウェア大手 (この目的のためにクローズド ソースの商用サービスを提供) によって依然として支配されていますが、オープン ソースの対応製品も有望です。これら 5 つのオープン ソース音声認識エンジンは、時間の経過とともに進化し続けるアプリケーションの構築に役立ちます。数年後には、他の業界と同様に、これらのテクノロジーでもオープンソースが標準になると予想されます。

リストに関して他にご提案やご意見がありましたら、下記までお寄せください。

<<:  なぜ多くの大学や大富豪が協力して AI 技術制御の研究を進めているのでしょうか?

>>:  偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...

...

C# でのジョセフ リング アルゴリズムの簡単な分析

C# アルゴリズムを勉強しているときに、C# ジョセフ リング アルゴリズムに出会いました。ジョセフ...

...

機械学習を独学で学んだら、どうやって仕事を見つければいいのでしょうか?少なくともトップ10の地雷原は避ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

スタンフォード大学の美容博士の起業プロジェクトは大成功! AIビデオ生成がトップストリーマーとしてデビュー

スタンフォード大学の中国人博士が休学して起業したところ、AI界でたちまち人気に!この新製品はAIによ...

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学...

...

単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

5G + AI の統合開発は、インダストリアル インターネットにどのように役立ちますか?

2021年、デジタル経済の重要な一部である産業インターネットが再び政策の焦点となりました。中国工業...

自然言語処理(NLP)はソーシャルエンジニアリング攻撃の解決に役立ちます

新しいツールは、件名や URL に基づいてソーシャル エンジニアリング攻撃を検出するのではなく、テキ...

銀行は人工知能を導入し、スマートな顧客サービス以上のものを提供している

[[433578]]最近、ある有名なメディア関係者が銀行からカスタマーサービスに電話を受け、しばらく...

AIエージェントを実装するには? 6 枚の写真 4090 Magic Llama2: タスクを分割して 1 つのコマンドで関数を呼び出す

AIエージェントは今話題になっています。OpenAIの応用研究ディレクターであるLilian Wen...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...