優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、ディクテーション、音声合成、キーワードの検索、音声日記、言語強化などのシナリオで使用できます。音声認識の基本的なプロセスには通常、音声分析、音声分解、形式変換、テキスト照合が含まれますが、実際の音声認識システムはより複雑で、ノイズ抑制、音響モデル、言語モデル、信頼性評価などの他の手順や機能コンポーネントが含まれる場合があります。

長年にわたり、音声認識技術の進歩は目覚ましいものがあります。音声認識技術を使用して、スマートホームの実現、自動運転のための車の制御、会話のためのChatGPTなどの大型モデルへの接続、スマートスピーカー、家庭用ロボットなどが可能になります。長年にわたり、自然言語処理や音声認識などの技術の発展により、iFlytek** のような優れた企業が数多く誕生しました。

AI技術の発展に伴い、音声認識関連分野の研究に投資する個人や組織が増えており、この分野でのオープンソースプロジェクトの活発な開発も促進されています。オープンソースプロジェクトは、カスタマイズや開発が容易で、使用コストが低く、透明性が高く、非公開で展開でき、安全で制御可能なデータを持つことが多いです。このため、オープンソースの音声認識エンジンは、アプリケーション開発の技術者の間でますます人気が高まっています。

2024 年が始まりました。AI の人気は依然として続いています。ここでは、現在入手可能な優れたオープンソース音声認識エンジンをいくつか紹介します。

1. ささやき

ソースコード: https://github.com/openai/whisper

公式サイト: https://openai.com/research/whisper

Whisper は、文字起こしと翻訳サービスを提供する Open AI のクリエイティブツールです。 2022 年 9 月にリリースされたこの AI ツールは、現在入手可能な自動音声認識モデルの中で最も正確なものの 1 つです。このツールは、インターネットからの 680,000 時間分の音声ファイルという大規模なトレーニングデータセットでトレーニングされているため、市場の他のツールよりも際立っています。この多様なデータ範囲により、ツールの堅牢性が向上します。

Whisper で文字起こしを行うには、まず Python またはコマンドラインインターフェイスをインストールする必要があります。彼は、サイズと機能が異なる 5 つのモデルを提供しています。これらには、極小、基本、小、中、大が含まれます。モデルが大きいほど、転写は速くなります。ただし、最大限に活用するには、適切な CPU と GPU の設定が必要です。

LibriSpeech のパフォーマンス (最も一般的な音声認識ベンチマークの 1 つ) をマスターしたモデルと比較するとまだ差はありますが、ゼロショットパフォーマンスは優れており、API は同じモデルよりもエラーを 50% 少なくします。

アドバンテージ：

MP3、MP4、M4A、Mpeg、MPGA、WEBM、WAV などのコンテンツ形式をサポートします。
99 の言語を書き起こし、すべてを英語に翻訳できます。
このツールは無料で使用できます。

欠点:

モデルが大きくなるほど、消費される GPU リソースも増え、コストが高くなる可能性があります。
ツールをインストールして使用するには、時間とリソースがかかります。
リアルタイムの音声文字変換は提供されません。

2. プロジェクトDeepSpeech

ソースコード: https://github.com/mozilla/DeepSpeech

Project DeepSearch は、Mozilla のオープンソースの音声テキスト変換エンジンです。この音声テキスト変換コマンドとライブラリは、Mozilla Public License (MPL) に基づいてリリースされています。このモデルは、Baidu のディープスピーチ研究論文に基づいており、エンドツーエンドでトレーニング可能で、複数の言語での音声文字変換をサポートしています。 Google の TensorFlow を使用してトレーニングおよび実装されています。

GitHub からソースコードをダウンロードし、Python にインストールして使用します。このツールは英語モデルで事前トレーニングされています。ただし、データを使用してモデルをトレーニングすることは可能です。あるいは、事前トレーニング済みのモデルを取得し、カスタムデータを使用して改善することもできます。

アドバンテージ：

DeepSpeech はネイティブコードソリューションなので簡単にカスタマイズできます。
Python、C、.Net Framework、JavaScript の開発キットを提供しているので、開発言語に関係なくこのツールを使用できます。
Raspberry Pi デバイスを含むさまざまな小型デバイスで実行できます。
単語エラー率は 7.5% と非常に低いです。
Mozilla はプライバシーを真剣に受け止めています。

欠点:

Mozilla は DeepSpeech の開発を終了すると報じられている。つまり、バグや実装上の問題が発生した場合のサポートが少なくなります。

3. カルディ

ソースコード: https://github.com/kaldi-asr/kaldi

Kaldi は、音声認識研究者向けに特別に作成された音声認識ツールです。これは C++ で記述されており、最も制限の少ないオープンソースライセンスである Apache 2.0 ライセンスに基づいてリリースされています。 Whisper や DeepSpeech などのディープラーニングに重点を置いたツールとは異なり、Kaldi は主に古くから信頼されているツールを使用した音声認識モデルに重点を置いています。これらのモデルには、隠れマルコフモデル、ガウス混合モデル、有限状態トランスデューサが含まれます。

アドバンテージ：

カルディはとても信頼できます。そのコードは徹底的に検証されます。
深層学習に重点を置いているわけではありませんが、文字起こしサービスを可能にするモデルがいくつかあります。
これは学術研究と産業関連研究の両方に適しており、ユーザーはモデルと技術をテストできます。
活発なフォーラムがあり、サポートも充実しています。
ユーザーが問題を解決するのに役立つリソースとドキュメントも用意されています。
オープンソースなので、プライバシーやセキュリティに懸念があるユーザーはコードを調べて、その仕組みを理解することができます。

欠点:

従来のモデリング手法を使用すると、精度のレベルが制限される可能性があります。
Kaldi はコマンドラインインターフェイスでのみ実行されるため、ユーザーフレンドリーではありません。
使い方はかなり複雑で、技術的に経験豊富なユーザーに適しています。
このツールキットを使用するには、大量の計算能力が必要です。

4. スピーチブレイン

ソースコード: https://github.com/speechbrain/speechbrain

SpeechBrain は、音声関連技術の研究開発を促進するためのオープンソースツールキットです。音声認識、強化、分離、音声ログ、マイク信号処理など、さまざまなタスクをサポートします。 Speechbrain は開発フレームワークとして PyTorch を使用します。開発者と研究者は、Pytorch のエコシステムとサポートを活用して、ニューラルネットワークの構築とトレーニングを行うことができます。

アドバンテージ：

ユーザーは、従来の ASR モデルまたはディープラーニングベースの ASR モデルを選択できます。
ニーズに合わせてモデルを簡単にカスタマイズできます。
Pytorch との統合により、使いやすくなります。
ユーザーは、事前トレーニング済みのモデルを使用して、音声テキスト変換タスクを開発できます。

欠点:

SpeechBrain のドキュメントは Kaldi ほど充実していません。
事前トレーニング済みのモデルは限られています。
このツールを使用するには特別な専門知識が必要になる場合があります。それがなければ、急な学習曲線を経る必要があるかもしれません。

5. コキ

ソースコード: https://github.com/coqui-ai/STT

Coqui は、STT モデルのトレーニングと展開に最適な高度なディープラーニングツールキットです。 Mozilla Public License 2.0 に基づいてライセンスされており、それぞれに信頼スコアが付いた複数のトランスクリプトを生成するために使用できます。事前トレーニング済みのモデルとサンプルオーディオファイルが提供され、エンジンのテストやさらなる微調整に使用できます。さらに、使用方法や発生した問題のトラブルシューティングに役立つ非常に詳細なドキュメントとリソースも用意されています。

アドバンテージ：

同社が提供する STT モデルは、高品質のデータを使用して高度にトレーニングされています。
モデルは複数の言語で利用可能です。
フレンドリーなサポートコミュニティがあり、そこで質問したり、STT に関連するあらゆる詳細を入手したりできます。
数秒単位の極めて低い遅延でリアルタイムの文字起こしをサポートします。
開発者は、文字起こしから音声アシスタントとしての動作まで、さまざまなユースケースに合わせてモデルをカスタマイズできます。

欠点:

Coqui は、テキスト読み上げツールキットに注力するため、STT プロジェクトのメンテナンスを停止しました。つまり、問題を自分でトラブルシューティングする必要がある場合があります。

6.ジュリアス

ソースコード: https://github.com/julius-speech/julius

Julius は、日本で生まれた古い音声テキスト変換プロジェクトで、その歴史は 1997 年にまで遡ります。 BSD-3 ライセンスに基づいてリリースされています。主に日本語の ASR をサポートしていますが、言語に依存しないプログラムとして、このモデルは英語、スロベニア語、フランス語、タイ語など、幅広い言語を理解して処理できます。文字起こしの精度は、適切な言語モデルと音響モデルがあるかどうかに大きく依存します。このプロジェクトは C で記述されており、Windows、Linux、Android、macOS システムでの実行をサポートしています。

アドバンテージ：

Julius は、メモリ使用量を抑えながら、リアルタイムの音声テキスト変換を実行できます。
ASR の問題解決を支援するアクティブなコミュニティがあります。
英語でトレーニングされたモデルはオンラインでダウンロードできます。
音声認識にはインターネット接続は必要ないので、プライバシーを重視するユーザーに適しています。

欠点:

他のオープンソースプログラムと同様に、これを動作させるには技術的な経験を持つユーザーが必要です。
学習曲線は非常に大きいです。

7. 懐中電灯ASR

ソースコード: https://github.com/flashlight/wav2letter

Flashlight ASR は、Facebook AI 研究チームによって設計されたオープンソースの音声認識ツールキットです。大規模なデータセットを優れた速度と効率で処理する能力を備えています。この速度は、言語モデリング、機械翻訳、音声合成に畳み込みニューラルネットワークのみを使用していることに起因します。

理想的には、ほとんどの音声認識エンジンは、畳み込みニューラルネットワークと再帰型ニューラルネットワークを使用して言語を理解し、モデル化します。ただし、再帰型ネットワークでは高い計算能力が必要になる場合があり、エンジンの速度に影響します。

Flashlight ASR は C++ でコンパイルされており、CPU と GPU の両方での実行をサポートします。

アドバンテージ：

これは最も高速な音声テキスト変換システムの 1 つです。
様々な言語や方言にお使いいただけます。
このモデルは、GPU および CPU リソースをあまり消費しません。

欠点:

英語を含む事前トレーニング済みの言語モデルは提供されません。
このツールを操作するには、コーディングに関する深い専門知識が必要です。
新規ユーザーにとっては学習曲線が急峻です。

8. パドルスピーチ

ソースコード: https://github.com/PaddlePaddle/Paddle

PaddleSpeech は、Paddlepaddle プラットフォームで使用できるオープンソースの音声テキスト変換ツールキットです。このツールは、Apache 2.0 ライセンスに基づくオープンソースです。 PaddleSpeech は、音声認識、音声からテキストへの変換、キーワードの検出、翻訳、オーディオ分類を実行できる、最も汎用性の高いツールキットの 1 つです。その文字起こしの品質は非常に優れており、NAACL2022 ベストプレゼンテーション賞を受賞しました。

音声テキスト変換エンジンは複数の言語モデルをサポートしていますが、中国語と英語のモデルが優先されます。特に中国語モデルは、テキストと発音がより標準化されており、中国語のルールに適応しています。

アドバンテージ：

このキットは、市場で最高のテクノロジーを採用したハイエンドおよび超軽量モデルを提供します。
音声テキスト変換エンジンは、コマンドラインとサーバーオプションの両方を提供するため、簡単に使用できます。
これは開発者にとっても研究者にとっても非常に便利です。
ソースコードは、最も一般的に使用されている言語の 1 つである Python で記述されています。

欠点:

中国語のリソースに重点を置いているため、他の言語のサポートにはいくつかの制限があります。
学習曲線は急峻です。
このツールを統合して使用するには、ある程度の専門知識が必要です。

9. オープンSeq2Seq

ソースコード: https://github.com/NVIDIA/OpenSeq2Seq

OpenSeq2Seq は、その名前が示すように、さまざまな種類のシーケンス間モデルのトレーニングに役立つオープンソースの音声テキスト変換ツールキットです。このツールキットは Nvidia によって開発され、Apache 2.0 ライセンスの下でリリースされたため、誰でも無料で使用できます。転写、翻訳、自動音声認識、感情分析のタスクを実行する言語モデルをトレーニングします。

デフォルトの事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルをトレーニングすることもできます。 OpenSeq2Seq は、複数のグラフィックカードとコンピューターを使用すると最高のパフォーマンスを実現します。 Nvidia 搭載デバイスで最も効果的に動作します。

アドバンテージ：

このツールにはさまざまな機能があり、非常に多用途に使用できます。
最新の Python、TensorFlow、CUDA バージョンで動作します。
開発者と研究者は、このツールにアクセスして共同作業や革新を行うことができます。
これは、Nvidia 搭載デバイスのユーザーにとって有益です。

欠点:

並列処理機能があるため、大量のコンピュータリソースを消費する可能性があります。
Nvidia がプロジェクトの開発を一時停止したため、コミュニティのサポートは時間とともに減少しました。
Nvidia ハードウェアを持たないユーザーにとってはあまりメリットがないかもしれません。

10. ヴォスク

ソースコード: https://github.com/alphacep/vosk-api

公式サイト: https://alphacephei.com/vosk/

Vosk は、最もコンパクトで軽量な音声テキスト変換エンジンの 1 つです。このオープンソースツールキットは、Android、iOS、Raspberry Pi など、さまざまなデバイスでオフラインで実行されます。英語、中国語、ポルトガル語、ポーランド語、ドイツ語など、20 を超える言語または方言をサポートしています。

Vosk は、多くのスペースを占有しない、理想的には 50 MB 程度の小さな言語モデルを提供します。ただし、一部の大型モデルでは 1.4GB も占有することがあります。このツールは応答性が高く、音声をテキストに連続的に変換できます。

アドバンテージ：

Java、Python、C++、Kotlyn、Shell など、さまざまなプログラミング言語での開発をサポートします。
輸送からチャットボットや仮想アシスタントの開発まで、さまざまなユースケースがあります。
応答時間が速いです。

欠点:

エンジンの精度は言語やアクセントによって異なる場合があります。
ツールを統合して使用するには専門知識を身につける必要があります。

11. アテナ

ソースコード: https://github.com/athena-team/athena

Athena は、Apache 2.0 オープンソースライセンスに基づいてリリースされたオープンソースのシーケンス間音声テキスト変換エンジンです。このツールキットは、研究者や開発者のエンドツーエンドの音声処理ニーズに適しています。モデルが処理できるタスクには、自動音声認識 (ASR)、音声合成、音声検出、キーワード検出などがあります。すべての言語モデルは TensorFlow 上に実装されており、より多くの開発者がツールキットを利用できるようになります。

アドバンテージ：

Athena は、文字起こしサービスから音声合成まで、幅広い用途に使用できます。
独自の Python 機能抽出機能を備えているため、Kaldi に依存しません。
このツールは適切にメンテナンスされ、定期的に更新されます。
オープンソースで、無料で使用でき、幅広いユーザーがアクセスできます。

短所:

新規ユーザーにとっては学習曲線が急峻です。
コミュニティサポート用のWeChatグループがありますが、プラットフォームにアクセスできるユーザーのみにアクセスが制限されています。

12.ESPネット

ソースコード: https://github.com/espnet/espnet

ESPnet は、Apache 2.0 ライセンスに基づいてリリースされたオープンソースの音声テキスト変換ソフトウェアです。ASR、翻訳、音声合成、拡張、ログ記録などのタスクをカバーするエンドツーエンドの音声処理機能を提供します。このツールキットは、ディープラーニングフレームワークとして Pytorch を使用し、Kaldi データ処理スタイルに従います。したがって、さまざまな言語処理タスクのための包括的なレシピが得られます。このツールは複数の言語をサポートしています。すぐに利用できる事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルを作成することもできます。

アドバンテージ：

このツールキットは、他の音声テキスト変換ソフトウェアと比較して優れたパフォーマンスを提供します。
音声をリアルタイムで処理するため、現場での音声文字変換に適しています。
研究者や開発者に適しています。
これは、さまざまな音声処理タスクを提供する最も汎用性の高いツールの 1 つです。

欠点:

新しいユーザーにとっては、統合と使用が複雑になる可能性があります。
このツールキットを実行するには、Pytorch と Python に精通している必要があります。

13.テンソルフローASR

ソースコード: https://github.com/TensorSpeech/TensorFlowASR

Tensorflow ASR は、Tensorflow 2.0 をディープラーニングフレームワークとして使用してさまざまな音声処理を実装するオープンソースの音声テキスト変換エンジンです。このプロジェクトは Apache 2.0 ライセンスの下でリリースされています。

Tensorflow の最大の利点はその精度であり、著者はそれがほぼ「最先端」のモデルであると主張しています。また、定期的に更新され、機能性が向上する、最もよくメンテナンスされたツールの 1 つでもあります。たとえば、このツールキットは現在、特殊なタイプのハードウェアである TPU での言語トレーニングもサポートしています。

Tensorflow は、Conformer、ContextNet、DeepSpeech2、Jasper などの特定のモデルの使用もサポートしています。処理したいタスクに応じて選択できます。たとえば、一般的なタスクには DeepSpeech2 が適していますが、より高い精度が求められるタスクには Conformer を使用できます。

アドバンテージ：