優れたオープンソース音声認識エンジン13選

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、ディクテーション、音声合成、キーワードの検索、音声日記、言語強化などのシナリオで使用できます。音声認識の基本的なプロセスには通常、音声分析、音声分解、形式変換、テキスト照合が含まれますが、実際の音声認識システムはより複雑で、ノイズ抑制、音響モデル、言語モデル、信頼性評価などの他の手順や機能コンポーネントが含まれる場合があります。

長年にわたり、音声認識技術の進歩は目覚ましいものがあります。音声認識技術を使用して、スマートホームの実現、自動運転のための車の制御、会話のためのChatGPTなどの大型モデルへの接続、スマートスピーカー、家庭用ロボットなどが可能になります。長年にわたり、自然言語処理や音声認識などの技術の発展により、iFlytek** のような優れた企業が数多く誕生しました。

AI技術の発展に伴い、音声認識関連分野の研究に投資する個人や組織が増えており、この分野でのオープンソースプロジェクトの活発な開発も促進されています。オープンソース プロジェクトは、カスタマイズや開発が容易で、使用コストが低く、透明性が高く、非公開で展開でき、安全で制御可能なデータを持つことが多いです。このため、オープンソースの音声認識エンジンは、アプリケーション開発の技術者の間でますます人気が高まっています。

2024 年が始まりました。AI の人気は依然として続いています。ここでは、現在入手可能な優れたオープンソース音声認識エンジンをいくつか紹介します。

1. ささやき

ソースコード: https://github.com/openai/whisper

公式サイト: https://openai.com/research/whisper

Whisper は、文字起こしと翻訳サービスを提供する Open AI のクリエイティブ ツールです。 2022 年 9 月にリリースされたこの AI ツールは、現在入手可能な自動音声認識モデルの中で最も正確なものの 1 つです。このツールは、インターネットからの 680,000 時間分の音声ファイルという大規模なトレーニング データセットでトレーニングされているため、市場の他のツールよりも際立っています。この多様なデータ範囲により、ツールの堅牢性が向上します。

Whisper で文字起こしを行うには、まず Python またはコマンド ライン インターフェイスをインストールする必要があります。彼は、サイズと機能が異なる 5 つのモデルを提供しています。これらには、極小、基本、小、中、大が含まれます。モデルが大きいほど、転写は速くなります。ただし、最大限に活用するには、適切な CPU と GPU の設定が必要です。

LibriSpeech のパフォーマンス (最も一般的な音声認識ベンチマークの 1 つ) をマスターしたモデルと比較するとまだ差はありますが、ゼロショット パフォーマンスは優れており、API は同じモデルよりもエラーを 50% 少なくします。

アドバンテージ:

  • MP3、MP4、M4A、Mpeg、MPGA、WEBM、WAV などのコンテンツ形式をサポートします。
  • 99 の言語を書き起こし、すべてを英語に翻訳できます。
  • このツールは無料で使用できます。

欠点:

  • モデルが大きくなるほど、消費される GPU リソースも増え、コストが高くなる可能性があります。
  • ツールをインストールして使用するには、時間とリソースがかかります。
  • リアルタイムの音声文字変換は提供されません。

2. プロジェクトDeepSpeech

ソースコード: https://github.com/mozilla/DeepSpeech

Project DeepSearch は、Mozilla のオープンソースの音声テキスト変換エンジンです。この音声テキスト変換コマンドとライブラリは、Mozilla Public License (MPL) に基づいてリリースされています。このモデルは、Baidu のディープスピーチ研究論文に基づいており、エンドツーエンドでトレーニング可能で、複数の言語での音声文字変換をサポートしています。 Google の TensorFlow を使用してトレーニングおよび実装されています。

GitHub からソース コードをダウンロードし、Python にインストールして使用します。このツールは英語モデルで事前トレーニングされています。ただし、データを使用してモデルをトレーニングすることは可能です。あるいは、事前トレーニング済みのモデルを取得し、カスタム データを使用して改善することもできます。

アドバンテージ:

  • DeepSpeech はネイティブ コード ソリューションなので簡単にカスタマイズできます。
  • Python、C、.Net Framework、JavaScript の開発キットを提供しているので、開発言語に関係なくこのツールを使用できます。
  • Raspberry Pi デバイスを含むさまざまな小型デバイスで実行できます。
  • 単語エラー率は 7.5% と非常に低いです。
  • Mozilla はプライバシーを真剣に受け止めています。

欠点:

  • Mozilla は DeepSpeech の開発を終了すると報じられている。つまり、バグや実装上の問題が発生した場合のサポートが少なくなります。

3. カルディ

ソースコード: https://github.com/kaldi-asr/kaldi

Kaldi は、音声認識研究者向けに特別に作成された音声認識ツールです。これは C++ で記述されており、最も制限の少ないオープン ソース ライセンスである Apache 2.0 ライセンスに基づいてリリースされています。 Whisper や DeepSpeech などのディープラーニングに重点を置いたツールとは異なり、Kaldi は主に古くから信頼されているツールを使用した音声認識モデルに重点を置いています。これらのモデルには、隠れマルコフモデル、ガウス混合モデル、有限状態トランスデューサが含まれます。

アドバンテージ:

  • カルディはとても信頼できます。そのコードは徹底的に検証されます。
  • 深層学習に重点を置いているわけではありませんが、文字起こしサービスを可能にするモデルがいくつかあります。
  • これは学術研究と産業関連研究の両方に適しており、ユーザーはモデルと技術をテストできます。
  • 活発なフォーラムがあり、サポートも充実しています。
  • ユーザーが問題を解決するのに役立つリソースとドキュメントも用意されています。
  • オープンソースなので、プライバシーやセキュリティに懸念があるユーザーはコードを調べて、その仕組みを理解することができます。

欠点:

  • 従来のモデリング手法を使用すると、精度のレベルが制限される可能性があります。
  • Kaldi はコマンドライン インターフェイスでのみ実行されるため、ユーザーフレンドリーではありません。
  • 使い方はかなり複雑で、技術的に経験豊富なユーザーに適しています。
  • このツールキットを使用するには、大量の計算能力が必要です。

4. スピーチブレイン

ソースコード: https://github.com/speechbrain/speechbrain

SpeechBrain は、音声関連技術の研究開発を促進するためのオープンソース ツールキットです。音声認識、強化、分離、音声ログ、マイク信号処理など、さまざまなタスクをサポートします。 Speechbrain は開発フレームワークとして PyTorch を使用します。開発者と研究者は、Pytorch のエコシステムとサポートを活用して、ニューラル ネットワークの構築とトレーニングを行うことができます。

アドバンテージ:

  • ユーザーは、従来の ASR モデルまたはディープラーニング ベースの ASR モデルを選択できます。
  • ニーズに合わせてモデルを簡単にカスタマイズできます。
  • Pytorch との統合により、使いやすくなります。
  • ユーザーは、事前トレーニング済みのモデルを使用して、音声テキスト変換タスクを開発できます。

欠点:

  • SpeechBrain のドキュメントは Kaldi ほど充実していません。
  • 事前トレーニング済みのモデルは限られています。
  • このツールを使用するには特別な専門知識が必要になる場合があります。それがなければ、急な学習曲線を経る必要があるかもしれません。

5. コキ

ソースコード: https://github.com/coqui-ai/STT

Coqui は、STT モデルのトレーニングと展開に最適な高度なディープラーニング ツールキットです。 Mozilla Public License 2.0 に基づいてライセンスされており、それぞれに信頼スコアが付いた複数のトランスクリプトを生成するために使用できます。事前トレーニング済みのモデルとサンプル オーディオ ファイルが提供され、エンジンのテストやさらなる微調整に使用できます。さらに、使用方法や発生した問題のトラブルシューティングに役立つ非常に詳細なドキュメントとリソースも用意されています。

アドバンテージ:

  • 同社が提供する STT モデルは、高品質のデータを使用して高度にトレーニングされています。
  • モデルは複数の言語で利用可能です。
  • フレンドリーなサポート コミュニティがあり、そこで質問したり、STT に関連するあらゆる詳細を入手したりできます。
  • 数秒単位の極めて低い遅延でリアルタイムの文字起こしをサポートします。
  • 開発者は、文字起こしから音声アシスタントとしての動作まで、さまざまなユースケースに合わせてモデルをカスタマイズできます。

欠点:

Coqui は、テキスト読み上げツールキットに注力するため、STT プロジェクトのメンテナンスを停止しました。つまり、問題を自分でトラブルシューティングする必要がある場合があります。

6.ジュリアス

ソースコード: https://github.com/julius-speech/julius

Julius は、日本で生まれた古い音声テキスト変換プロジェクトで、その歴史は 1997 年にまで遡ります。 BSD-3 ライセンスに基づいてリリースされています。主に日本語の ASR をサポートしていますが、言語に依存しないプログラムとして、このモデルは英語、スロベニア語、フランス語、タイ語など、幅広い言語を理解して処理できます。文字起こしの精度は、適切な言語モデルと音響モデルがあるかどうかに大きく依存します。このプロジェクトは C で記述されており、Windows、Linux、Android、macOS システムでの実行をサポートしています。

アドバンテージ:

  • Julius は、メモリ使用量を抑えながら、リアルタイムの音声テキスト変換を実行できます。
  • ASR の問題解決を支援するアクティブなコミュニティがあります。
  • 英語でトレーニングされたモデルはオンラインでダウンロードできます。
  • 音声認識にはインターネット接続は必要ないので、プライバシーを重視するユーザーに適しています。

欠点:

  • 他のオープンソース プログラムと同様に、これを動作させるには技術的な経験を持つユーザーが必要です。
  • 学習曲線は非常に大きいです。

7. 懐中電灯ASR

ソースコード: https://github.com/flashlight/wav2letter

Flashlight ASR は、Facebook AI 研究チームによって設計されたオープンソースの音声認識ツールキットです。大規模なデータセットを優れた速度と効率で処理する能力を備えています。この速度は、言語モデリング、機械翻訳、音声合成に畳み込みニューラル ネットワークのみを使用していることに起因します。

理想的には、ほとんどの音声認識エンジンは、畳み込みニューラル ネットワークと再帰型ニューラル ネットワークを使用して言語を理解し、モデル化します。ただし、再帰型ネットワークでは高い計算能力が必要になる場合があり、エンジンの速度に影響します。

Flashlight ASR は C++ でコンパイルされており、CPU と GPU の両方での実行をサポートします。

アドバンテージ:

  • これは最も高速な音声テキスト変換システムの 1 つです。
  • 様々な言語や方言にお使いいただけます。
  • このモデルは、GPU および CPU リソースをあまり消費しません。

欠点:

  • 英語を含む事前トレーニング済みの言語モデルは提供されません。
  • このツールを操作するには、コーディングに関する深い専門知識が必要です。
  • 新規ユーザーにとっては学習曲線が急峻です。

8. パドルスピーチ

ソースコード: https://github.com/PaddlePaddle/Paddle

PaddleSpeech は、Paddlepaddle プラットフォームで使用できるオープン ソースの音声テキスト変換ツールキットです。このツールは、Apache 2.0 ライセンスに基づくオープン ソースです。 PaddleSpeech は、音声認識、音声からテキストへの変換、キーワードの検出、翻訳、オーディオ分類を実行できる、最も汎用性の高いツールキットの 1 つです。その文字起こしの品質は非常に優れており、NAACL2022 ベストプレゼンテーション賞を受賞しました。

音声テキスト変換エンジンは複数の言語モデルをサポートしていますが、中国語と英語のモデルが優先されます。特に中国語モデルは、テキストと発音がより標準化されており、中国語のルールに適応しています。

アドバンテージ:

  • このキットは、市場で最高のテクノロジーを採用したハイエンドおよび超軽量モデルを提供します。
  • 音声テキスト変換エンジンは、コマンド ラインとサーバー オプションの両方を提供するため、簡単に使用できます。
  • これは開発者にとっても研究者にとっても非常に便利です。
  • ソースコードは、最も一般的に使用されている言語の 1 つである Python で記述されています。

欠点:

  • 中国語のリソースに重点を置いているため、他の言語のサポートにはいくつかの制限があります。
  • 学習曲線は急峻です。
  • このツールを統合して使用するには、ある程度の専門知識が必要です。

9. オープンSeq2Seq

ソースコード: https://github.com/NVIDIA/OpenSeq2Seq

OpenSeq2Seq は、その名前が示すように、さまざまな種類のシーケンス間モデルのトレーニングに役立つオープンソースの音声テキスト変換ツールキットです。このツールキットは Nvidia によって開発され、Apache 2.0 ライセンスの下でリリースされたため、誰でも無料で使用できます。転写、翻訳、自動音声認識、感情分析のタスクを実行する言語モデルをトレーニングします。

デフォルトの事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルをトレーニングすることもできます。 OpenSeq2Seq は、複数のグラフィック カードとコンピューターを使用すると最高のパフォーマンスを実現します。 Nvidia 搭載デバイスで最も効果的に動作します。

アドバンテージ:

  • このツールにはさまざまな機能があり、非常に多用途に使用できます。
  • 最新の Python、TensorFlow、CUDA バージョンで動作します。
  • 開発者と研究者は、このツールにアクセスして共同作業や革新を行うことができます。
  • これは、Nvidia 搭載デバイスのユーザーにとって有益です。

欠点:

  • 並列処理機能があるため、大量のコンピュータ リソースを消費する可能性があります。
  • Nvidia がプロジェクトの開発を一時停止したため、コミュニティのサポートは時間とともに減少しました。
  • Nvidia ハードウェアを持たないユーザーにとってはあまりメリットがないかもしれません。

10. ヴォスク

ソースコード: https://github.com/alphacep/vosk-api

公式サイト: https://alphacephei.com/vosk/

Vosk は、最もコンパクトで軽量な音声テキスト変換エンジンの 1 つです。このオープンソース ツールキットは、Android、iOS、Raspberry Pi など、さまざまなデバイスでオフラインで実行されます。英語、中国語、ポルトガル語、ポーランド語、ドイツ語など、20 を超える言語または方言をサポートしています。

Vosk は、多くのスペースを占有しない、理想的には 50 MB 程度の小さな言語モデルを提供します。ただし、一部の大型モデルでは 1.4GB も占有することがあります。このツールは応答性が高く、音声をテキストに連続的に変換できます。

アドバンテージ:

  • Java、Python、C++、Kotlyn、Shell など、さまざまなプログラミング言語での開発をサポートします。
  • 輸送からチャットボットや仮想アシスタントの開発まで、さまざまなユースケースがあります。
  • 応答時間が速いです。

欠点:

  • エンジンの精度は言語やアクセントによって異なる場合があります。
  • ツールを統合して使用するには専門知識を身につける必要があります。

11. アテナ

ソースコード: https://github.com/athena-team/athena

Athena は、Apache 2.0 オープン ソース ライセンスに基づいてリリースされたオープン ソースのシーケンス間音声テキスト変換エンジンです。このツールキットは、研究者や開発者のエンドツーエンドの音声処理ニーズに適しています。モデルが処理できるタスクには、自動音声認識 (ASR)、音声合成、音声検出、キーワード検出などがあります。すべての言語モデルは TensorFlow 上に実装されており、より多くの開発者がツールキットを利用できるようになります。

アドバンテージ:

  • Athena は、文字起こしサービスから音声合成まで、幅広い用途に使用できます。
  • 独自の Python 機能抽出機能を備えているため、Kaldi に依存しません。
  • このツールは適切にメンテナンスされ、定期的に更新されます。
  • オープンソースで、無料で使用でき、幅広いユーザーがアクセスできます。

短所:

  • 新規ユーザーにとっては学習曲線が急峻です。
  • コミュニティサポート用のWeChatグループがありますが、プラットフォームにアクセスできるユーザーのみにアクセスが制限されています。

12.ESPネット

ソースコード: https://github.com/espnet/espnet

ESPnet は、Apache 2.0 ライセンスに基づいてリリースされたオープン ソースの音声テキスト変換ソフトウェアです。ASR、翻訳、音声合成、拡張、ログ記録などのタスクをカバーするエンドツーエンドの音声処理機能を提供します。このツールキットは、ディープラーニング フレームワークとして Pytorch を使用し、Kaldi データ処理スタイルに従います。したがって、さまざまな言語処理タスクのための包括的なレシピが得られます。このツールは複数の言語をサポートしています。すぐに利用できる事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルを作成することもできます。

アドバンテージ:

  • このツールキットは、他の音声テキスト変換ソフトウェアと比較して優れたパフォーマンスを提供します。
  • 音声をリアルタイムで処理するため、現場での音声文字変換に適しています。
  • 研究者や開発者に適しています。
  • これは、さまざまな音声処理タスクを提供する最も汎用性の高いツールの 1 つです。

欠点:

  • 新しいユーザーにとっては、統合と使用が複雑になる可能性があります。
  • このツールキットを実行するには、Pytorch と Python に精通している必要があります。

13.テンソルフローASR

ソースコード: https://github.com/TensorSpeech/TensorFlowASR

Tensorflow ASR は、Tensorflow 2.0 をディープラーニング フレームワークとして使用してさまざまな音声処理を実装するオープン ソースの音声テキスト変換エンジンです。このプロジェクトは Apache 2.0 ライセンスの下でリリースされています。

Tensorflow の最大の利点はその精度であり、著者はそれがほぼ「最先端」のモデルであると主張しています。また、定期的に更新され、機能性が向上する、最もよくメンテナンスされたツールの 1 つでもあります。たとえば、このツールキットは現在、特殊なタイプのハードウェアである TPU での言語トレーニングもサポートしています。

Tensorflow は、Conformer、ContextNet、DeepSpeech2、Jasper などの特定のモデルの使用もサポートしています。処理したいタスクに応じて選択できます。たとえば、一般的なタスクには DeepSpeech2 が適していますが、より高い精度が求められるタスクには Conformer を使用できます。

アドバンテージ:

  • 言語モデルは、音声をテキストに変換するときに、より正確で効率的です。
  • モデルは TFlite 形式に変換できるため、軽量で簡単に展開できます。
  • 音声テキスト変換関連のさまざまなタスクを提供できます。
  • 複数の言語をサポートしており、英語、ベトナム語、ドイツ語などの事前トレーニング済みの言語モデルを提供します。

欠点:

  • インストールプロセスは初心者にとっては非常に複雑になる可能性があります。ユーザーには一定の専門知識が必要です。
  • 高度なモデルを使用する場合、学習曲線はより急になります。
  • TPU ではテストが許可されていないため、ツールの機能が制限されます。

選択

上記で推奨したオープンソースの音声認識エンジンには、それぞれ長所と短所があります。選択は、特定のアプリケーション要件と利用可能なリソースによって異なります。

幅広いデバイスと互換性のある軽量ツールキットが必要な場合は、Vosk と Julius が適しています。 Android、iOS、Raspberry Pi で実行でき、リソースをあまり消費しないからです。

モデルを自分でトレーニングする必要がある場合は、Whisper、OpenSeq2Seq、Flashlight ASR、Athena などのツールキットを使用できます。

<<:  人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈

>>:  フランス企業が世界初のAIスマートミラーを発売。ユーザーの感情を認識し、ストレスを軽減できる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

北京、AIビッグモデルとロボットの統合開発を支援するロボット産業向けの新政策を発表

北京市人民政府弁公庁はこのほど、「北京市ロボット産業革新発展行動計画(2023~2025年)」を発表...

MLCommonsがAI安全ワーキンググループを発表

人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

ガートナーの2020年人工知能技術ハイプサイクルを通して新たな変化を見る

ガートナーの最近の調査によると、企業の47%が流行の発生以来人工知能(AI)への投資を維持しており、...

中国の博士が127ページの論文「自然言語処理におけるグラフニューラルネットワークの初心者からマスターまで」を発表

グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...

額をタップして入力できる。Googleエンジニアの「帽子型キーボード」は数え切れないほどのファンを魅了。自分で作ることもできる

キーボードと帽子を組み合わせたらどうなるでしょうか?冗談はさておき、Google 日本支社のエンジニ...

ロボットと人工知能の違いは何でしょうか?

テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...

プライベート5GとAI技術は自動化から自律性への移行を加速させる

モノのインターネットとインダストリー 4.0 の登場以来、マシン ビジョン、人工知能、機械学習、ディ...

...

...

自動運転が原因でしょうか?上海の地下鉄で乗客がホームの網戸に挟まれて死亡した。この悲劇の責任は誰にあるのだろうか?

1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...