自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、ディクテーション、音声合成、キーワードの検索、音声日記、言語強化などのシナリオで使用できます。音声認識の基本的なプロセスには通常、音声分析、音声分解、形式変換、テキスト照合が含まれますが、実際の音声認識システムはより複雑で、ノイズ抑制、音響モデル、言語モデル、信頼性評価などの他の手順や機能コンポーネントが含まれる場合があります。 長年にわたり、音声認識技術の進歩は目覚ましいものがあります。音声認識技術を使用して、スマートホームの実現、自動運転のための車の制御、会話のためのChatGPTなどの大型モデルへの接続、スマートスピーカー、家庭用ロボットなどが可能になります。長年にわたり、自然言語処理や音声認識などの技術の発展により、iFlytek** のような優れた企業が数多く誕生しました。 AI技術の発展に伴い、音声認識関連分野の研究に投資する個人や組織が増えており、この分野でのオープンソースプロジェクトの活発な開発も促進されています。オープンソース プロジェクトは、カスタマイズや開発が容易で、使用コストが低く、透明性が高く、非公開で展開でき、安全で制御可能なデータを持つことが多いです。このため、オープンソースの音声認識エンジンは、アプリケーション開発の技術者の間でますます人気が高まっています。 2024 年が始まりました。AI の人気は依然として続いています。ここでは、現在入手可能な優れたオープンソース音声認識エンジンをいくつか紹介します。 1. ささやきソースコード: https://github.com/openai/whisper 公式サイト: https://openai.com/research/whisper Whisper は、文字起こしと翻訳サービスを提供する Open AI のクリエイティブ ツールです。 2022 年 9 月にリリースされたこの AI ツールは、現在入手可能な自動音声認識モデルの中で最も正確なものの 1 つです。このツールは、インターネットからの 680,000 時間分の音声ファイルという大規模なトレーニング データセットでトレーニングされているため、市場の他のツールよりも際立っています。この多様なデータ範囲により、ツールの堅牢性が向上します。 Whisper で文字起こしを行うには、まず Python またはコマンド ライン インターフェイスをインストールする必要があります。彼は、サイズと機能が異なる 5 つのモデルを提供しています。これらには、極小、基本、小、中、大が含まれます。モデルが大きいほど、転写は速くなります。ただし、最大限に活用するには、適切な CPU と GPU の設定が必要です。 LibriSpeech のパフォーマンス (最も一般的な音声認識ベンチマークの 1 つ) をマスターしたモデルと比較するとまだ差はありますが、ゼロショット パフォーマンスは優れており、API は同じモデルよりもエラーを 50% 少なくします。 アドバンテージ:
欠点:
2. プロジェクトDeepSpeechソースコード: https://github.com/mozilla/DeepSpeech Project DeepSearch は、Mozilla のオープンソースの音声テキスト変換エンジンです。この音声テキスト変換コマンドとライブラリは、Mozilla Public License (MPL) に基づいてリリースされています。このモデルは、Baidu のディープスピーチ研究論文に基づいており、エンドツーエンドでトレーニング可能で、複数の言語での音声文字変換をサポートしています。 Google の TensorFlow を使用してトレーニングおよび実装されています。 GitHub からソース コードをダウンロードし、Python にインストールして使用します。このツールは英語モデルで事前トレーニングされています。ただし、データを使用してモデルをトレーニングすることは可能です。あるいは、事前トレーニング済みのモデルを取得し、カスタム データを使用して改善することもできます。 アドバンテージ:
欠点:
3. カルディソースコード: https://github.com/kaldi-asr/kaldi Kaldi は、音声認識研究者向けに特別に作成された音声認識ツールです。これは C++ で記述されており、最も制限の少ないオープン ソース ライセンスである Apache 2.0 ライセンスに基づいてリリースされています。 Whisper や DeepSpeech などのディープラーニングに重点を置いたツールとは異なり、Kaldi は主に古くから信頼されているツールを使用した音声認識モデルに重点を置いています。これらのモデルには、隠れマルコフモデル、ガウス混合モデル、有限状態トランスデューサが含まれます。 アドバンテージ:
欠点:
4. スピーチブレインソースコード: https://github.com/speechbrain/speechbrain SpeechBrain は、音声関連技術の研究開発を促進するためのオープンソース ツールキットです。音声認識、強化、分離、音声ログ、マイク信号処理など、さまざまなタスクをサポートします。 Speechbrain は開発フレームワークとして PyTorch を使用します。開発者と研究者は、Pytorch のエコシステムとサポートを活用して、ニューラル ネットワークの構築とトレーニングを行うことができます。 アドバンテージ:
欠点:
5. コキソースコード: https://github.com/coqui-ai/STT Coqui は、STT モデルのトレーニングと展開に最適な高度なディープラーニング ツールキットです。 Mozilla Public License 2.0 に基づいてライセンスされており、それぞれに信頼スコアが付いた複数のトランスクリプトを生成するために使用できます。事前トレーニング済みのモデルとサンプル オーディオ ファイルが提供され、エンジンのテストやさらなる微調整に使用できます。さらに、使用方法や発生した問題のトラブルシューティングに役立つ非常に詳細なドキュメントとリソースも用意されています。 アドバンテージ:
欠点: Coqui は、テキスト読み上げツールキットに注力するため、STT プロジェクトのメンテナンスを停止しました。つまり、問題を自分でトラブルシューティングする必要がある場合があります。 6.ジュリアスソースコード: https://github.com/julius-speech/julius Julius は、日本で生まれた古い音声テキスト変換プロジェクトで、その歴史は 1997 年にまで遡ります。 BSD-3 ライセンスに基づいてリリースされています。主に日本語の ASR をサポートしていますが、言語に依存しないプログラムとして、このモデルは英語、スロベニア語、フランス語、タイ語など、幅広い言語を理解して処理できます。文字起こしの精度は、適切な言語モデルと音響モデルがあるかどうかに大きく依存します。このプロジェクトは C で記述されており、Windows、Linux、Android、macOS システムでの実行をサポートしています。 アドバンテージ:
欠点:
7. 懐中電灯ASRソースコード: https://github.com/flashlight/wav2letter Flashlight ASR は、Facebook AI 研究チームによって設計されたオープンソースの音声認識ツールキットです。大規模なデータセットを優れた速度と効率で処理する能力を備えています。この速度は、言語モデリング、機械翻訳、音声合成に畳み込みニューラル ネットワークのみを使用していることに起因します。 理想的には、ほとんどの音声認識エンジンは、畳み込みニューラル ネットワークと再帰型ニューラル ネットワークを使用して言語を理解し、モデル化します。ただし、再帰型ネットワークでは高い計算能力が必要になる場合があり、エンジンの速度に影響します。 Flashlight ASR は C++ でコンパイルされており、CPU と GPU の両方での実行をサポートします。 アドバンテージ:
欠点:
8. パドルスピーチソースコード: https://github.com/PaddlePaddle/Paddle PaddleSpeech は、Paddlepaddle プラットフォームで使用できるオープン ソースの音声テキスト変換ツールキットです。このツールは、Apache 2.0 ライセンスに基づくオープン ソースです。 PaddleSpeech は、音声認識、音声からテキストへの変換、キーワードの検出、翻訳、オーディオ分類を実行できる、最も汎用性の高いツールキットの 1 つです。その文字起こしの品質は非常に優れており、NAACL2022 ベストプレゼンテーション賞を受賞しました。 音声テキスト変換エンジンは複数の言語モデルをサポートしていますが、中国語と英語のモデルが優先されます。特に中国語モデルは、テキストと発音がより標準化されており、中国語のルールに適応しています。 アドバンテージ:
欠点:
9. オープンSeq2Seqソースコード: https://github.com/NVIDIA/OpenSeq2Seq OpenSeq2Seq は、その名前が示すように、さまざまな種類のシーケンス間モデルのトレーニングに役立つオープンソースの音声テキスト変換ツールキットです。このツールキットは Nvidia によって開発され、Apache 2.0 ライセンスの下でリリースされたため、誰でも無料で使用できます。転写、翻訳、自動音声認識、感情分析のタスクを実行する言語モデルをトレーニングします。 デフォルトの事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルをトレーニングすることもできます。 OpenSeq2Seq は、複数のグラフィック カードとコンピューターを使用すると最高のパフォーマンスを実現します。 Nvidia 搭載デバイスで最も効果的に動作します。 アドバンテージ:
欠点:
10. ヴォスクソースコード: https://github.com/alphacep/vosk-api 公式サイト: https://alphacephei.com/vosk/ Vosk は、最もコンパクトで軽量な音声テキスト変換エンジンの 1 つです。このオープンソース ツールキットは、Android、iOS、Raspberry Pi など、さまざまなデバイスでオフラインで実行されます。英語、中国語、ポルトガル語、ポーランド語、ドイツ語など、20 を超える言語または方言をサポートしています。 Vosk は、多くのスペースを占有しない、理想的には 50 MB 程度の小さな言語モデルを提供します。ただし、一部の大型モデルでは 1.4GB も占有することがあります。このツールは応答性が高く、音声をテキストに連続的に変換できます。 アドバンテージ:
欠点:
11. アテナソースコード: https://github.com/athena-team/athena Athena は、Apache 2.0 オープン ソース ライセンスに基づいてリリースされたオープン ソースのシーケンス間音声テキスト変換エンジンです。このツールキットは、研究者や開発者のエンドツーエンドの音声処理ニーズに適しています。モデルが処理できるタスクには、自動音声認識 (ASR)、音声合成、音声検出、キーワード検出などがあります。すべての言語モデルは TensorFlow 上に実装されており、より多くの開発者がツールキットを利用できるようになります。 アドバンテージ:
短所:
12.ESPネットソースコード: https://github.com/espnet/espnet ESPnet は、Apache 2.0 ライセンスに基づいてリリースされたオープン ソースの音声テキスト変換ソフトウェアです。ASR、翻訳、音声合成、拡張、ログ記録などのタスクをカバーするエンドツーエンドの音声処理機能を提供します。このツールキットは、ディープラーニング フレームワークとして Pytorch を使用し、Kaldi データ処理スタイルに従います。したがって、さまざまな言語処理タスクのための包括的なレシピが得られます。このツールは複数の言語をサポートしています。すぐに利用できる事前トレーニング済みモデルを使用することも、ニーズに応じて独自のモデルを作成することもできます。 アドバンテージ:
欠点:
13.テンソルフローASRソースコード: https://github.com/TensorSpeech/TensorFlowASR Tensorflow ASR は、Tensorflow 2.0 をディープラーニング フレームワークとして使用してさまざまな音声処理を実装するオープン ソースの音声テキスト変換エンジンです。このプロジェクトは Apache 2.0 ライセンスの下でリリースされています。 Tensorflow の最大の利点はその精度であり、著者はそれがほぼ「最先端」のモデルであると主張しています。また、定期的に更新され、機能性が向上する、最もよくメンテナンスされたツールの 1 つでもあります。たとえば、このツールキットは現在、特殊なタイプのハードウェアである TPU での言語トレーニングもサポートしています。 Tensorflow は、Conformer、ContextNet、DeepSpeech2、Jasper などの特定のモデルの使用もサポートしています。処理したいタスクに応じて選択できます。たとえば、一般的なタスクには DeepSpeech2 が適していますが、より高い精度が求められるタスクには Conformer を使用できます。 アドバンテージ:
欠点:
選択上記で推奨したオープンソースの音声認識エンジンには、それぞれ長所と短所があります。選択は、特定のアプリケーション要件と利用可能なリソースによって異なります。 幅広いデバイスと互換性のある軽量ツールキットが必要な場合は、Vosk と Julius が適しています。 Android、iOS、Raspberry Pi で実行でき、リソースをあまり消費しないからです。 モデルを自分でトレーニングする必要がある場合は、Whisper、OpenSeq2Seq、Flashlight ASR、Athena などのツールキットを使用できます。 |
<<: 人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈
>>: フランス企業が世界初のAIスマートミラーを発売。ユーザーの感情を認識し、ストレスを軽減できる
北京市人民政府弁公庁はこのほど、「北京市ロボット産業革新発展行動計画(2023~2025年)」を発表...
人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...
ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...
認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...
ガートナーの最近の調査によると、企業の47%が流行の発生以来人工知能(AI)への投資を維持しており、...
グラフは、複雑なシステムを記述およびモデル化するために使用できる一般的な言語です。グラフは、構文情報...
キーボードと帽子を組み合わせたらどうなるでしょうか?冗談はさておき、Google 日本支社のエンジニ...
テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...
モノのインターネットとインダストリー 4.0 の登場以来、マシン ビジョン、人工知能、機械学習、ディ...
1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...