これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWeChatチャットの音声テキスト変換機能など、幅広い用途があります。

これまで、音声テキスト変換技術はプロプライエタリなソフトウェアとライブラリが主流で、オープンソースの代替手段は存在しなかったか、非常に限られていました。しかし、この状況は変わりました。今日では、多くのオープンソースの音声テキスト変換ツールとライブラリを使用できます。今日は、5 つの便利なオープンソースの音声認識ライブラリを紹介します。

1. DeepSpeechプロジェクト

[[285482]]

これは Mozilla によって開発された、TensorFlow 機械学習フレームワークを非機能化に使用した、100% 無料のオープンソースの音声テキスト変換ライブラリです。

これを使用して、音声テキスト変換を強化するための独自のトレーニング モデルを構築したり、ニーズに応じて他の言語を導入したり、TensorFlow 上の他の機械学習プロジェクトに簡単に統合したりすることもできます。唯一残念なのは、このプロジェクトが現在デフォルトで英語のみをサポートしていることです。

また、Python (3.6) などの複数の言語もサポートしています。実行は非常に簡単です:

  1. pip3 ディープスピーチをインストール
  2. deepspeech --model model/output_graph.pbmm --alphabet model/alphabet.txt --lm model/lm.binary --trie model/trie --audio my_audio_file.wav

npm を使用してインストールすることもできます:

  1. npm インストール deepspeech

最近、DeepSpeech は Github Trending の週間リストにも掲載されました。

Githubアドレス: https://github.com/mozilla/DeepSpeech

2. カルディ

Kaldi は、Apache Public License に従って C++ で記述され、Windows、macOS、Linux をサポートするオープンソースの音声認識ソフトウェアであり、2009 年にリリースされました。

他の音声認識ソフトウェアと比較すると、Kaldi の主な特徴は拡張性とモジュール性です。コミュニティは多数のサードパーティ モジュールを提供しています。Kaldi はディープ ニューラル ネットワークもサポートしており、Web サイトで完全な使用方法のドキュメントを提供しています。

コードは主に C++ で書かれていますが、Bash および Python スクリプトでラップされています。したがって、基本的な音声テキスト変換機能を実装したいだけであれば、Python または Bash を使用して簡単に行うことができます。

プロジェクトのホームページ: http://kaldi-asr.org/

3. ジュリアス

これはおそらく、これまでに作成された音声認識ソフトウェアの中で最も古いものの 1 つです。京都大学が 1991 年に開発し、2005 年に独立したプロジェクト チームに引き渡しました。

Julius の主な特徴としては、リアルタイム STT の実行機能、低メモリ使用量 (20,000 語で 64 MB 未満)、ベスト単​​語 N ベスト単語と単語グラフの出力機能、サーバーユニットとしての実行機能などが挙げられます。このソフトウェアは主に学術機関や研究機関向けに設計されています。これは C で書かれており、Linux、Windows、macOS、さらには Android (スマートフォン) でも動作します。

現在、英語と日本語のみをサポートしています。ソフトウェアは Linux ディストリビューションのリポジトリに簡単にインストールできます。パッケージ マネージャーで julius パッケージを検索するだけです。

プロジェクトのホームページ: https://github.com/julius-speech/julius

4. Wav2Letter++

Wav2Letter++ は、Facebook の AI 研究チームによって今年リリースされたオープンソースの音声認識ソフトウェアです。コードは BSD ライセンスに基づいてリリースされています。 Facebook は、自社のウェアハウスを「現在利用できる最も高速かつ最先端の音声認識システム」と表現しており、このツールが構築されているコンセプトにより、デフォルトでパフォーマンスが最適化されています。Wav2Letter++ は、Facebook の最新の機械学習ライブラリでもある FlashLight をベースに構築されています。

Wav2Letter++ を使用するには、まずアルゴリズムをトレーニングするために、必要な言語のトレーニング モデルを構築する必要があります。どの言語 (英語を含む) にも事前トレーニング済みのモデルはありません。これは、機械学習駆動型のテキストから音声への変換ツールにすぎません。C++ で記述されているため、Wav2Letter++ という名前が付けられています。

プロジェクトのホームページ: https://github.com/facebookresearch/wav2letter

5. ディープスピーチ2

Baidu の研究者たちは、独自の音声テキスト変換エンジン DeepSpeech2 の開発にも取り組んでいます。これは、「PaddlePaddle」ディープラーニング フレームワークを使用して、英語と中国語の音声をテキストに変換するエンドツーエンドのオープン ソース エンジンです。このプロジェクトは BSD ライセンスの下でリリースされています。

エンジンは、任意のモデルと任意の言語でトレーニングできます。モデルはコードと一緒に配布されません。他のソフトウェアと同様に、自分で構築する必要があります。 DeepSpeech2 のソース コードは Python で記述されているため、Python を使用している場合はすぐに使い始めることができます。

プロジェクトアドレス: https://github.com/PaddlePaddle/DeepSpeech

音声認識の分野では、Google や IBM などのプロプライエタリ ソフトウェア大手が依然として大きなシェアを占めています (両社は、この目的のために独自のクローズド ソースの商用サービスを提供しています) が、オープン ソースの代替手段も有望です。これら 5 つのオープン ソース音声認識エンジンを使用すると、独自のアプリケーションを構築できます。これらのエンジンを使用したことがありますか?

<<:  国内人材レポート:機械学習エンジニアの平均給与は3万元近くで、トップクラスのエンジニアは年間100万元を稼ぐこともできる

>>:  MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

ブログ    
ブログ    

推薦する

...

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...

...

Beike Renting: 業界に力を与え、レンタル部門の基準の再構築を推進

[原文は51CTO.comより] 国家の不動産市場マクロコントロール政策の導入以来、住宅購入の敷居は...

AIで意思決定を自動化するのは超簡単ですか?

人工知能とは何を意味するのでしょうか?人工知能はコンピュータサイエンスの範囲を指し、AI とは、設計...

キャッシュに関して最も懸念される問題は何ですか?種類は何ですか?リサイクル戦略とアルゴリズム?

[[342437]]著者は、正確なタイミング タスクと遅延キュー処理機能を備えた、高同時実行シナリ...

ハッカーの天敵! AI はサイバー攻撃の防御にどのように役立つのでしょうか?

最近、ハッカーがサイバー攻撃を仕掛けてデータ漏洩を引き起こしているというニュースをよく耳にすると思い...

新キングクロード3実戦テスト!すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

OpenAI の無敵という神話は崩れ去った。 Claude 3 (中国語対応)が一夜にして発売され...

初のAI絵画がオークションで予想を大きく上回る43万2000ドルで落札

英国放送協会が10月25日に報じたところによると、人工知能によって制作された芸術作品がオークションで...

GACの第2世代Trumpchi GS4が発売され、WeChat車載バージョンは安全で効率的な車内通信を実現

11月15日、WeChat車載バージョンを搭載したGACの第2世代Trumpchi GS4が発売され...

研究によると、AIシステムは大量のエネルギーを消費する

同研究機関はAIインフラの需要について徹底的な調査を実施し、AIシステムに必要なエネルギーは本格導入...

機械学習技術におけるアンサンブル学習とは何ですか?

[51CTO.com クイック翻訳] アンサンブル学習は強力な機械学習技術の 1 つです。アンサン...

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論...

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...

...