OpenAI の Whisper モデルを使用して音声をテキストに変換する

OpenAI の Whisper モデルを使用して音声をテキストに変換する

翻訳者 |ブガッティ

レビュー | Chonglou

図1. OpenAI Whisperモデルの動作原理図

ますますデジタル化が進む世界では、音声をテキスト変換する必要性がますます高まっています。アクセシビリティ、コンテンツ作成、データ分析、その他の目的かかわらず話し言葉を書き言葉変換することは、効果的な解決策を必要とする問題です。 OpenAIが開発した人工知能モデルWhisper は、まさにそれを実現します。つまり、話し言葉をわかりやすいテキスト変換するのです。

この記事では、 Whisperとは何か、どのように機能するか、そして効果的に使用する方法について説明します現在AIModels.fyi19 位にランクされているWhisper はさまざまなアプリケーションで大きな役割を果たすことができる強力なツールですこの記事では、 AIModels.fyiを使用して独自のニーズに合った類似モデルを見つける方法についても説明します

ウィスパーモデルの紹介

OpenAI開発したAIモデルWhisper は音声ファイル内の音声をテキストに変換するように設計されていますその用途は、ビデオキャプションの生成からインタビューや会議の文字起こしまで多岐にわたります 200万回以上実行されたWhisper は信頼性が高く人気のあるモデルとして同業他社の中でも際立っています

このモデルは音声入力を受け取り、それをテキストに書き起こし、話し言葉と書き言葉の間のギャップを効果的に埋めます。さらに、多数の言語をサポートしているため、多言語プロジェクト最適なツールなります。モデルの詳細については、詳細ページをご覧ください

Whisperモデルの入力と出力を理解する

Whisperモデルの使用に入る前にモデルの入力と出力を理解することが重要です

入力

Whisperの主な入力はオーディオ ファイルであり、これを処理してテキストに変換します。追加の入力パラメータを使用すると、モデルの動作をカスタマイズできます

  • モデル文字列: Whisperモデルのさまざまなバージョンから選択できます
  • 転写文字列:プレーンテキスト srt vttなどのオプションを使用して転写の形式を選択できます
  • translate boolean :テキストを英語に翻訳できるようにします
  • 言語文字列:オーディオで話されている言語を指定できます
  • 温度数値:このパラメータはモデル出力の創造性を制御します
  • suppress_tokens 文字列:モデルが出力したくないトークンIDのリスト

出力

モデルはいくつかのフィールドを持つ転記されたテキストを含むオブジェクトを出力します

  • セグメント:転写コンテンツは複数のセグメントに分割されます
  • srt_file & txt_file :転写結果はこれらの形式で利用できます。
  • 翻訳:翻訳オプションが有効になっている場合は、翻訳されたテキストがここに表示されます。
  • 転写:これは最終的に転写されたテキストです。
  • detected_language :モデルによって検出された言語。

モデルの入力と出力を理解したので、それ使用して転写の問題を解決する方法を見てみましょう

Whisperモデルを使用して音声テキスト書き起こす

実践的なプログラマーであっても、よりインタラクティブなプレゼンテーション アプローチを好む場合でも Whisperモデルの使用はシンプル簡単です。

ステップ1 本人確認

まず、 Replicat e Node.jsクライアントソフトウェアをインストールし、API トークンを使用して認証する必要があります。これにより、Whisper モデルとプログラムで対話できるようになります。


 npm install replicate export REPLICATE_API_TOKEN=your_api_token_here

ステップ2: モデルを実行する

認証されると、オーディオ入力を使用してモデルを実行できます。

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7", { input: { audio: "your_audio_here" } }

予測が完了したときに呼び出される Webhook を設定することもできます。これは非同期処理に役立ちます。

 const prediction = await replicate.predictions.create({ version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7", input: { audio: "your_audio_here" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

さらに詳しく: AIMモデルを使用した他の音声テキスト変換モデルを見つけます

Whisper を他のモデルと比較したり、同じ問題領域内の他のモデルを調べたりする必要があるかもしれません。どうすれば見つけられますか? AIModels.fyi はさまざまなプラットフォームAI モデル完全な検索とフィルタリングが可能なデータベース備えておりこの目的最適なリソースです

ステップ1 : AIModels.fyiにアクセスする

AIModels .fyiアクセスして類似モデルの検索を開始します

ステップ2 :検索バーを使用する

ページ上部の検索バーを使用して 「音声テキスト変換」や「文字起こし」などの特定のキーワードを含むモデルを検索します関連モデルのリストが表示されます。

ステップ3 :結果をフィルタリングする

検索バーを使用した後、ページの左側にあるフィルターを使用して結果をさらに絞り込むことができます。モデルは、のようなさまざまな基準に基づいてフィルタリングおよび検索できます

  • プラットフォーム: OpenAIや Hugging Faceなど、モデルホストするために使用されるプラットフォーム
  • 作成者:モデルの作成者または組織。
  • コスト:モデルを使用するための価格帯
  • 説明:モデルの機能と目的。

ステップ4 : モデルの詳細を調べる

興味のあるモデルが見つかったら、それをクリックして詳細を表示します入力と出力、パフォーマンス メトリック、ユース ケースなどモデルの特性の詳細な説明を図示して確認できます

結論

経験豊富な開発者であっても、 AI分野初心者であっても、OpenAI の Whisper は、音声をテキスト変換するための使いやすく強力なツールです AIModels .fyiなどのリソースと組み合わせることで、独自のプロジェクトニーズに最適なモデルを見つけることがこれまで以上に簡単になります。今すぐ探索を始めましょう

原題: OpenAI の Whisper モデルを使用して音声をテキストに変換する、著者: Mike Young


<<: 

>>:  人工知能の世界を探る: インテリジェントな質問応答システムの構築 - 環境

ブログ    

推薦する

再サンプリングからデータ合成まで: 機械学習における不均衡な分類問題にどのように対処するか?

機械学習とデータサイエンスを少しでも勉強したことがあるなら、クラス分布の不均衡に遭遇したことがあるは...

10行のPythonコードで画像認識

[[226981]]ディープラーニングアルゴリズムの台頭と普及により、人工知能の分野、特にコンピュー...

ジェネレーティブAIの力を最大限に引き出す方法

生成 AI により、機械はコンテンツを作成し、人間の行動を模倣し、創造的な仕事に貢献できるようになり...

AIのヒット曲:主人公はプログラマー、作曲家は気を散らされている

米国の著作権法では「人間」という言葉はほとんど使われておらず、この問題を扱った訴訟は歴史上ほとんど起...

サイバーセキュリティにおける人工知能の役割と6つの製品オプション

現代の IT 環境では、サイバー脅威がますます顕著になっています。サイバーセキュリティとその製品にお...

バックエンド開発にとってどれほど恥ずかしいことでしょうか?フロントエンドプログラマーの給与が明らかに

最近、バックエンドで数年間働いてきたプログラマーが、かなり混乱を招く質問をオンラインで提起しました。...

リアルスティールの実写版!山東省の3人組のチームが、最小遅延12ミリ秒の史上最速ボクシングロボットを開発した。

この男性が自分の動きでロボットを操作している様子を注意深く見てください。彼がパンチを繰り出すと、ロボ...

...

脳コンピューター知能はますます熱を帯びており、AIは将来重要な役割を果たす可能性がある

アメリカのSF大作では、脳の記憶を読んだり、脳を通じて他人をコントロールしたりすることがよく行われて...

デジタル経済時代の識別技術の新たな展開

青果市場では、小銭を気にせず、携帯電話をスワイプするだけで支払いができます。駅では、切符を買うために...

...

2024年のGenAIおよびその他の技術への投資の変化

この記事では、GenAI やその他のテクノロジーへの投資が 2024 年までにどのように変化するかに...

Pythonアルゴリズムを使用して取引する方法

投資管理会社でシステム開発エンジニアとして働いていたとき、定量金融で成功するには、数学、プログラミン...

AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

ビッグデータ時代の到来は、ビッグデータの波だけでなく、人工知能の台頭ももたらします。グーグルの人工知...