Amazon Transcribe について

Amazon Transcribe について

Amazon Transcribe は、開発者がアプリケーションに音声テキスト変換機能を簡単に追加できるようにする自動音声認識 (ASR) サービスです。 Amazon Transcribe API を使用すると、Amazon S3 に保存されている音声ファイルを分析し、サービスから文字起こしされた音声のテキストファイルを返すことができます。

[[241018]]

Amazon Transcribe は、カスタマー サービス コールの文字起こしや、オーディオおよびビデオ コンテンツの字幕生成など、多くの一般的なアプリケーションに使用できます。このサービスでは、WAV や MP3 などの一般的な形式で保存された音声ファイルを書き起こし、各単語にタイムスタンプを添付して、テキストを検索することで元のソース内の音声を簡単に見つけることができます。 Amazon Transcribe は、言語の進化に合わせて継続的に学習し、改善しています。

主な特徴

人間に優しい文字起こし

ほとんどの音声認識システムの出力は、句読点のないテキストのストリームです。 Amazon Transcribe はディープラーニングを使用して句読点や書式設定を自動的に追加し、出力をよりわかりやすくして、さらに編集することなくすぐに使用できるようにします。

カスタム語彙

Amazon Transcribe を使用すると、音声認識語彙を拡張およびカスタマイズできます。基本語彙に新しい単語を追加して、製品名、ドメイン固有の用語、個人名など、ユースケースに固有の非常に正確な文字起こしを生成できます。

タイムスタンプを生成する

Amazon Transcribe は各単語のタイムスタンプを返すため、テキストを検索することで元の録音内の音声を簡単に見つけることができます。

複数の話者を識別する

Amazon Transcribe は話者の抑揚を認識し、それに応じてトランスクリプトを作成します。これにより、電話、会議、テレビ番組など、複数の話者がいる音声を書き起こすために必要な労力を大幅に削減できます。

幅広いユースケースをサポート

Amazon Transcribe は、さまざまな品質のオーディオに対して正確な自動文字起こしを提供するように設計されています。あらゆるビデオ ファイルやオーディオ ファイルのキャプションを生成できるほか、カスタマー サービス通話などの低品質の電話録音を書き起こすこともできます。

チャンネル合成(近日公開予定)

Amazon Transcribe は、音声をより適切に処理するために、各話者の音声を個別のチャネルで録音します。コンタクトセンターは、Amazon Transcribe に単一のオーディオファイルを送信すると、2 つのチャネルを識別して分離し、各チャネルの音声を書き起こし、チャネルラベルを使用して調整された統合された書き起こしを作成するというメリットを得られます。

ユースケース

Amazon Transcribe は、カスタマーサービス、字幕作成、検索、コンプライアンスなど、幅広いユースケースに対応する文字起こしサービスを提供します。

顧客サービスの向上

Amazon Transcribe は、音声入力をテキストに変換することで、音声入力を検索および分析できるテキスト分析アプリケーションの構築に役立ちます。カスタマーコンタクトセンターは、Amazon Transcribe を使用して音声通話を書き起こし、Amazon Comprehend などの他の AWS 製品を使用してデータをマイニングし、会話から意味と意図を抽出することで洞察を得ることができます。

字幕ワークフロー

Amazon Transcribe は、ビデオコンテンツと一緒に表示されるタイムスタンプ付きの字幕を自動的に生成することで、コンテンツ作成者やメディア発行者がリーチとアクセスを拡大するのに役立ちます。

オーディオアーカイブカテゴリー

このサービスを使用すると、オーディオおよびビデオ資産を完全に検索可能なアーカイブに書き起こして、コンプライアンス監視とリスク管理に役立てることができます。お客様は、Amazon Transcribe を使用して音声をテキストに変換し、Amazon ElasticSearch Service を使用して音声/ビデオライブラリのインデックスを作成し、テキストベースの検索を実行できます。

<<:  Amazon Translateについて

>>:  Amazon SageMaker について

ブログ    

推薦する

Google と Facebook はなぜ Docker を使用しないのでしょうか?

[[397388]]画像はPexelsより私は2007年に卒業してすぐにGoogleで3年間働きま...

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

[[410109]]人工知能(AI)研究に関しては、中国が現在最もホットな国です。清華大学人工知能...

ロボットは自分で物事を行うことを学び、緩んだネジを自分で締めることができる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

アップル、シアトルのAI研究開発施設を拡張へ

海外メディアの報道によると、アップルは最近シアトルの人工知能研究開発センターのオフィススペースを拡大...

大躍進!科学者たちは、2050年までに人類は不死になるだろうと発表しました。人工知能のもとでの必然?

2050年には人類は「不死」になる!このトピックを見て驚きましたか?驚きましたか?不死は、すべての...

脳コンピューターインターフェース技術における大きな進歩!麻痺した男性が初めて運動と触覚を取り戻す

[[324403]]図1:2010年に重度の脊髄損傷を負った後、バークハートは運動皮質にマイクロチッ...

...

Golang GC についていくつか誤解がありますが、本当に Java アルゴリズムよりも高度なのでしょうか?

[[273650]]まず最初に強調しておきたいのは、この記事の発端は High Availabil...

中国人民大学高陵人工知能学院のネイチャーサブジャーナル:マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

最近、中国人民大学高陵人工知能学院の陸志武教授、孫昊准教授、温継栄学院長教授が共同責任著者として国際...

推奨される 5 つのオープンソースオンライン機械学習環境

[51CTO.com クイック翻訳] 機械学習は、機械が直接プログラムされることなく学習できるように...

DES、3DES、AES、PBE対称暗号化アルゴリズムの実装と応用

[[272601]] 1. 対称暗号化アルゴリズムの概要対称暗号化アルゴリズムは、成熟した技術を備...

Microsoft Copilot Pro が登場: 個人ユーザーも Word で GPT-4 を使用可能、月額 20 ドル

個人ユーザー向けの Microsoft Copilot メンバーシップ バージョンはここにあります。...

...

ある日、お子さんが「お父さん、機械学習って何?」と尋ねたとします。

お父さん、機械学習って何ですか?答えるのは難しい!髪の毛が抜け始めた頭を掻いた後でも、お父さんはこの...