Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。

Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。

「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。

<<:  5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!

>>:  顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...

AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェント...

トニー先生に別れを告げる:海外の専門家が流行中に独自の美容ロボットを製作

パンデミック中にどうやって髪を切っていますか?どうやって見た目を維持していますか?多くの人がオンライ...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

CES 2024 優れた AI 製品

毎年開催されるコンシューマー・エレクトロニクス・ショー(CES)はテクノロジーの展示会として知られて...

需要が高まる最高AI責任者

出版社ファウンドリーの新しい調査によると、企業は生産性とイノベーションを高めるために人工知能に注目し...

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか?

[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...

...

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

人間の認知においては、汎用人工知能(AGI)を人工知能の究極の形、およびその開発の究極の目標として設...

人工知能はインターネットなしでも動作できるようになる

エッジコンピューティングの進歩とますます高性能化するチップにより、人工知能(AI)は広域ネットワーク...

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上...