Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンドモデルです」とブログ投稿には書かれている。

Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成（TTS）の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。

「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラルボコーダーとスピーカーエンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。

<<: 5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています！

>>: 顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

ブログ

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

サイズはたったの1MB！超軽量顔認識モデルがGithubで人気

AIカンファレンスは数多くあるが、私たちは違う

デジタルホーム: IoTとAIで家電をもっとスマートに

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

AIとIoT技術を活用したスマートホームの開発

Google Brain、ロボットアームの把持速度を2倍にする並行RLアルゴリズムを提案

推薦する

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AIエージェント、起動！復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

トニー先生に別れを告げる：海外の専門家が流行中に独自の美容ロボットを製作

音声認識システムが裁判にかけられる

CES 2024 優れた AI 製品

需要が高まる最高AI責任者

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか？

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

人工知能はインターネットなしでも動作できるようになる

人工知能の登場で、スマートホームは未来をどのように変えるのでしょうか?

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

史上最も包括的な IT アーキテクトの技術知識マップ 34 選_Tech Stack WeChat 半月刊号 01

人間の脳のシミュレーションプロジェクトは完全に失敗しました。10億ユーロの費用がかかり、10年前には世界中でセンセーションを巻き起こしましたが、今では静かに消滅しています。

MoEトレーニングの効率とパフォーマンスのボトルネックを打破し、Huawei Panguの新しいスパース大規模モデルアーキテクチャLocMoEがリリースされました