Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。

Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。

「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。

<<:  5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!

>>:  顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

ブログ    
ブログ    

推薦する

企業で AI ストレージを導入する際に留意すべき 7 つのポイント

企業における人工知能新しい人工知能 (AI) と機械学習 (ML) のワークロードにより、エンタープ...

小売業における人工知能

[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...

ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

最近、GPT モデルは NLP の分野で大きな成功を収めています。 GPT モデルは、まず大規模なデ...

深セン大学教授が顔検出ライブラリをオープンソース化、顔検出速度は最大1500FPS以上

先週、深セン大学コンピュータサイエンスおよびソフトウェア工学部の Yu Shiqi 教授が、最大 1...

GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

2016年3月、人間と機械の戦い「イ・セドル対AlphaGo」は、人工知能の力を世界に知らしめた。...

「中国製チップ」の20年と新たな時代

[[285892]] 「自信を持った国と民族だけが、未来への道を着実に前進することができます。木の高...

...

フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...

ガートナー: 2023 年の機械学習の主要トレンド

今週オーストラリアのシドニーで開催されたガートナー・データ&アナリティクス・サミットで、この調査・ア...

...

...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

物流における人工知能の重要な役割

今日のグローバル社会は絶えず変化しています。 この文脈において、人工知能は物流業務システムの方向性を...

AIの次の目的地:洗練された生活シナリオのインテリジェント時代

[[348783]] Canvaからの画像テクノロジーは生活の中でどのような役割を果たしているのでし...

浙江大学のロボット魚がネイチャー誌に登場:マリアナ海溝の奥深くまで到達、画期的な進歩

人類は初めて、水深1万メートルでのソフトロボットの深海制御と深海自律遊泳実験を達成し、ロボット工学分...