Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。

Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。

「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。

<<:  5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!

>>:  顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ウォルマートのAIを活用したイノベーションの実践経験

ウォルマートの創業者サム・ウォルトンはよく「私たちの人材が違いを生み出す」と言っていましたが、この言...

黄仁訓:AIは5年以内に人間を超える、OpenAIの最初のAIスーパーコンピュータはマスクによって購入された

11月30日、エヌビディアのCEOジェンスン・フアン氏は水曜日に開催されたニューヨーク・タイムズの年...

人工知能シンギュラリティと人類の未来

「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...

...

...

人工知能の70年間で、研究者が最も直面したくない痛い教訓は...

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

テクノロジーはサプライチェーンの未来をどう変えるのか

古代のシルクロードから、今日の AI 主導の超高精度な小売補充需要予測に至るまで、テクノロジーは常に...

50 以上の実用的な機械学習および予測 API (2018 年版)

[51CTO.com クイック翻訳] この記事では、顔認識や画像認識、テキスト分析、自然言語処理 ...

AIGCとアップグレードにより、PC販売は2024年に8%回復する可能性がある

Canalysのアナリスト、ベン・キャディ氏とキーレン・ジェソップ氏は最近、一部の消費者が新世代のP...

AIビッグモデルオープンソースヒーロー!ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

ザッカーバーグ氏は最近また大きなトラブルに巻き込まれた。リチャード・ブルーメンソール議員(プライバシ...

人工知能は製品のサービスとサポートの方法を変える

私は、IoT を活用して現場サービスと顧客サポートの効率性を向上させることを目指す機器メーカーのクラ...

単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。

偉大な科学的成果は試行錯誤だけでは達成できません。たとえば、宇宙計画におけるすべての打ち上げは、空気...

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...