3D多言語AIレポーターが登場。プレッシャーを感じることなく文章を書いたり翻訳したりできるだけでなく、国際的なスポーツイベントのレポートもできます。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

世界初、3D多言語AIニュースレポーター誕生！

最近、ByteDance AI Labと上海交通大学の研究チームは、AIニュースレポーターXiaomingbotの新しいアップグレード版をリリースしました。 Xiaomingbot は 2016 年に初めて作成され、2017 年に Wu Wenjun 人工知能技術発明賞を受賞しました。（呉文軍賞は、中国最高の知能科学技術賞として知られ、中国の人工知能分野における最高の栄誉を表しています）。

ニュース執筆の基本機能に加えて、最新バージョンのXiaomingbotには3Dアニメーション画像が与えられ、テキストコンテンツと組み合わせて複数の言語でニュース放送タスクを完了できることがわかっています。

[[334739]]

シャオミンボット

3D多機能レポーターXiaomingbot

研究者らによると、Xiaomingbotソフトウェアシステムには、ニュースジェネレーター、翻訳機、多言語リーダー、アバターアニメーションが含まれており、ニュース報道のワークフロー全体を独立して完了できるという。次に、大規模なスポーツイベントのデモ動画を通じて、Xiaomingbot のビジネス機能を見てみましょう。

1つ目はニュース報道の基本的な仕事である「執筆」です。 Xiaomingbot のテキスト生成はゲームの進行とほぼ同期していることがわかります。ゲーム中にゴールやその他の特別なマッチポイントが発生すると、Xiaoming は自動的にその情報をキャプチャし、対応するテキストコンテンツに変換します。写真の通り:

左側はゲームビデオ、右側は生成されたニュースです

アスリートのチャドリがゴールを決めてポイントを獲得すると、Xiaomingbot はリアルタイムでテキストを生成します。

90分、ナセル・シャドリがベルギーに1点をもたらすチャンスをつかみ、スコアは3-2となった。

プロの現場解説者。さらに、Xiaomingbot はデータに基づいてゲームの結果を推測し、対応する写真を添付することもできます。

ベルギーは日本に3対2で勝利した

2018年ワールドカップ第16ラウンドで、ベルギーと日本が7月3日午前2時に対戦した。ベルギーのヤン・フェルトンゲン、ナセル・シャドリ、マルアン・フェライニ・バッキオイがそれぞれゴールを決め、1ポイントを獲得した。日本の原口元気と乾貴士がそれぞれゴールを決め、最終的にベルギーが日本を3対2で破った。

研究者によると、Xiaomingbot はゲームのスコア、株価の変動、収益の増減などのデータに非常に敏感なので、スポーツイベントや金融ニュースについて書くことが非常に得意です。

2つ目は多言語翻訳機能です。 Xiongmingbot は同じニュースの複数の言語バージョンを生成し、世界中のユーザーにニュースレポートを提供できます。

ポルトガル語、中国語、日本語

最も重要なのは、上記のさまざまな言語のテキストコンテンツを 3D アニメーションを通じてリアルタイムで放送できることです。頭と唇がテキストの内容と同期して動くことがわかり、全体的な効果はリアルで自然です。

現在、小明botはメディアプラットフォーム上で「小明世界を見る」、「小明金融」など複数のソーシャルアカウントを開設しており、60万件以上の記事を執筆し、15万人以上のフォロワーを獲得している。その報道の専門性は今でも広く認められているようだ。

背後にある実装原則

「Xiaomingbot: 多言語対応ロボットニュースレポーター」と題された論文が公開された。論文の完全なワークフロー図から、Xiaomingbot はまずゲーム動画に基づいて完全なテキスト情報を出力し、これに基づいて最も重要で関連性の高いコンテンツを抽出してテキスト要約を作成し、次にテキストコンテンツを機械翻訳、テキスト音声変換、アバターアニメーションの 3 つのモジュールに送信し、最後に対応する音声と視覚効果を提示する必要があることがわかります。

完全な例

Xiongmingbot のシステムアーキテクチャの観点から見ると、上記の機能は主に 4 つのモジュールを通じて実装されています。次に、上記の各段階に関係するモデルとその動作について簡単に説明します。

Xiaomingbot システムアーキテクチャ

ニュース生成: データからテキストへの変換とテキスト要約の 2 つのステップで構成されます。

先ほど、Xiongmingbot はデータの監視とクロールに優れていると述べました。データをテキストに変換するために、この論文ではtable2text技術に基づくテンプレート変換方式を採用しています。

研究者たちは、ゲームのステージや種類など、複数の要素に基づいてさまざまな種類のテンプレートを設計しました。これらのテンプレートには通常、時間、スコア、ファウル、選手、チーム名、その他多くの指標が含まれます。 Xiaomingbot システムは、テキストの要件に応じて対応するテンプレートタイプを選択し、さらにそれをテキストに変換します。

データ部分に加えて、Xiongmingbot はテキスト抽出と文章に基づく要約という 2 つのタスクも完了する必要があります。ここで、研究者は 2 つの集約モデルをトレーニングしました。 1 つは、BERT に基づく通常のテキスト要約モデルです。トレーニングには、人間が書いた要約を含む 50,000 件の中国語文書を含む TTNews データセットが使用されます。もうひとつは、サッカーなどのスポーツ競技向けにトレーニングされた特別なモデルです。このモデルは、サッカーの試合の構造を考慮し、ファウルなどの重要なイベントを異なる方法で処理し、試合レポートをより適切に要約することができます。

ニュース翻訳: Transformer アーキテクチャに基づく機械モデルを使用したリアルタイム翻訳。

ここで、研究者らは複数のニューラル機械翻訳モデルを事前トレーニングし、最先端のTransformer Big ModelをNMT（ニューラル機械翻訳システム）コンポーネントとして採用しました。

さらに、翻訳を高速化するために、CUDA（Compute Unified Device Architecture）をベースにしたNMTシステムが作成されました。CUDAは、NVIDIAが立ち上げた汎用並列コンピューティングアーキテクチャであり、Transformerアーキテクチャの推論速度よりも10倍高速です。

このモデルが使用するトレーニングデータセットも非常に大規模です。中国語 - 英語変換データセットには 1 億の並列文ペアが含まれ、中国語 - 日本語データセットには 6,000 万の並列文ペアが含まれます。

ニュースの読み上げ: テキスト読み上げ (TTS) 合成モデルを使用して、言語間の出力を実現します。

研究者が使用する TTS 合成モデルでは、トレーニングデータとして 1 つの言語の少量の音声のみが必要です。たとえば、中国語の言語処理には、数百人の話者の音声のみが含まれます。さらに、この TTS モデルには、言語間の音声複製メカニズムがあり、以前提供したものとまったく同じ音声で異なる言語でのニュース放送を実装できるため、簡単に理解できます。

アバターアニメーション: 唇の動きを音声出力と同期させ、3Dレンダリングを完了します。

Xiaomingbot は、TTS モデルの出力オーディオと同期した唇の動きを生成し、髪の毛や衣服などをレンダリングできます。唇の動きについては、研究者らはシーケンスツーシーケンスモデル（Seq2Seq）を使用しました。モデルの入力シーケンスは、TTS モデルから抽出された音素と対応する継続時間であり、出力シーケンスは唇の重み (唇の動きから生じるアニメーションパラメーター) です。これらの異なる唇の重さにより、Xiaomingbot はさまざまな表情を作ることができます。目、髪、肌のレンダリングには、3D レンダリングエンジン Unity とさまざまなアルゴリズムが使用されました。

最後に、研究者らは、Xiaomingbot システムは現時点では多機能 AI システムを構築するための最初の試みに過ぎないと述べた。テキスト生成、音声、表現などには依然として大きな制限があり、改善の余地があります。今後は、スケーラブルな作業領域と会話型インタラクション機能という 2 つの方向で改善とアップグレードを行っていきます。

最後に、Xiaomingbot のスポーツイベントレポートの完全なビデオを以下に示します。

<<: CNN、RNN、GAN とは何ですか?ついに誰かが明らかにした

>>: Python による階層的クラスター分析