AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

一気に15言語で22の1位を獲得！

いや、もっとすごいのは、彼は40以上の言語を読んで理解できるということです。これはまさに言語の世界の限界を打ち破ったことです。

iFLYTEK は、この賞を 2 度受賞し、多言語対応におけるグランドスラムを達成しました。

[[436730]]

まず、世界的に権威のある多言語理解評価XTREMEにおいて、ハルビン工業大学iFLYTEK合同実験室（HFL）チームが総平均スコア84.1点で1位となり、世界新記録を樹立した。

その後、国際低リソース多言語音声認識コンテストOpenASRにおいて、iFLYTEK-USTC合同チームは言語制限のある全15トラックと言語制限のない全7トラックに参加し、すべてで1位を獲得しました。

これらすべては、iFlytek の根深い技術と、当初の目標を一貫して堅持してきたおかげであり、これにより iFlytek は多言語音声と言語の分野で優位に立つことができます。

最初の裏側

では、現在、機械はどの程度まで複数の言語を理解できるのでしょうか?

たとえば、英語、ドイツ語、スペイン語が混ざった次の文を考えてみましょう。

水を沸騰させて蒸気を供給するために必要な熱は、さまざまなソースから得ることができますが、最も一般的なのは、密閉された空間（燃焼室、火室などと呼ばれる）内で適切な空気を供給しながら可燃性物質を燃焼させることです。多くの場合、燃焼プロセスは、原子、エンジン、太陽エネルギー、または自動車や産業プロセスの燃焼エンジンで実行されます。ジューシーモデルまたは蒸気モーターの場合、カロリーは電気計算機として使用されます。

翻訳:

水を沸騰させて蒸気を生成するために必要な熱はさまざまな熱源から得られますが、最も一般的なのは、密閉された空間（燃焼室または火室とも呼ばれる）内で可燃性物質を燃焼させるために適切な量の空気を供給することです。場合によっては、熱源は原子炉、地熱エネルギー、太陽エネルギー、または内燃機関や工業プロセスからの排気ガスです。模型やおもちゃの蒸気機関の場合、電気加熱素子も熱源として使用できます。

多言語自然言語理解に関しては、Google が実施している XTREME (Cross-Lingual Transfer Evaluation of Multilingual Encoders) 評価が非常に代表的です。

出典: http://arxiv.org/pdf/2003.11080.pdf

これまでの単一言語の自然言語理解評価タスクとは異なり、XTREME の各タスクは複数の言語をカバーしており、その多くはドラヴィダ語族のタミル語、テルグ語、マラヤーラム語、アフリカのニジェール・コンゴ語族のスワヒリ語やヨルバ語など、関連する研究が不足しています。

評価結果は、モデルの複数言語理解能力の平均的な指標であるため、システムモデルの多言語理解および言語間転送機能に対する要件が大幅に増加します。

具体的には、XTREME は 12 の言語ファミリーから 40 の言語をカバーしており、文法や意味論のさまざまなレベルについて推論するための 4 つのカテゴリの 9 つのタスクが含まれています。

文対分類: XNLI、PAWS-X (自然言語推論)
シーケンス注釈: UDPOS (品詞タグ付け)、PANX (固有表現認識)
読解力：XQuAD、MLQA、TyDiQA（断片抽出読解力）
文章検索: BUCC、Tatoeba（言語間テキスト検索）

今年 9 月、Microsoft は最新の Turing 汎用言語表現モデル (T-ULRv5) を使用して、XTREME リストの合計スコアと 4 つの個別タスクの SOTA を更新することに成功しました。

この最新の成果を達成するために、Microsoft は、並列テキストコーパスを含む大規模な多言語データセットでモデルをトレーニングし、最新の XLM-E 研究と XTune の微調整テクノロジを組み合わせました。

結果として得られた T-ULRv5 XL には、48 個のトランスフォーマーレイヤー、1536 個の隠れ次元サイズ、24 個のアテンションヘッド、500,000 個の多言語語彙、合計 22 億個のパラメーターがあり、94 種類の言語を処理できます。

しかし、先月の最新ランキングでは、ハルビン工業大学iFLYTEK共同実験室（HFL）チームが総平均スコア84.1点で再び記録を更新した。

HFL の CoFe モデルは、4 つのタスクのうち 3 つで Microsoft の T-ULRv5 XL モデルの記録を上回り、1 つのタスクでは同記録を達成しました。

これを受けて、ハルビン工業大学iFLYTEK共同研究室は、モデルに多言語理解と言語間転送機能を持たせるための3つの技術を提案した。

まず、モデルが異なる言語で意味の類似性を学習できるように、独自に開発した言語間比較学習テクノロジーを追加しました。

CoFe は、複数の言語の同義文のペアを正のサンプルとして、混同されやすい反意語のペアを難易度の高い負のサンプルとして使用し、対照学習と分類タスクをトレーニング目標として、モデルが異なる言語のテキストの背後にある意味を比較して学習できるようにします。

上記の例では、ソース言語（中国語）の文A「みんなが彼を見ていた」に対して、英語の同義語文B「みんなの目が彼に向けられた」を正のサンプルとして使用し、フランス語の反意語文C「Il n'a pas attiré l'attention」を難易度の高い負のサンプルとして使用し、その他の文を通常の負のサンプルとして使用してモデルをトレーニングし、モデルが文の意味の言語間理解を学習できるようにするという目的を達成します。

第二に、自己教師学習と知識移転のための知識蒸留技術の使用により、さまざまな言語でのモデルのパフォーマンスの安定性がさらに向上します。

知識蒸留技術は、モデルの圧縮と加速に使用されるだけでなく、モデルのパフォーマンスと安定性の向上にも非常に役立ちます。したがって、CoFe は複数の観点からこれを活用します。

自己教師ありトレーニングを通じて、モデルを自己蒸留して安定性を向上させることができます。
多言語-単一言語の多対一の知識転送。諺にもあるように、3人いれば必ず先生がいます。多言語の学生モデルが複数の単一言語の教師モデルから知識を学び、全員の長所から学ぶようにします。
多言語マルチモデルの蒸留。複数の多言語教師を 1 つのモデルにまとめると、教師の指導シグナルが向上します。

第三に、きめ細かい言語的特徴を組み込むことで、モデルは不十分なトレーニングの困難を克服し、リソースの少ない言語の不十分な学習の問題を解決し、さまざまな言語の形態的特徴に適応できるようになります。

たとえば、特殊な表記体系を持つ一部の低リソース言語の場合、CoFe は追加の単語分割システムを導入し、少量のデータの微調整でモデルがより迅速に言語を理解する能力を習得できるようにします。

これにより、マシンは少量の他の言語コーパスとの「類推」を通じて言語を学習できるようになり、コーパスや音声注釈の収集などの作業が大幅に削減されます。

少数言語の音声技術に重点を置いた別の OpenASR コンテストでは、iFLYTEK-USTC 国立音声言語情報処理工学研究所 (USTC-NELSLIP) の共同チームが、言語制限のある 15 トラックすべてと言語制限のない 7 トラックに参加し、すべてで 1 位を獲得しました。

マイナー言語の音声データを入手する難しさは、音声データの量だけでなく、コーパスの豊富さ、発音辞書のサイズ、注釈の正確さにも反映されます。多くの低リソース言語では、数万時間の音声データはもちろん、100 時間のラベル付きデータを取得することさえ困難です。

この目的のため、世界の音声学術分野で権威ある組織である米国国立標準技術研究所（NIST）は、2020年末にOpenASR（Open Automatic Speech Recognition）コンペティションを開催しました。

今年は言語数が15に増え、制約条件、制約プラス、制約なし条件をカバーしています。

さらに、コンテストのさまざまな言語のデータは主に電話チャネルから取得されており、非常に明白な話し言葉の特徴と非常に自由な会話スタイルを備えているため、音声認識もさらに困難になっています。

言語	言語	言語
広東語	パシュトゥー語	タガログ語
グアラニー語	ソマリア	グルジア語
ジャワ語	タミル語	カザフ語
クルド	ベトナム語	アムハラ語
モンゴル語	スワヒリ語	ペルシャ語

このコンテストでは、チームは音声とテキストの統合空間表現に基づく半教師あり音声認識フレームワーク (統合空間表現半教師あり ASR、USRS-ASR) を提案しました。この優れた結果は、アルゴリズムの優れた一般化可能性も証明しました。

制限トラックの15言語の結果

制限付きトラックでは、各言語の音声データが 10 時間しかないため、少量のテキストデータを使用し、教師なし手法を活用して音声トレーニングデータの多様性を高めることが重要です。

チームは、Flow-TTS音声合成を使用してトレーニングデータを拡張し、音声属性分離技術を使用して合成音声の多様性を確保しました。

結果は、上記の教師なしデータ拡張スキームの使用により、低リソースの音声認識タスクのパフォーマンスが安定して大幅に向上できることを示しています。

非制限コース7言語の結果

無制限のトラックでは、公開音声データを使用できるものの、データの総量は依然として数百時間程度に過ぎず、音声データとテキストデータの大きさの差は非常に顕著であり、エンドツーエンドの認識フレームワークではそれがさらに顕著になります。

少量の音声データと大量のテキストデータをエンドツーエンドの統合フレームワークで最大限に活用するために、チームは音声とテキストの統合された空間表現に基づく半教師あり音声認識フレームワーク USRS-ASR を提案しました。

2 つの目標は、テキストマスク言語モデルタスクと合成データ音声認識です。2 つのタスクは、大量の教師なしテキストを最大限に活用できるように共同でトレーニングされます。
共有言語デコードモジュールは、音声とテキストの潜在的表現空間の統合を実現し、リソースの少ない言語のデータの希薄性の問題を大幅に軽減します。

22年間、堂々と立ち続ける

iFLYTEK は、機械が聞く、話す、理解する、考えることを可能にするという目標に 22 年間取り組んできました。

一度に15の言語で22の1位を獲得し、機械が40の言語を理解できるようにしたことは、人工知能の分野におけるiFlytekの比類のない追求と粘り強さを反映した大きな成果です。

では、なぜ iFLYTEK がこの役割を引き受けたのでしょうか?

人工知能の開発は、もはやAIを1つのスキルで完璧に訓練する方法に限定されず、AIをより賢くする方法、つまり汎用的な人工知能に到達することに限られています。

現在、人間とコンピュータの相互作用が一般的な傾向となっています。あらゆるものがつながるにつれて、音声は人間とコンピュータのインタラクションの重要な入り口になります。音声入力、音声検索、音声インタラクションなどのテクノロジーは、携帯電話、自動車、おもちゃなどのスマート製品の標準機能になっています。

統計によると、感染症流行下でも、わが国の電子機器と自動車の総輸出額は2020年に3,000億米ドルを超えました。これらの輸出されたスマートデバイスには、多言語技術に対する強い需要があります。

また、「一帯一路」建設は言語コミュニケーションに依存しており、多言語翻訳技術の価値が強調されている。

近年、多言語音声言語技術は国家安全保障の信頼などの主要な分野に関わっており、Nuance や Google などのテクノロジー大手が導入を競う重要な技術方向となっています。

また、国際情勢は不確実で技術競争も熾烈であるため、国内の自主研究開発の問題を解決し、多言語技術のボトルネックを打破することが急務となっている。

このような状況において、iFLYTEK はこの重要な任務を引き受け、多言語技術の技術的問題を解決することを期待して、大規模な多言語音声言語技術の研究開発に多大なエネルギーを注ぎました。

過去 1 年間、iFLYTEK は主要言語で継続的に反復と進化を続け、音声認識、音声合成、画像およびテキスト認識、機械翻訳において一連の新たな進歩を遂げてきました。

たとえば、24 言語での合成自然さの MOS スコアは 4.0 を超え、35 言語でのディクテーションシナリオでの音声認識精度は 90% を超え、18 言語での文書写真撮影シナリオでの精度は 90% を超え、36 言語での音声シナリオでの手動採点忠実度は 4.0 を超えています。

最先端の多言語音声言語技術は、iFLYTEK のインテリジェントハードウェア製品の革新と応用を強力にサポートしています。

多言語翻訳を例に挙げてみましょう。2016年に発売されたiFlytek翻訳機は、AI翻訳機という新たなカテゴリーを生み出しました。4世代が発売され、世界中の約200の国と地域をカバーしています。2019年には5億人以上に翻訳サービスを提供しました。

今年5月には、正確かつリアルタイムな翻訳を実現し、多くの言語オプションを備えたデュアルスクリーン翻訳機が発売されました。

中国語と外国語間の翻訳が60件もあり、中国語5方言と英語間の翻訳、2つの難解な民族言語（チベット語とウイグル語）と北京語間の翻訳もあります。

ユーザーが話すと同時に、相手側が翻訳します。押して話して、放すだけで翻訳できます。0.5 秒の高速応答時間を実現できます。

さらに、iFlytek のスマートボイスレコーダーは、10 の言語での音声の書き起こしと分離もサポートします。

SR302を例に挙げると、広東語、重慶語、貴州語など12方言の文字起こしをサポートしているだけでなく、英語、日本語、フランス語など10の主要言語の文字起こしも可能です。

多言語サービスに関しては、iFLYTEK の同時通訳システムはすでに 9 つの言語でのリアルタイムの文字起こしと画面上の翻訳字幕をサポートしています。

先日、中国駐欧州連合代表部と欧州委員会農業総局が共同で開催した中国・EU地理的表示製品プロモーションビデオ交流会議において、iFlytekはプロセス全体を通じて転写技術サービスを提供し、その優れた強みを実証しました。

現在、iFLYTEKの多言語技術とアプリケーションは、国家指導者やソーシャル業界からも広く認められています。

また、北京2022冬季オリンピック・パラリンピックの公式自動音声変換・翻訳の独占サプライヤーとなり、人類史上初の情報バリアフリーオリンピックの実現に貢献しています。

その過程で、iFlytek が音声合成、音声認識、機械読解などの多くの国際的なコア技術コンテストで優勝し、人工知能開発の歴史に多くのマイルストーンを打ち立てることができたのは、独自の技術に対するたゆまぬ努力のおかげです。

iFLYTEKの劉清鋒会長は、人工知能の発展は垂直と水平の両方でなければならないと述べた。

現在、iFlytekは「天に届き、地に立つ」というコンセプトを実践し続けています。未来にはまだ長い道のりが残っており、さらに高い山が待ち受けています。

<<: デジタルパフォーマンスの向上における人工知能の役割

>>: 人工知能: ナノスケールでの細胞構造の発見

ブログ

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

最初の裏側

22年間、堂々と立ち続ける

AIアルゴリズムから製品実装までの8つのギャップを数える

遅い二次アルゴリズムと高速なハッシュマップについての簡単な説明

メタ「世界モデル」が疑問視される：それは 10 年前に存在していた！ルカン：重要なのは構築とトレーニングです

IDC: 人工知能への世界的支出は4年で倍増すると予想

ChatGPTは30億ドルで訴えられました！ OpenAIが相次いで訴訟される

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム？プライバシー漏洩？

人工知能はプログラムを記述するためにコードを「盗む」ほど賢いが、プログラマーは職を失うことを心配する必要はない

AI+教育はさまざまなシナリオに適用されていることをご存知ですか?

推薦する

ロボットが自閉症児の社会スキルの発達を助ける

顔認識のグレーな業界チェーンを解明: あなたの顔情報にはどれくらいの価値があるのでしょうか?

Microsoft が OpenAI のライバルと提携!ミストラルの最新のトップレベルモデルはオープンソースではなくなった

子どもたちにこうした能力を育ててこそ、30年後の人工知能の時代に足場を築くことができるのです。

人工知能の今後の発展方向は何でしょうか?

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

労働者の皆さん、ご注意ください: AI は組立ラインの労働者を置き換えるものではなく、管理者を置き換えるものです。

最も需要の高い AIGC 関連の仕事 11 選

最新の軌道予測の概要：基本的な定義からさまざまな方法と評価まで

Facebookの広告システムの背後にあるペーシングアルゴリズム

機械読解とは何ですか?これは自然言語処理とどのような関係があるのでしょうか?

ナレッジグラフをビッグモデルの仲間にしよう

2021年の3つの主要なAIトレンド：IoT、データ駆動型の意思決定、サイバーセキュリティ

携帯電話の通話は安全ではない、GSM暗号化アルゴリズムが破られた