AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

一気に15言語で22の1位を獲得!

いや、もっとすごいのは、彼は40以上の言語を読んで理解できるということです。これはまさに言語の世界の限界を打ち破ったことです。

iFLYTEK は、この賞を 2 度受賞し、多言語対応におけるグランドスラムを達成しました。

[[436730]]

まず、世界的に権威のある多言語理解評価XTREMEにおいて、ハルビン工業大学iFLYTEK合同実験室(HFL)チームが総平均スコア84.1点で1位となり、世界新記録を樹立した。

その後、国際低リソース多言語音声認識コンテストOpenASRにおいて、iFLYTEK-USTC合同チームは言語制限のある全15トラックと言語制限のない全7トラックに参加し、すべてで1位を獲得しました。

これらすべては、iFlytek の根深い技術と、当初の目標を一貫して堅持してきたおかげであり、これにより iFlytek は多言語音声と言語の分野で優位に立つことができます。

最初の裏側

では、現在、機械はどの程度まで複数の言語を理解できるのでしょうか?

たとえば、英語、ドイツ語、スペイン語が混ざった次の文を考えてみましょう。

水を沸騰させて蒸気を供給するために必要な熱は、さまざまなソースから得ることができますが、最も一般的なのは、密閉された空間(燃焼室、火室などと呼ばれる)内で適切な空気を供給しながら可燃性物質を燃焼させることです。多くの場合、燃焼プロセスは、原子、エンジン、太陽エネルギー、または自動車や産業プロセスの燃焼エンジンで実行されます。ジューシーモデルまたは蒸気モーターの場合、カロリーは電気計算機として使用されます。

翻訳:

水を沸騰させて蒸気を生成するために必要な熱はさまざまな熱源から得られますが、最も一般的なのは、密閉された空間(燃焼室または火室とも呼ばれる)内で可燃性物質を燃焼させるために適切な量の空気を供給することです。場合によっては、熱源は原子炉、地熱エネルギー、太陽エネルギー、または内燃機関や工業プロセスからの排気ガスです。模型やおもちゃの蒸気機関の場合、電気加熱素子も熱源として使用できます。

多言語自然言語理解に関しては、Google が実施している XTREME (Cross-Lingual Transfer Evaluation of Multilingual Encoders) 評価が非常に代表的です。

出典: http://arxiv.org/pdf/2003.11080.pdf

これまでの単一言語の自然言語理解評価タスクとは異なり、XTREME の各タスクは複数の言語をカバーしており、その多くはドラヴィダ語族のタミル語、テルグ語、マラヤーラム語、アフリカのニジェール・コンゴ語族のスワヒリ語やヨルバ語など、関連する研究が不足しています。

評価結果は、モデルの複数言語理解能力の平均的な指標であるため、システム モデルの多言語理解および言語間転送機能に対する要件が大幅に増加します。

具体的には、XTREME は 12 の言語ファミリーから 40 の言語をカバーしており、文法や意味論のさまざまなレベルについて推論するための 4 つのカテゴリの 9 つのタスクが含まれています。

  1. 文対分類: XNLI、PAWS-X (自然言語推論)
  2. シーケンス注釈: UDPOS (品詞タグ付け)、PANX (固有表現認識)
  3. 読解力:XQuAD、MLQA、TyDiQA(断片抽出読解力)
  4. 文章検索: BUCC、Tatoeba(言語間テキスト検索)

今年 9 月、Microsoft は最新の Turing 汎用言語表現モデル (T-ULRv5) を使用して、XTREME リストの合計スコアと 4 つの個別タスクの SOTA を更新することに成功しました。

この最新の成果を達成するために、Microsoft は、並列テキスト コーパスを含む大規模な多言語データセットでモデルをトレーニングし、最新の XLM-E 研究と XTune の微調整テクノロジを組み合わせました。

結果として得られた T-ULRv5 XL には、48 個のトランスフォーマー レイヤー、1536 個の隠れ次元サイズ、24 個のアテンション ヘッド、500,000 個の多言語語彙、合計 22 億個のパラメーターがあり、94 種類の言語を処理できます。

しかし、先月の最新ランキングでは、ハルビン工業大学iFLYTEK共同実験室(HFL)チームが総平均スコア84.1点で再び記録を更新した。

HFL の CoFe モデルは、4 つのタスクのうち 3 つで Microsoft の T-ULRv5 XL モデルの記録を上回り、1 つのタスクでは同記録を達成しました。

これを受けて、ハルビン工業大学iFLYTEK共同研究室は、モデルに多言語理解と言語間転送機能を持たせるための3つの技術を提案した。

まず、モデルが異なる言語で意味の類似性を学習できるように、独自に開発した言語間比較学習テクノロジーを追加しました。

CoFe は、複数の言語の同義文のペアを正のサンプルとして、混同されやすい反意語のペアを難易度の高い負のサンプルとして使用し、対照学習と分類タスクをトレーニング目標として、モデルが異なる言語のテキストの背後にある意味を比較して学習できるようにします。

上記の例では、ソース言語(中国語)の文A「みんなが彼を見ていた」に対して、英語の同義語文B「みんなの目が彼に向けられた」を正のサンプルとして使用し、フランス語の反意語文C「Il n'a pas attiré l'attention」を難易度の高い負のサンプルとして使用し、その他の文を通常の負のサンプルとして使用してモデルをトレーニングし、モデルが文の意味の言語間理解を学習できるようにするという目的を達成します。

第二に、自己教師学習と知識移転のための知識蒸留技術の使用により、さまざまな言語でのモデルのパフォーマンスの安定性がさらに向上します。

知識蒸留技術は、モデルの圧縮と加速に使用されるだけでなく、モデルのパフォーマンスと安定性の向上にも非常に役立ちます。したがって、CoFe は複数の観点からこれを活用します。

  • 自己教師ありトレーニングを通じて、モデルを自己蒸留して安定性を向上させることができます。
  • 多言語-単一言語の多対一の知識転送。諺にもあるように、3人いれば必ず先生がいます。多言語の学生モデルが複数の単一言語の教師モデルから知識を学び、全員の長所から学ぶようにします。
  • 多言語マルチモデルの蒸留。複数の多言語教師を 1 つのモデルにまとめると、教師の指導シグナルが向上します。

第三に、きめ細かい言語的特徴を組み込むことで、モデルは不十分なトレーニングの困難を克服し、リソースの少ない言語の不十分な学習の問題を解決し、さまざまな言語の形態的特徴に適応できるようになります。

たとえば、特殊な表記体系を持つ一部の低リソース言語の場合、CoFe は追加の単語分割システムを導入し、少量のデータの微調整でモデルがより迅速に言語を理解する能力を習得できるようにします。

これにより、マシンは少量の他の言語コーパスとの「類推」を通じて言語を学習できるようになり、コーパスや音声注釈の収集などの作業が大幅に削減されます。

少数言語の音声技術に重点を置いた別の OpenASR コンテストでは、iFLYTEK-USTC 国立音声言語情報処理工学研究所 (USTC-NELSLIP) の共同チームが、言語制限のある 15 トラックすべてと言語制限のない 7 トラックに参加し、すべてで 1 位を獲得しました。

マイナー言語の音声データを入手する難しさは、音声データの量だけでなく、コーパスの豊富さ、発音辞書のサイズ、注釈の正確さにも反映されます。多くの低リソース言語では、数万時間の音声データはもちろん、100 時間のラベル付きデータを取得することさえ困難です。

この目的のため、世界の音声学術分野で権威ある組織である米国国立標準技術研究所(NIST)は、2020年末にOpenASR(Open Automatic Speech Recognition)コンペティションを開催しました。

今年は言語数が15に増え、制約条件、制約プラス、制約なし条件をカバーしています。

さらに、コンテストのさまざまな言語のデータは主に電話チャネルから取得されており、非常に明白な話し言葉の特徴と非常に自由な会話スタイルを備えているため、音声認識もさらに困難になっています。

言語

言語

言語

広東語

パシュトゥー語

タガログ語

グアラニー語

ソマリア

グルジア語

ジャワ語

タミル語

カザフ語

クルド

ベトナム語

アムハラ語

モンゴル語

スワヒリ語

ペルシャ語

このコンテストでは、チームは音声とテキストの統合空間表現に基づく半教師あり音声認識フレームワーク (統合空間表現半教師あり ASR、USRS-ASR) を提案しました。この優れた結果は、アルゴリズムの優れた一般化可能性も証明しました。

制限トラックの15言語の結果

制限付きトラックでは、各言語の音声データが 10 時間しかないため、少量のテキスト データを使用し、教師なし手法を活用して音声トレーニング データの多様性を高めることが重要です。

チームは、Flow-TTS音声合成を使用してトレーニングデータを拡張し、音声属性分離技術を使用して合成音声の多様性を確保しました。

結果は、上記の教師なしデータ拡張スキームの使用により、低リソースの音声認識タスクのパフォーマンスが安定して大幅に向上できることを示しています。

非制限コース7言語の結果

無制限のトラックでは、公開音声データを使用できるものの、データの総量は依然として数百時間程度に過ぎず、音声データとテキストデータの大きさの差は非常に顕著であり、エンドツーエンドの認識フレームワークではそれがさらに顕著になります。

少量の音声データと大量のテキストデータをエンドツーエンドの統合フレームワークで最大限に活用するために、チームは音声とテキストの統合された空間表現に基づく半教師あり音声認識フレームワーク USRS-ASR を提案しました。

  • 2 つの目標は、テキスト マスク言語モデル タスクと合成データ音声認識です。2 つのタスクは、大量の教師なしテキストを最大限に活用できるように共同でトレーニングされます。
  • 共有言語デコードモジュールは、音声とテキストの潜在的表現空間の統合を実現し、リソースの少ない言語のデータの希薄性の問題を大幅に軽減します。

22年間、堂々と立ち続ける

iFLYTEK は、機械が聞く、話す、理解する、考えることを可能にするという目標に 22 年間取り組んできました。

一度に15の言語で22の1位を獲得し、機械が40の言語を理解できるようにしたことは、人工知能の分野におけるiFlytekの比類のない追求と粘り強さを反映した大きな成果です。

では、なぜ iFLYTEK がこの役割を引き受けたのでしょうか?

人工知能の開発は、もはやAIを1つのスキルで完璧に訓練する方法に限定されず、AIをより賢くする方法、つまり汎用的な人工知能に到達することに限られています。

[[436731]]

現在、人間とコンピュータの相互作用が一般的な傾向となっています。あらゆるものがつながるにつれて、音声は人間とコンピュータのインタラクションの重要な入り口になります。音声入力、音声検索、音声インタラクションなどのテクノロジーは、携帯電話、自動車、おもちゃなどのスマート製品の標準機能になっています。

統計によると、感染症流行下でも、わが国の電子機器と自動車の総輸出額は2020年に3,000億米ドルを超えました。これらの輸出されたスマートデバイスには、多言語技術に対する強い需要があります。

また、「一帯一路」建設は言語コミュニケーションに依存しており、多言語翻訳技術の価値が強調されている。

近年、多言語音声言語技術は国家安全保障の信頼などの主要な分野に関わっており、Nuance や Google などのテクノロジー大手が導入を競う重要な技術方向となっています。

また、国際情勢は不確実で技術競争も熾烈であるため、国内の自主研究開発の問題を解決し、多言語技術のボトルネックを打破することが急務となっている。

このような状況において、iFLYTEK はこの重要な任務を引き受け、多言語技術の技術的問題を解決することを期待して、大規模な多言語音声言語技術の研究開発に多大なエネルギーを注ぎました。

過去 1 年間、iFLYTEK は主要言語で継続的に反復と進化を続け、音声認識、音声合成、画像およびテキスト認識、機械翻訳において一連の新たな進歩を遂げてきました。

たとえば、24 言語での合成自然さの MOS スコアは 4.0 を超え、35 言語でのディクテーション シナリオでの音声認識精度は 90% を超え、18 言語での文書写真撮影シナリオでの精度は 90% を超え、36 言語での音声シナリオでの手動採点忠実度は 4.0 を超えています。

最先端の多言語音声言語技術は、iFLYTEK のインテリジェント ハードウェア製品の革新と応用を強力にサポートしています。

多言語翻訳を例に挙げてみましょう。2016年に発売されたiFlytek翻訳機は、AI翻訳機という新たなカテゴリーを生み出しました。4世代が発売され、世界中の約200の国と地域をカバーしています。2019年には5億人以上に翻訳サービスを提供しました。

今年5月には、正確かつリアルタイムな翻訳を実現し、多くの言語オプションを備えたデュアルスクリーン翻訳機が発売されました。

中国語と外国語間の翻訳が60件もあり、中国語5方言と英語間の翻訳、2つの難解な民族言語(チベット語とウイグル語)と北京語間の翻訳もあります。

ユーザーが話すと同時に、相手側が翻訳します。押して話して、放すだけで翻訳できます。0.5 秒の高速応答時間を実現できます。

さらに、iFlytek のスマートボイスレコーダーは、10 の言語での音声の書き起こしと分離もサポートします。

SR302を例に挙げると、広東語、重慶語、貴州語など12方言の文字起こしをサポートしているだけでなく、英語、日本語、フランス語など10の主要言語の文字起こしも可能です。

多言語サービスに関しては、iFLYTEK の同時通訳システムはすでに 9 つの言語でのリアルタイムの文字起こしと画面上の翻訳字幕をサポートしています。

先日、中国駐欧州連合代表部と欧州委員会農業総局が共同で開催した中国・EU地理的表示製品プロモーションビデオ交流会議において、iFlytekはプロセス全体を通じて転写技術サービスを提供し、その優れた強みを実証しました。

現在、iFLYTEKの多言語技術とアプリケーションは、国家指導者やソーシャル業界からも広く認められています。

また、北京2022冬季オリンピック・パラリンピックの公式自動音声変換・翻訳の独占サプライヤーとなり、人類史上初の情報バリアフリーオリンピックの実現に貢献しています。

その過程で、iFlytek が音声合成、音声認識、機械読解などの多くの国際的なコア技術コンテストで優勝し、人工知能開発の歴史に多くのマイルストーンを打ち立てることができたのは、独自の技術に対するたゆまぬ努力のおかげです。

iFLYTEKの劉清鋒会長は、人工知能の発展は垂直と水平の両方でなければならないと述べた。

現在、iFlytekは「天に届き、地に立つ」というコンセプトを実践し続けています。未来にはまだ長い道のりが残っており、さらに高い山が待ち受けています。

<<:  デジタルパフォーマンスの向上における人工知能の役割

>>:  人工知能: ナノスケールでの細胞構造の発見

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能 VS 人間: 私たちは本当にいつも負け続けるのでしょうか?

ディープ・ブルー・コンピュータシステムがチェスチャンピオンのガルリ・カスパロフを華々しく破ってから2...

AIGCの6つの主なリスク

ChatGPTを運営するOpenAIのCEOサム・アルトマン氏は最近、議会公聴会で政府によるAIの規...

ロボット工学が医療業界にもたらす変化

ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...

5つの新たなAI IoTアプリケーション

人工知能とモノのインターネットを組み合わせたこの新しい技術の波は、新たな機会をもたらし、業界全体の運...

中国の「データブリックス」:AIインフラの構築に真剣に取り組む

AI導入の最大の推進要因はインフラのアップグレードです。近年、ビッグデータ分析やAIなどの分野が注目...

美団におけるナレッジグラフ可視化技術の実践と探究

著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...

オープンソースツール | データサイエンスのための Python 入門

[[248716]]データ サイエンスの力を活用するために高価なツールは必要ありません。これらのオー...

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコス...

...

人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

[[334948]]自動運転車、音声アシスタント、その他の人工知能技術は、ほとんどの人にとって革命...

...

鳥の巣のような大きな会場で迷う心配はありません。AI+AR技術が冬季オリンピックを助けます

北京冬季オリンピックの開会式では、人工知能、5G、クラウドコンピューティングなど数多くの最新技術が活...

...

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

人工知能は現代のビジネス界に多くの変化をもたらしています。多くの企業が AI を活用して顧客をより深...

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム...