人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

人工知能は現在非常に人気の高い技術であり、世界中の国々が研究に資金と人材を投入しています。人工知能を逃す者は未来を失うことになる。

[[346905]]

言語と文字は人工知能において非常に重要な位置を占めています。これらは人間と人工知能のインタラクションのツールです。人工知能が言語と文字を正確に理解して初めて、正確な応答ができ、高い知能を発揮することができます。今日は、中国語と英語が人工知能言語として優れているかどうか、また、その将来性についてお話しします。

1. 音声認識

認めたくはないですが、英語の音声認識は確かに中国語よりも正確で効率的です。

英語は26文字で構成されており、論理構造はより単純です。発音は文字に基づいており、発音記号と発音記号領域の区別は比較的明確です。あまり速く話さない限り、AIは各文字を簡単かつ正確に認識できます。また、同音異義語が少ないため、英語の音声認識の効率は中国語よりもはるかに高くなります。

中国語の発音ははるかに複雑です。ピンインには、23 個の頭子音、6 個の単純母音、18 個の複合母音、16 個の全音節があり、システム全体で合計 63 個の発音要素があります。さらに、中国語には4つの声調があり、方言も多種多様です。発音が不正確だと、AIの認識に大きな影響を与えます。

AIが中国語を認識する場合、まず発音を認識し、次に単語に基づいて漢字の判断を行う必要があります。認識効率は英語よりも低く、認識エラー率も英語よりも高くなります。

音声認識、英語が勝ちます。

2. テキスト認識

テキスト認識に関して言えば、中国語のテキスト認識の効率と精度は英語よりも優れているという事実をようやく誇りに思えるようになりました。

中国語には、AI 認識をより効率的にするいくつかの特徴があります。

1. 中国語の文字は情報密度が高く、少ない文字数でより多くの情報を伝えることができます。中国語の記事は常に英語の記事よりも短く、全体的に中国語の情報密度は英語よりも 37.5% 高くなっています。

2. 漢字は単位として使われ、横にも縦にも柔軟に並べることができます。しかし、英語は線状のテキストなので横にしか並べられません。縦に並べたり乱雑に並べたりすると認識効率が急激に低下します。

3. 漢字は独立した強い表現力を持っています。例えば、「彼は朝食を食べに行きました」という文章では、もう1つの単語は見て意味がわかります。 「彼は朝食を食べに行きました」という英語の文章では、「have」という単語を見ても、全体的な意味は分かりません。「breakfast」まで読んで初めて、「have」は「食べる」という意味で、「give to」は「行く」という意味であり、文章全体は「朝食を食べに行く」という意味であることがわかります。英語の意味は「フレーズ」や文章全体に依存します。文章全体を読まないと、文章の意味を理解できないことがよくあります。 AI はジャンプの認識能力が低いため、これを認識することが困難になります。

テキスト認識に関しては、中国語が勝ちます。

3. 同音異義語

中国語における人工知能の発展の最大の障害は、同音異義語の現象です。例えば、彼の姓は張ですが、「張」でしょうか、「張」でしょうか?話し言葉であれば、「公長張」または「張李早」と付け加えなければなりません。中国語に同音異義語や同音異義語がいくつあるかを正確に数えるのは困難です。同音異義語は、英語話者が中国語の意味が不明瞭であると攻撃する大きな口実にもなります。

英語にもright、write、meet、meat、hole、whole、pear、pair、flower、flourなど同音異義語がありますが、英語の同音異義語の数は中国語に比べてはるかに少ないです。英語では、より多くの単語を作成することで同音異義語を減らします。

AIは現在ポリフォンを正確に処理できないため、エラーは避けられません。 AIの精度を確保するには、人間は言語改革を通じて多声語を排除するしかないのでしょうか?これは大きすぎるプロジェクトであり、人間がそのような大きな改革に適応するのは困難です。

同音異義語の場合、英語が勝ちます。

4. 多義語

成熟した言語では、1 つの単語に複数の意味があることは避けられません。世界には多くのものがあり、感情は非常に複雑です。すべての単語が 1 つの正確な意味のみを表現するとしたら、何百万もの単語では不十分でしょう。中国語でも英語でも、単語には 1 つの意味だけではなく、通常は複数の意味があり、時にはその違いがかなり大きいこともあります。

たとえば、「close」には、近い、閉まる、閉まる、開かない、ドアを閉める、閉じる(一定期間)、終わる、終わらせる、近づく、ほとんど(ある状態)、かもしれない(何かをしようとしている)、親密な、近い、近い、近い、遠くない、行き止まり、行き止まり、大聖堂の周辺地域や建物など、多くの意味があります。

現在、人工知能が文脈から単語の意味を認識する能力はまだ比較的弱く、多義語に遭遇すると間違いを犯すことがよくあります。これも人工知能の発展における困難です。

多義語、中国語、英語は相互に排他的です。

5. 全セグメント認識

人工知能に短い文や単語を翻訳するように頼むのは、実はあまり意味がなく、実用的な価値はほとんどありません。実用的な価値があるのは、テキストの段落全体を認識できる場合のみです。中国語と英語を翻訳することで、AIの中国語と英語の認識能力を検証してみましょう。

原文は次のとおりです。

「この2つの国で流行っているものは、まったく違います。例えば、知識ベースのコンテンツは中国では非常に人気がありますが、米国ではそれほどではありません。また、これは私にとって驚きでした。中国で最も多くのダンス動画を制作したクリエイターは60年代生まれのユーザーです(!!)が、米国ではダンスを作成しているのは主に10代の若者のようです」と彼女は書いている。

彼女はこう書いている。「両国の傾向は完全に異なっています。例えば、知識コンテンツは中国では非常に人気がありますが、米国ではそれほどではありません。また、これは私にとっては信じられないことですが、中国ではダンスビデオを作るのが最も好きなのは1960年代生まれの人々です(!!)が、米国では若者がダンスビデオを作るのが最も好きなようです。」

AIは「元の英語テキスト」を次のように中国語に翻訳します。

「両国のトレンドは非常に異なります。例えば、知識ベースのコンテンツは中国では非常に人気がありますが、米国では非常にまれです。また、これは私にとって驚くべきことですが、中国で最も多くのダンス動画を作成しているクリエイターは60年代生まれのユーザーです(!!)一方、米国ではダンスを作成するのは主に若者のようです」と彼女は書いています。

ひどく歪曲された一文がある。「中国で最も多くのダンス動画を制作しているクリエイターは、1960年代生まれのユーザーである(!!)」

この文章の元の英語のテキストは、「中国で最も多くのダンス動画を作成したクリエイターは、60年代生まれのユーザーです」です。これは、複雑な語順と厄介な前置詞が混在する長い英語の文章であり、AIの脳が混乱して正確に認識できませんでした。

この英語の認識エラーは非常に典型的で、文法と語順が複雑すぎるという英語の欠点を露呈しています。より複雑な英語の文章を翻訳する場合、AI は無力になります。これは、すべての音声文字の弱点でもあります。

AIは「元の中国語テキスト」を次のように英語に翻訳します。

「この2つの国のトレンドはかなり異なります。例えば、知的なコンテンツは中国では非常に人気がありますが、米国では少し劣っています。さらに、これは私にとっては信じられないことですが、中国で最も人気のあるダンスビデオは60年代に生まれました(!)が、米国では若者がダンスビデオを撮影するのが最も好きなようです」と彼女は書いています。

中国語の翻訳は非常に正確で、原文と意味にほとんど違いがなく、原文の意味が忠実に復元されています。段落全体や記事全体の認識においては、中国語が英語よりも優れていることがわかります。

中国語は個々の漢字で構成されており、長い文は少なく、文法と語順が単純です。文章構造は線形英語よりもはるかに単純なので、AI 認識に適しています。

6. 人工知能の未来は誰のものか?

人工知能の分野では、話し言葉としては英語が、書き言葉としては中国語が優れています。それぞれに長所があり、どちらがAIの母国語になるかを言うのは時期尚早です。しかし、より複雑な内容表現となると、中国語に対するAIの認識は英語よりも進んでいるので、私は中国語の将来についてより楽観的です。

<<:  アダムはまた「引退」するのでしょうか?イェール大学のチームがAdaBeliefを提案

>>:  Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

ブログ    

推薦する

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

百人一首の戦いはかつてないレベルに到達!

執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...

人工知能導入の第一歩:企業で最も一般的な3つのアプリケーション

人工知能はあらゆる業界の基盤になりつつありますが、多くの企業はまだどのように始めればよいかわかってい...

ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...

あなたの次のオフィスアシスタントはロボットでしょうか?

2014年、日本のソフトバンクモバイルストアに新たな仲間が加わった。それは、人の表情や声のトーンを...

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

責任ある AI 導入: IT 共生の青写真

AI ツールが合法化され、職場に導入されるようになると、人々は当然、その使用例や AI ツールに依存...

清華大学と中国気象局の大規模モデルがネイチャー誌に掲載:世界レベルの問題を解決、「幽霊天気」の予報時間が初めて3時間に到達

本当に「雨の日」に備えるために、清華大学の「幽霊天気」予報モデルが登場しました!世界の未解決の問題を...