MITのコンピュータ科学および人工知能研究所(CSAIL)の研究者らは、歴史から長い間失われていた古代言語を言語学者が自動的に解読するのに役立つ可能性のある新しいコンピュータアルゴリズムを開発した。 当局は、このシステムは、言語と他の言語との関係についての詳細な知識を必要とせずに、絶滅した言語を自動的に解読できると述べた。また、このシステム自体が言語間の関係を判断できることも示され、イベリア語が実際にはバスク語とは無関係であることを示した最近の学術研究を確認するのにも使用できることが示された。
CSAILは、最近の調査で、これまで存在していた言語のほとんどがもはや使われていないことが示されていると述べた。これらの絶滅した言語のうち数十は、「未解読」言語とも考えられています。これは、一般の人々が、テキストの意味を理解するのに十分な文法、語彙、構文の知識を持っていないことを意味します。 これらの「解読されていない」言語の研究は、学術的な好奇心からだけではありません。また、言語を理解しなければ、その言語を話す人々に関する膨大な知識を逃してしまうことにもなります。残念ながら、絶滅した言語のほとんどは記録がほとんど残っていないため、科学者がGoogle翻訳などの機械翻訳ツールやAIアルゴリズムを使用して解読することは不可能です。 そのため、CSAILチームの新しいアルゴリズムの最終的な目標は、言語学者が数十年にわたって理解するのが困難だった失われた言語を、わずか数千語を使って解読することです。 MITのレジーナ・バルジレイ教授が率いるこの研究は、歴史言語学の洞察に基づくいくつかの原則に依存している。たとえば、言語は一般的に、特定の予測可能な方法でのみ進化します。具体的には、特定の言語では音節全体が追加または削除されることはほとんどありませんが、類似した発音の置換は発生する可能性があります。たとえば、母国語で「p」の音を持つ単語は、その派生語では「b」になる可能性がありますが、明らかな発音の違いにより「k」になる可能性は低くなります。 これらの原則とその他の言語的制約を取り入れることで、Barzilay 氏と MIT 博士課程の学生 Jiaming Luo 氏は、可能な変換の巨大な空間と入力内の誘導信号の不足を処理できる復号化アルゴリズムを開発しました。このアルゴリズムは、対応するベクトル間の距離が異なる発音の違いを反映する多次元空間に言語音を埋め込むことを学習します。この設計により、言語のバリエーションの関連パターンを捕捉し、それを計算上の制約として表現することが可能になります。結果として得られるモデルは、古代言語の単語を分割し、関連する言語の対応する単語にマッピングできます。 このプロジェクトは、バルジレイ氏とルオ氏が昨年執筆した、絶滅したウガリット語と線文字Bの解読に関する論文に基づいている。線文字Bの解読にはこれまで人類が数十年を要していた。しかし、2つのプロジェクトの重要な違いは、これらの言語がそれぞれヘブライ語とギリシャ語の初期の形態に関連していることをチームがすでに知っていたことです。 新しいアルゴリズムは、言語解読における最大の課題の 1 つである言語間の関係性を推測することができます。このアルゴリズムは 2 つの言語間の類似性を評価でき、既知の言語でテストすると、その言語がどの言語ファミリーに属するかを正確に識別することもできます。それだけでなく、アルゴリズムによって生成されたモデルは、古代言語の単語を細分化し、それらを「関連」言語の対応する単語に 1 つずつマッピングすることができます。 今後の研究で、研究チームは、テキストを既知の言語の関連語と関連付けるという「同族語ベースの解読」と呼ばれるアプローチを超えて、研究範囲を広げたいと考えている。 「例えば、テキストに記載されているすべての人物や場所に関する情報を特定し、既知の歴史的証拠に基づいてさらに調査することができます」と彼は語った。「これらのエンティティ認識方法は現在、さまざまなテキスト処理アプリケーションで高い精度で広く使用されています。しかし、重要な研究上の疑問は、このタスクが古代言語のトレーニングデータなしで実行可能かどうかということです。」 この記事はOSCHINAから転載したものです。 この記事のタイトル: MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表 記事URL: https://www.oschina.net/news/119481/mit-translating-lost-languages-machine-learning |
<<: スタンフォード大学の教授が、専門家以外の人向けにAIの核となる概念を1ページで定義
>>: AIの次の目的地:洗練された生活シナリオのインテリジェント時代
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...
今日、工業製造業は産業用人工知能への依存度が高まっており、業務上の意思決定者はこれをデジタル変革戦略...
[[375635]] 2020 年は激動の年であり、組織は数多くの課題に直面しました。 2021年に...
杭州アジア競技大会初の金メダルが誕生した。女子軽量級ダブルスカルボート決勝では、中国の鄒佳琦選手と邱...
ネットユーザーたちはこのオリンピックについて不満を述べている。たとえ境界線を越えたとしても、高得点を...
[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...
[[205598]]すでにこの業界にいる私としては、今後数年間で業界にどのような機械学習の才能が必...
[[241150]]画像出典: Visual China今年のコナン映画は中国でも公開されるそうです...
セキュリティとプライバシーに関する懸念は、AI 導入に対する最大の障壁であり、それには十分な理由があ...
CVの大物、朱俊燕氏の新論文がアニメーターたちに脅威を与える。たった 1 つの文だけで、モデルは一貫...
[[408951]]人工知能は未来をリードする戦略的な技術であり、国際競争の焦点にもなっています。わ...
COVID-19の時代となり、さまざまな業界や組織でリモートワークが始まっています。企業は、遠隔地...