MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

MITのコンピュータ科学および人工知能研究所(CSAIL)の研究者らは、歴史から長い間失われていた古代言語を言語学者が自動的に解読するのに役立つ可能性のある新しいコンピュータアルゴリズムを開発した。

当局は、このシステムは、言語と他の言語との関係についての詳細な知識を必要とせずに、絶滅した言語を自動的に解読できると述べた。また、このシステム自体が言語間の関係を判断できることも示され、イベリア語が実際にはバスク語とは無関係であることを示した最近の学術研究を確認するのにも使用できることが示された。

[[348785]]

CSAILは、最近の調査で、これまで存在していた言語のほとんどがもはや使われていないことが示されていると述べた。これらの絶滅した言語のうち数十は、「未解読」言語とも考えられています。これは、一般の人々が、テキストの意味を理解するのに十分な文法、語彙、構文の知識を持っていないことを意味します。

これらの「解読されていない」言語の研究は、学術的な好奇心からだけではありません。また、言語を理解しなければ、その言語を話す人々に関する膨大な知識を逃してしまうことにもなります。残念ながら、絶滅した言語のほとんどは記録がほとんど残っていないため、科学者がGoogle翻訳などの機械翻訳ツールやAIアルゴリズムを使用して解読することは不可能です。

そのため、CSAILチームの新しいアルゴリズムの最終的な目標は、言語学者が数十年にわたって理解するのが困難だった失われた言語を、わずか数千語を使って解読することです。

MITのレジーナ・バルジレイ教授が率いるこの研究は、歴史言語学の洞察に基づくいくつかの原則に依存している。たとえば、言語は一般的に、特定の予測可能な方法でのみ進化します。具体的には、特定の言語では音節全体が追加または削除されることはほとんどありませんが、類似した発音の置換は発生する可能性があります。たとえば、母国語で「p」の音を持つ単語は、その派生語では「b」になる可能性がありますが、明らかな発音の違いにより「k」になる可能性は低くなります。

これらの原則とその他の言語的制約を取り入れることで、Barzilay 氏と MIT 博士課程の学生 Jiaming Luo 氏は、可能な変換の巨大な空間と入力内の誘導信号の不足を処理できる復号化アルゴリズムを開発しました。このアルゴリズムは、対応するベクトル間の距離が異なる発音の違いを反映する多次元空間に言語音を埋め込むことを学習します。この設計により、言語のバリエーションの関連パターンを捕捉し、それを計算上の制約として表現することが可能になります。結果として得られるモデルは、古代言語の単語を分割し、関連する言語の対応する単語にマッピングできます。

このプロジェクトは、バルジレイ氏とルオ氏が昨年執筆した、絶滅したウガリット語と線文字Bの解読に関する論文に基づいている。線文字Bの解読にはこれまで人類が数十年を要していた。しかし、2つのプロジェクトの重要な違いは、これらの言語がそれぞれヘブライ語とギリシャ語の初期の形態に関連していることをチームがすでに知っていたことです。

新しいアルゴリズムは、言語解読における最大の課題の 1 つである言語間の関係性を推測することができます。このアルゴリズムは 2 つの言語間の類似性を評価でき、既知の言語でテストすると、その言語がどの言語ファミリーに属するかを正確に識別することもできます。それだけでなく、アルゴリズムによって生成されたモデルは、古代言語の単語を細分化し、それらを「関連」言語の対応する単語に 1 つずつマッピングすることができます。

今後の研究で、研究チームは、テキストを既知の言語の関連語と関連付けるという「同族語ベースの解読」と呼ばれるアプローチを超えて、研究範囲を広げたいと考えている。 「例えば、テキストに記載されているすべての人物や場所に関する情報を特定し、既知の歴史的証拠に基づいてさらに調査することができます」と彼は語った。「これらのエンティティ認識方法は現在、さまざまなテキスト処理アプリケーションで高い精度で広く使用されています。しかし、重要な研究上の疑問は、このタスクが古代言語のトレーニングデータなしで実行可能かどうかということです。」

この記事はOSCHINAから転載したものです。

この記事のタイトル: MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

記事URL: https://www.oschina.net/news/119481/mit-translating-lost-languages-machine-learning

<<:  スタンフォード大学の教授が、専門家以外の人向けにAIの核となる概念を1ページで定義

>>:  AIの次の目的地:洗練された生活シナリオのインテリジェント時代

ブログ    
ブログ    
ブログ    

推薦する

気候ガバナンスの年、希望はAIにある

[[391671]]気候変動は今日世界が直面している最大の課題となっています。国連は、2021年が地...

今後3~5年で、機械学習の人材が不足する領域はどこでしょうか?

基本的な紹介学術的なニーズを別にすれば、ほとんどの人はアルゴリズムの研究に従事するのではなく、第一線...

...

海外メディア:ニューラリンクの「人間の脳チップ」を埋め込むために何千人もの人が列をなしており、2030年には手術件数が2万2000件を超える見込み

11月8日、米国現地時間の火曜日、著名な伝記作家アシュリー・ヴァンス氏が、イーロン・マスク氏の脳コン...

革新的なマイクロチップ設計によりコンピューティングがエッジにまで広がり、AIをリアルタイムで使用できるようになります。

人工知能によるコンピュータネットワークへの需要の爆発的な増加に対処するため、プリンストン大学の研究者...

大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

業界最先端の大型モデルが一斉に「脱獄」! GPT-4 だけでなく、通常はそれほど間違いを起こさない ...

生成AIとクラウドの相互利益を探る

近年、生成 AI とクラウドの融合に関心が集まっているのには理由があります。人工知能 (AI) とク...

とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

音楽駆動型デジタルヒューマン技術の詳細な説明

1. ミュージックXRメーカーMusic XR Makerは、テンセントミュージック初のオーディオお...

500億のパラメータ、103の言語をサポート: Googleが「グローバルテキスト翻訳」モデルを発表

並列データが不足しているため、小規模言語の翻訳は常に大きな問題となっていました。 Google の研...

...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

韓国の通信事業者SKT、通信業界向け大規模AIモデルの開発のためOpenAIの競合企業に1億ドルを投資

大規模な AI モデルのトレンドは通信業界にも浸透しています。米国のAIスタートアップ企業Anthr...

新たな自動運転ランキングが発表

最近、米国の市場調査機関であるナビガントリサーチが、自動運転の競争力に関する新たなランキングを発表し...

AIとビッグデータ2017「成長痛」

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[21567...