レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻訳」できる人工知能(AI)ベースのアプリケーションを開発した。

ブラジル地理統計研究所(IBGE)によると、ブラジルでは230万人以上が重度の難聴によりコミュニケーションに困難を抱えており、ブラジル手話(Libra)とポルトガル手話(LGP)を方言として使用しているほか、いくつかの地方手話も使用している。課題の規模と複雑さから、Lenovo は 400 万ドルを超える投資による 5 年間の研究開発プロジェクトを開始しました。

レノボと CESAR は、数千本のブラジル手話ビデオのデータベースを使用して、個々のジェスチャーを視覚的に認識し、それを文脈に沿って配置できる特許取得済みの AI テクノロジーを開発しました。 CESAR と Lenovo は、この取り組みは世界初であり、幅広い応用の可能性があると説明しています。

「オンライン翻訳が書き言葉に与えた影響よりも、こうした人々に与える影響の方が大きいと私たちは考えています」とレノボ・ブラジルの研究開発ディレクター、ヒルデブランド・リマ氏はフォーブス誌に語った。

「オンライン翻訳が登場する以前にもオンライン辞書はあったが、記号を理解する上で多くの人が直面する困難さには対処していなかった。時には練習不足や学習教材や講師の不足が原因となることもある」とリマ氏は指摘し、こうした障壁が完全に解消されれば技術は崩壊すると付け加えた。

リアルタイムのチャット翻訳ツールにより、聴覚障害者はデバイスのカメラにサインインすることができ、その後、アルゴリズムによって即座にポルトガル語のテキストに翻訳され、相手側に届けられる。 AI とそれに付随するデータベースは、各ジェスチャーを個別に翻訳するのではなく、手の輪郭と、最も重要な、手話者の骨格のデジタルピボットポイントを分析することで手の形を認識します。これらの動きを正確に処理することで、アルゴリズムは文の構造を認識し、それをポルトガル語のテキストに変換することができます。

このシステムは、GPT-3 などのモデルに類似したアーキテクチャを持つディープラーニング ニューラル ネットワークに基づいており、ポルトガル語からブラジル手話への翻訳と認識に使用され、リアルタイムの手話翻訳を可能にします。手話ビデオを生成するために、研究グループは生成的敵対的ネットワーク (GAN) モデルを使用して合成通訳者 (人間のようなアバター) を作成しました。

しかし、アプリケーションの複雑さにより、多数のタスクを自動化するための人工知能システムの開発が必要になると、CESARのシニアテクニカルデータサイエンティストマネージャーであるVitor Casadei氏は述べた。 「例えば、チームが作成したコンピュータービジョンシステムは、トレーニングデータベース(標識認識モデルのトレーニングに使用される記録)の作成を容易にしました」と幹部は指摘した。

聴覚障害の専門家 5 名を含む 80 名のチームがこのプロジェクトと、このシステムがサービスを提供するコミュニティに関わりました。 「チーム内の聴覚障害者の専門家に加えて、難聴者コミュニティの参加がプロジェクトにとって重要でした」とカサデイ氏は述べ、数十人の聴覚障害者がこのツールの設計、検証、テストのプロセスに関わったと付け加えた。

世界的な重要性

レノボの計画は、異なる手話間の共通性を活用して学習プロセスをスピードアップする特許出願中の手順を使用して、このシステムの使用を世界中の他の手話に拡大することです。

「いくつかの研究で、手話には音声言語との共通点があることがわかっています。私たちはこの事実を考慮した技術を開発し、ブラジル手話のトレーニングから学んだことを他の手話の学習を加速するために活用することができ、非常に有望な結果が得られました」とCESARのカサデイ氏は語った。

レノボのリマ氏は、ラテンアメリカと米国を皮切りに、2024/25年までにこのプロジェクトを国際市場に拡大する計画があると述べた。 「(米国での)ユースケースのニーズは非常に似ていると考えている」と幹部は語った。

当初は銀行や小売などの分野に重点を置いていますが、最終的な目標は、仮想、物理、ハイブリッドを問わず、あらゆる公共サービス環境にアプリケーションを展開することです。さらに、Lenovo は、聴覚障害者向けソリューションの開発をさらに促進するために、開発者コミュニティにソフトウェア開発キット (SDK) を提供する予定です。

プライバシーもプロジェクト開発プロセス全体を通じて重要な問題でした。記録保持者から検証およびテストに携わる者まで、すべての参加者は、ブラジルの一般データ保護規則(LGPD)に準拠して、自分の貢献を研究に使用することを許可する文書に署名しました。

CESARのカサデイ氏によると、ユーザーのプライバシーを保護するため、モデルは手の形や体の動きなどのランドマークを認識するための基本的なデータのみをカメラから取得するように設計されているという。 「このデータセットから特定の個人を特定することはできないため、ユーザーのプライバシーを尊重しながらGDPRに準拠することができます」と幹部は指摘した。

このツールは、より多くの人々が使用するにつれて、改善され続けます。これらの演習では、ランドマーク レコードを継続的に追加し、ユーザーからのフィードバックを収集し、アプリケーションの調整プロセスを改善します。 「チームはアクティブラーニング(ディスカッション、問題解決、ロールプレイングを通じて学生がインタラクティブに学習できる教育方法)の実験も開始しており、まだやるべきことはたくさんあるものの、有望な結果が得られています」とCESARのCEOは語った。

CESAR と Lenovo は、特に手話の指導において、このツールの教育における可能性も模索しています。両社はこの分野でいくつかの特許を申請しており、現在審査中です。手話「翻訳機」には現在、話すことはできるが耳が聞こえないユーザーのための音声認識機能は含まれていませんが、これは将来の開発に向けて現在議論されているトピックです。

最終的に、このシステムは、聴覚障害者が単なる受信者ではなくコミュニケーションの担い手として積極的に参加することを促進し、既存の障壁を打ち破り、より包括的な社会を推進することを目指しています。 「この技術が健聴者と難聴者の間の交流に革命をもたらすと確信しています」とリマ氏は結論付けた。

<<:  日常の問題を自動的に解決する 5 つの AI API

>>:  ガートナーの調査によると、ジェネレーティブAIは企業にとって新たな大きなリスクとなっている

ブログ    
ブログ    

推薦する

...

自動運転車を最も必要としているのは誰でしょうか?

ほぼすべての道路状況に適応できる自動運転車の開発は、間違いなく非常に困難な課題です。無人運転車を実現...

人工知能がデジタル変革の課題に対処できる 5 つの分野

[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...

...

AI探偵が事件を解決する3つの秘策

[[241150]]画像出典: Visual China今年のコナン映画は中国でも公開されるそうです...

モバイルインターネット開発における人工知能技術の応用

[[189519]]インテリジェントな需要は2つの側面に反映されるモバイル インターネットの発展が新...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...

...

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...

Spring-Smart-DI は実装クラスを動的に切り替えます。非常に優れています。

実際のシステム開発のシナリオでは、同じ機能を複数のサービスプロバイダーに接続する必要があるというタイ...

インテリジェント製造業が波に乗る中、産業用ロボットはどのようにして主導権を握ることができるのでしょうか?

インテリジェント製造(IM)は、インテリジェントマシンと人間の専門家で構成された人間と機械の統合イン...

...

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...

ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

国連機関である国際労働機関は最近、ChatGPTのような生成AIが人間の間で大規模な失業を引き起こす...

数千億単位の数学専用大規模モデルMathGPTが公開テストを開始

国内の大型模型市場に新たな「プレーヤー」が誕生しました。今回は数学に特化した大型模型です。 Sync...