レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻訳」できる人工知能(AI)ベースのアプリケーションを開発した。 ブラジル地理統計研究所(IBGE)によると、ブラジルでは230万人以上が重度の難聴によりコミュニケーションに困難を抱えており、ブラジル手話(Libra)とポルトガル手話(LGP)を方言として使用しているほか、いくつかの地方手話も使用している。課題の規模と複雑さから、Lenovo は 400 万ドルを超える投資による 5 年間の研究開発プロジェクトを開始しました。 レノボと CESAR は、数千本のブラジル手話ビデオのデータベースを使用して、個々のジェスチャーを視覚的に認識し、それを文脈に沿って配置できる特許取得済みの AI テクノロジーを開発しました。 CESAR と Lenovo は、この取り組みは世界初であり、幅広い応用の可能性があると説明しています。 「オンライン翻訳が書き言葉に与えた影響よりも、こうした人々に与える影響の方が大きいと私たちは考えています」とレノボ・ブラジルの研究開発ディレクター、ヒルデブランド・リマ氏はフォーブス誌に語った。 「オンライン翻訳が登場する以前にもオンライン辞書はあったが、記号を理解する上で多くの人が直面する困難さには対処していなかった。時には練習不足や学習教材や講師の不足が原因となることもある」とリマ氏は指摘し、こうした障壁が完全に解消されれば技術は崩壊すると付け加えた。 リアルタイムのチャット翻訳ツールにより、聴覚障害者はデバイスのカメラにサインインすることができ、その後、アルゴリズムによって即座にポルトガル語のテキストに翻訳され、相手側に届けられる。 AI とそれに付随するデータベースは、各ジェスチャーを個別に翻訳するのではなく、手の輪郭と、最も重要な、手話者の骨格のデジタルピボットポイントを分析することで手の形を認識します。これらの動きを正確に処理することで、アルゴリズムは文の構造を認識し、それをポルトガル語のテキストに変換することができます。 このシステムは、GPT-3 などのモデルに類似したアーキテクチャを持つディープラーニング ニューラル ネットワークに基づいており、ポルトガル語からブラジル手話への翻訳と認識に使用され、リアルタイムの手話翻訳を可能にします。手話ビデオを生成するために、研究グループは生成的敵対的ネットワーク (GAN) モデルを使用して合成通訳者 (人間のようなアバター) を作成しました。 しかし、アプリケーションの複雑さにより、多数のタスクを自動化するための人工知能システムの開発が必要になると、CESARのシニアテクニカルデータサイエンティストマネージャーであるVitor Casadei氏は述べた。 「例えば、チームが作成したコンピュータービジョンシステムは、トレーニングデータベース(標識認識モデルのトレーニングに使用される記録)の作成を容易にしました」と幹部は指摘した。 聴覚障害の専門家 5 名を含む 80 名のチームがこのプロジェクトと、このシステムがサービスを提供するコミュニティに関わりました。 「チーム内の聴覚障害者の専門家に加えて、難聴者コミュニティの参加がプロジェクトにとって重要でした」とカサデイ氏は述べ、数十人の聴覚障害者がこのツールの設計、検証、テストのプロセスに関わったと付け加えた。 世界的な重要性レノボの計画は、異なる手話間の共通性を活用して学習プロセスをスピードアップする特許出願中の手順を使用して、このシステムの使用を世界中の他の手話に拡大することです。 「いくつかの研究で、手話には音声言語との共通点があることがわかっています。私たちはこの事実を考慮した技術を開発し、ブラジル手話のトレーニングから学んだことを他の手話の学習を加速するために活用することができ、非常に有望な結果が得られました」とCESARのカサデイ氏は語った。 レノボのリマ氏は、ラテンアメリカと米国を皮切りに、2024/25年までにこのプロジェクトを国際市場に拡大する計画があると述べた。 「(米国での)ユースケースのニーズは非常に似ていると考えている」と幹部は語った。 当初は銀行や小売などの分野に重点を置いていますが、最終的な目標は、仮想、物理、ハイブリッドを問わず、あらゆる公共サービス環境にアプリケーションを展開することです。さらに、Lenovo は、聴覚障害者向けソリューションの開発をさらに促進するために、開発者コミュニティにソフトウェア開発キット (SDK) を提供する予定です。 プライバシーもプロジェクト開発プロセス全体を通じて重要な問題でした。記録保持者から検証およびテストに携わる者まで、すべての参加者は、ブラジルの一般データ保護規則(LGPD)に準拠して、自分の貢献を研究に使用することを許可する文書に署名しました。 CESARのカサデイ氏によると、ユーザーのプライバシーを保護するため、モデルは手の形や体の動きなどのランドマークを認識するための基本的なデータのみをカメラから取得するように設計されているという。 「このデータセットから特定の個人を特定することはできないため、ユーザーのプライバシーを尊重しながらGDPRに準拠することができます」と幹部は指摘した。 このツールは、より多くの人々が使用するにつれて、改善され続けます。これらの演習では、ランドマーク レコードを継続的に追加し、ユーザーからのフィードバックを収集し、アプリケーションの調整プロセスを改善します。 「チームはアクティブラーニング(ディスカッション、問題解決、ロールプレイングを通じて学生がインタラクティブに学習できる教育方法)の実験も開始しており、まだやるべきことはたくさんあるものの、有望な結果が得られています」とCESARのCEOは語った。 CESAR と Lenovo は、特に手話の指導において、このツールの教育における可能性も模索しています。両社はこの分野でいくつかの特許を申請しており、現在審査中です。手話「翻訳機」には現在、話すことはできるが耳が聞こえないユーザーのための音声認識機能は含まれていませんが、これは将来の開発に向けて現在議論されているトピックです。 最終的に、このシステムは、聴覚障害者が単なる受信者ではなくコミュニケーションの担い手として積極的に参加することを促進し、既存の障壁を打ち破り、より包括的な社会を推進することを目指しています。 「この技術が健聴者と難聴者の間の交流に革命をもたらすと確信しています」とリマ氏は結論付けた。 |
<<: 日常の問題を自動的に解決する 5 つの AI API
>>: ガートナーの調査によると、ジェネレーティブAIは企業にとって新たな大きなリスクとなっている
Nvidia が Arm を 400 億ドルで買収する計画だというニュースを覚えていますか?この記事...
最近、オープンソース コミュニティでは、大規模モデルの最適化手法を模索する人が増えています。 LLa...
生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...
導入:コード生成は、プログラマーの生産性を大幅に向上させる可能性を秘めた重要な AI 問題です。自然...
大規模言語モデル (LLM) は、数百万または数十億のパラメータを持つ人工ニューラル ネットワークで...
翻訳者 |李睿レビュー | Chonglou OpenAI が立ち上げた GPT は現在、世界で最も...
従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
サイバーセキュリティ分野特有の敵対的性質は、人工知能アプリケーションの実装に多くの困難をもたらしてき...
最近、北京は「科学技術革新の加速と人工知能産業の育成に関する指導意見」を発表し、北京の人工知能発展ス...