AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

人々の印象では、AIは「多数派」に属する技術カテゴリーであると私は信じています。

いわゆる多数とは、第一に、関連データの量が多く、蓄積が容易であることを意味し、膨大なデータに大きく依存するAIの特性に適しています。第二に、応用シナリオの範囲が広く、収益化とコスト回収が容易であることを意味し、AI研究開発への高い投資に適しています。

私たちの身の回りによく登場する顔認識や音声対話などは、実は上記の特徴を満たしています。しかし、これは「少数派」の AI が白紙の状態であることを意味するものではありません。

[[265521]]

昨日は世界アクセシビリティデーでした。私たちは「少数派と多数派」の区別をなくす技術開発に注目しました。聴覚障害者のための手話認識はその典型的な例です。

あなたや私が理解できない手話を AI が理解するのはなぜ難しいのでしょうか?

手話は、手振りを使って動きを測り、手振りの変化に基づいてイメージや音節をシミュレートして、特定の意味や単語を形成します。これは、聴覚障害者にとってユニークなコミュニケーション方法です。このコミュニケーション方法は、聴覚障害者同士のコミュニケーションや、手話を理解する一般の人々とのコミュニケーションを可能にしますが、聴覚障害者と一般の人々の間のコミュニケーションのニーズを満たすことはできません。

つまり、政府機関やサービス産業などの公共の場では、聴覚障害のある人は不便を感じる可能性があるということです。

そして AI が解決策となるのです。

写真を撮るときに「ハート」ジェスチャーをすることで AR 特殊効果をトリガーするなど、一部のソフトウェアに AI のジェスチャー認識機能を適用し始めています。ジェスチャーをキャプチャして意味と一致させることで、手話を翻訳したり生成したりすることはできないでしょうか?

この論理は正しいが、論理的な正しさから実行可能なアプリケーションに至るまでにはまだ長い道のりがある。

まず、手話表現には一定の特殊性があり、それを捉えることは容易ではありません。

「身振り」という行為に絶対的な正確さはないことはわかっています。また、手話の単語の表現は非常に似ており、手話は通常、単語間に明らかなギャップがなく、文章で表現されます。従来、フロントカメラを使用してジェスチャー認識をキャプチャする方法は、基本的に実現不可能でした。

そのため、多くの技術やチームが周辺機器を追加することで解決策を提案しています。たとえば、USTCとMicrosoftはKinectをベースにした手話翻訳システムを発表し、カリフォルニア大学は手話認識グローブを発表しました。しかし、これらの周辺機器は持ち運びができなかったり、高価であったりするため、販売促進が非常に困難です。

同時に、手話表現も国や地域によって異なるため、モデルを普遍化することが困難です。

手話には、「文法手話」と「自然手話」という 2 つの概念があります。文法手話は世界共通の中国語ですが、自然手話は方言のようなもので、国、場所、さらには都市によっても大きな違いがあります。これにより、手話データの収集とラベル付けもコストがかかり、労働集約的な作業になります。

たとえば、Amazon はかつて、スマートスピーカー Alex を改造して簡単な信号を翻訳できるようにすることを提案したことがあります。しかし、大規模なトレーニング データ セットが不足しているため、この機能はいくつかの簡単なアメリカ手話しか認識できず、まだ実験段階に留まっています。

手話の問題を解決する秘策はありません。AI業界も平等な権利を持つべきです。

探索は困難ではあるものの、テクノロジー企業や学界は手話AIで成果を上げ続けています。例えば、テンセントYoutuラボがリリースした「Youtu AI手話翻訳機」やiQiyiがリリースしたAI手話アンカーは、手話AIの応用において大きな進歩を遂げています。

手話AIのブレークスルーは2つのルートに分けられます。一方では手話AI自体の技術の進歩があり、他方では応用シーンのブレークスルーがあります。

手話AI技術自体に関しては、認識モデルとデータセットという2つの解決パスがあります。データセットの面では、Youtuと同様に、関連する社会組織や聴覚障害者とのコンタクトを通じて独自の手話認識データセットを構築し、手話表現の地域差に基づく表現習慣や速度の多様性を拡大することができます。

認識モデルに関しても、業界には新たなアルゴリズム構築コンセプトがあります。例えば、2D畳み込みニューラルネットワークと3D畳み込みニューラルネットワークを使用して、それぞれジェスチャーから静的情報と動的情報を抽出し、総合的な処理を使用してビデオ認識効果を向上させ、他のセンサーの束縛を完全に取り除きます。同時に、手話表現が文章全体に化けてしまう現象に対処するため、動画フレームの先頭に単語レベルの情報マイニングを追加し、特徴抽出器から提供された情報を検証して、単語のジェスチャー表現の境界をさらに特定します。認識精度が向上するだけでなく、自然な手話で地域的な表現を要約する能力も向上します。これに基づいて、コンテキスト理解機能をアルゴリズム モデルに導入して、より複雑な手話認識および翻訳のニーズへの対応を容易にすることもできます。

ただし、テクノロジーは改善されましたが、アプリケーション シナリオには依然としていくつかの制限があります。たとえば、手話認識は強力な計算能力に依存する可能性があり、短期間でポータブルかつ消費者にとって使いやすいものにすることは困難です。しかし、政府との協力を通じて、手話認識をいくつかの公共サービスシナリオに組み込むことは完全に可能です。あるいは、iQiyi のように、手話生成から始めることで、聴覚障害者を助けることもできます。

実際、技術を細かく分析すると、手話AIの進歩は基礎科学の驚くべき進歩によるものではなく、より多くの企業や学者が長年にわたり研究開発とデータ蓄積に継続的に投資し、手話コーパスの不足という以前のジレンマから解放され、アルゴリズムを継続的に反復してきたためであることがすぐにわかります。

言い換えれば、企業や学者は「多数派」の AI 技術とほぼ同じくらいのエネルギーと資金を「少数派」の AI 技術に投資してきたのです。 AI業界にとって、これは間違いなく平等の権利の精神です。

人間中心から善のためのテクノロジーへ: なぜ私たちはテクノロジーの流れをより積極的に導くべきなのでしょうか?

Tencent Youtu の手話 AI への投資は、実は AI 業界で出現しつつあるトレンドです。

数日前、福州で開かれたデジタル中国サミットで、馬化騰氏は初めて「テクノロジーは人類に利益をもたらす」という概念に言及し、「我々はテクノロジーが人類に利益をもたらすと信じている。人類はテクノロジーを有効活用し、乱用を避け、悪用を止めなければならない。テクノロジーは自らの発展によって生じた社会問題の解決に努めなければならない」と述べた。

偶然にも、スタンフォードに戻った後、フェイフェイ・リーはHAI研究所(スタンフォード人間中心人工知能研究所)の設立に着手し、今年から所長に就任しました。 HAI の研究目標は、人類に利益をもたらす方向で AI 技術の発展を促進し、AI が人間の生活に実際に与える影響を予測することです。

テクノロジーの巨人や学術界のリーダーたちが皆同じ方向を向いているのは、AI、5G、産業のデジタル化などの技術力の勢いがあまりにも強く、誘導や制約が必要だと人々が徐々に気づき始めているからだ。

前述のように、テクノロジー企業はこの技術開発の波を推進する上で大きな役割を果たしており、利益追求は当然企業の本能と性質であるため、企業は大多数の人々のニーズを満たし、適用シナリオの範囲が広く、研究開発コストが比較的低い技術に率先して投資することになります。

こうした行動自体には何の問題もないが、AIなどの新技術がもたらす効率化はあまりにも大きく、一時的に新技術にアクセスできない分野やグループが締め出され、さらには周縁化されるのではないかという疑問は、多くの人が考えているところだ。

例えば、英語、中国語、日本語、フランス語、ロシア語などの主流言語の機械翻訳機能が向上し続けると、コーパスが不十分でユーザーが少ない少数言語は、テクノロジーの力を借りることができず、さらに疎外されてしまうのでしょうか。

同様に、音声対話や画像認識などの AI 技術が公共業務にますます取って代わると、聴覚障害者や視覚障害者はサービスを受けるのにさらに困難に直面することになるのでしょうか?

同様の状況は実際に起きている。2018年末、国連は英国政府のデジタル成果に関する報告書を発表した。データによると、イングランドではホームレスの数が2010年以降60%増加し、保証された住宅の待機リストには120万人がおり、貧困者を支援するためのフードバンクの需要は4倍近く増加している。貧困者の多くはインターネットで貧困補助金を申請する方法を知らず、自宅でインターネットに接続することさえできないため、ますます貧困に陥るしかないのだ。

多くの場合、悪意のないテクノロジーであっても、予測できない結果をもたらす可能性があります。私たちはテクノロジーを良い方向に導くためにもっと積極的に行動するべきなのかもしれません。

結論

***、この数字のセットを見てみましょう:

北京聴覚協会の2017年の推定データによると、わが国の聴覚障害者の数はおよそ7,200万人です。世界保健機関が発表した最新のデータによると、世界中で約 4 億 6,600 万人が障害となる難聴に苦しんでいることが明らかになっています。

― ご存知の通り、この世界における「多数派」と「少数派」というのは、本来は相対的な概念です。白と黒の明確な区別はありません。特に、人間の能力を模倣することに長けた AI のような技術の場合、その存在は、この傾向を悪化させるのではなく、むしろ異なるグループ間のコミュニケーションを妨げる空気の壁を打ち破る可能性があった。テクノロジーを活用してより良い世界を構築するという私たちの目標は、可能であれば誰も取り残されるべきではありません。

幸いなことに、聴覚障害者向けの手話認識や翻訳の分野ではすでにこの傾向が見られます。AI がシミュレートするのは、コンピューティングに精通した脳だけではなく、人間の情熱的な心もシミュレートする対象です。今後、学界や大手企業の指導の下、ますます多くの企業がバリアフリーAI技術の開発に注目し、さまざまな障壁を打ち破り続けると信じています。

愛は沈黙しているが、反響も持っている。

AIは沈黙していますが、影響力もあります。

<<:  畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

>>:  10年後にあなたの生活を変える5つの新しいテクノロジー

ブログ    

推薦する

データセキュリティ認識システムにおける機械学習の応用

私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることが...

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

詳細 | 顔認識が蔓延していますが、あなたの顔データを奪う権利は誰にあるのでしょうか?

記者 | 周一雪8月中旬のある日、北京市昌平区回龍観のコミュニティに住む王毅さんは、所有者グループの...

ロボットはどのようにして経路を計画するのでしょうか?アニメーションを見てみましょう

機械の進路をたどって見てみましょう。 [[351870]]ロボット研究の分野では、特定のタスクが与え...

複合 AI: エンタープライズ AI の成功の鍵

最近、Dynatrace は、AI への投資が増加し続けるにつれて、「複合 AI」が企業による AI...

機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

レア! Apple のオープンソース写真編集ツール MGIE が iPhone に登場?

写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?この魔法のよう...

2024年のAIソフトウェアテストの主なトレンド

AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...

...

IDC FutureScape: 人工知能がIT業界とビジネス運営を変革する

IDC は、2024 年以降の世界の情報技術業界の予測である FutureScape レポートを発表...

アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

先週、私たちは、Float、Rai、Fei、Gyroscope などの人気のアルゴリズム ステーブル...

人工知能の発展は、人間社会が現実から仮想へと向かう傾向を反映している。

人類は遊牧から農耕へ、そして農耕から工業化へと移行しました。工業化の後半は情報化であり、情報化の究極...

...

AlphaFold2 は大きな貢献をしました!清華大学チームがディープラーニングでCOVID-19抗体を強化し、AIの画期的な成果を生み出す

2020年末、DeepMindが開発した第2世代ディープラーニングニューラルネットワークであるAlp...