エア入力方式!浙江大学の最新研究:空中で指を動かすことでスマートウォッチにテキストを入力できる

エア入力方式!浙江大学の最新研究:空中で指を動かすことでスマートウォッチにテキストを入力できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

多くの人が日常生活でスマートウォッチを使用しており、テキスト入力は音声タイピング、手書きのいずれかに依存しています。

[[442637]]

しかし、時には話すことができないかもしれませんし、このような小さな画面でキーボードを打つのが少し「窮屈」に感じるかもしれません。

ではどうすればいいでしょうか?

「エアタイピング」法を試してみるのもいいかもしれません。

浙江大学はAirTextというアプリケーションを開発した。指と手首を動かすだけで、時計が空中の文字を3.9%という低いエラー率で認識する。

スペル入力を高速化するための連想機能や推奨機能も搭載しています。

スマートウォッチに「エアタイピング」機能を搭載

AirText の開発における大きな課題は、手首の動きと指先のスペリングの動きの対応を理解させることでした。

下の図に示すように、文字を綴るときの手首の軌道は、通常の文字を綴るときとはまったく異なります。

これを実現するために、研究チームはまず、赤外線センサーを使用してジェスチャーを追跡できる市販のツール「Leap Motion」を使用しました。

その後、8人のボランティアが5つの異なるスマートウォッチを使用して25,000以上の文字を綴り、Leap Motionが関連する手首と指の動きのデータを収集しました。

その後、データはニューラル ネットワーク モデルに入力されてトレーニングされ、最終的に AirText はユーザーの手首の動きのわずかな変化に基づいて指先の軌道を推測できるようになります。

推定された軌跡は、スマートウォッチのみを使用して、対応する文字として効率的かつ正確に認識できます。

スペル入力を高速化するために、単語予測機能と推奨機能もシステムに搭載しました。

予測された単語は時計の画面の 4 方向に表示されます。時計を上下左右に傾けて選択できます (時計を振るとバックスペースが使えます)。

単語誤り率は3.9%でした

まず、AirTextの精度テストを見てみましょう。

測定指標はWER (Word Error Rate)で、誤った単語を正しく認識された単語に変換して計算されます。

誤った単語には、欠落している単語(I で示され、正しいスペルに校正するときに挿入する必要がある単語の数)、余分な単語(D で示され、削除する必要がある単語の数)、および誤った単語(S で示され、置き換える必要がある単語の数)の 3 種類があります。

AirText を 2 つのベースライン メソッド (IMU-CNN と BLSTM) と比較すると、AirText は最終的に最低スコアを達成し、最高の精度を示しました。

3つの平均スコアはそれぞれ3.9%、30.9%、57.1%でした。

上記は単一ユーザー、単一デバイスでの評価結果です。

より正確にするために、複数のユーザーと複数のデバイスもテストされ、結果は次のとおりです。

左の図では、同じユーザーが 5 つの異なるスマートウォッチを使用して AirText をテストし、それぞれ 8.3%、7.5%、6.5%、7.7%、3.9% の精度スコアを取得しました。

研究者らは、7%のWERは平均して15語ごとに1つの認識エラーがあることを意味し、これはエアライティングでは許容範囲内であると述べた。

右の図では、8 人の異なるユーザーが同じ時計を使用して、11.2%、5.9%、4.3%、4.0%、3.6%、5.9%、4.7%、3.9% の WER を取得しました。

このことから、デバイスの違いよりもユーザーの違いの方が精度に大きな影響を与えることがわかります。

しかし研究者らは、モデル更新コンポーネントの助けにより、AirTex はさまざまなユーザーに対して依然として高い精度を達成できると述べています。

次に速度テストを行います。

BLSTM ベースラインの WER は約 57% でエラー率が高すぎるため、研究者は AirText と IMU-CNN の速度のみを比較しました。

測定指標はWPM(1分あたりの単語数)で、入力した単語の総数を誤った単語の数/時間で割って算出されます。

その結果、AirText は平均 8.1 WPM を達成しましたが、IMU-CNN ベースラインはわずか 4.6 WPM しか達成しませんでした。

研究者らは、この入力速度は両手タッチスクリーンベースのテキスト入力方法(実際のアプリケーションではこれらの方法は 9.1 WPM と 9.8 WPM である)に匹敵すると指摘した。

全体的に、AirText の精度は良好ですが、速度を改善する必要があります。

遅くなる主な理由は、各文字を入力した後、しばらく一時停止する必要があることです。

研究者たちはそれを解読する方法を研究しており、最終的にはAirTextを商品化することに関心を示している。

著者について

浙江大学コンピュータサイエンス学部の助教授である Gao Yi 氏は、浙江大学で博士号を取得しました。彼の研究分野には、組み込みソフトウェア、ワイヤレスおよびモバイル コンピューティング、センサー ネットワーク、サイバー フィジカル システムなどがあります。

[[442642]]

責任著者は浙江大学コンピュータサイエンス学部の准教授兼博士課程指導者である Dong Wei です。彼は浙江大学で博士号も取得しています。彼の研究対象は、モノのインターネット システムとネットワーク、エッジ コンピューティング、ワイヤレス コンピューティングとモバイル コンピューティングです。

[[442643]]

Google Scholar の引用数は合計 3,000 件を超えます。

論文の宛先:
https://ieeexplore.ieee.org/document/9625777

<<:  リバースエンジニアリングの後、Transformer は数学的なフレームワークに「変換」します | 25 人の学者が記事を執筆しました

>>:  ロボティック プロセス オートメーション (RPA) を構築するための基本知識とベスト プラクティス

ブログ    
ブログ    

推薦する

ウェアラブル AI が IoT に与える影響

ウェアラブル人工知能がモノのインターネット (IoT) の発展に与える影響を探ります。デジタル時代の...

GitHub CEO: AIはプログラマーに取って代わることはできない

GitHub の CEO である Thomas Dohmke 氏は最近、人工知能とソフトウェア開発の...

放送・ホスティング業界における人工知能の限界についての簡単な分析

[[430680]]科学技術の継続的な発展により、人工知能は人間の生活のあらゆる側面に関わるだけでな...

失敗が頻発する中、AI 翻訳者はどのように進歩の道を続けるべきでしょうか?

[[248512]]当時、英語に支配されていた恐怖を覚えている人がどれだけいるでしょうか?前日に覚...

人工知能オンライン機能システムのデータアクセス技術

[[198103]] 1. オンライン機能システム主流のインターネット製品では、古典的な計算広告、検...

「新しいインフラ」に求められるAI人材のギャップをどう埋めるか

「新インフラ」がホットワードとなり、その重要な構成要素として人工知能に大きな期待が寄せられている。 ...

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。写...

...

もう一つの「無人工場」が誕生。残された労働者たちは何をするのでしょうか?

最近、ZTEの南京浜江インテリジェント製造基地が設立されたのを見たとき、私はまったく喜びを感じません...

大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...

Stable Diffusion で 1 秒で写真を作成しましょう。清華大学マスターアクセラレーターはホットなトレンドで、いくつかの企業が参加している

AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では...

見逃せないビッグデータと人工知能分野の役立つウェブサイトトップ10

AIやビッグデータなどの技術の急速な発展に伴い、関連する知識も普及してきました。数多くのウェブサイ...

AIはあらゆるブランドに影響を与えており、適応できないブランドは消滅するだろう

インテリジェントエージェントはブランドをスクリーニングし、商取引を再形成し、消費者の選択を導きます。...

プリンストン大学とインテルは、ResNetよりも大幅に高速で正確なParNetを提案している。

[[434088]]深さはディープ ニューラル ネットワークの鍵となりますが、深さが増すと、順次計...