GoogleはAIを使って「ヘッドフォンケーブル」をトレーニングし、タッチスクリーンのほとんどの機能を実現

GoogleはAIを使って「ヘッドフォンケーブル」をトレーニングし、タッチスクリーンのほとんどの機能を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google は、Levi's と共同で発売したスマート ジャケット Commuter Trucker など、ウェアラブル デバイスの開発を止めたことはありません。

衣服の袖口にセンサーが追加され、ユーザーは Bluetooth リンクを介してセンサーと対話できます。

ダブルクリックやスライドなどで曲の切り替えなどの操作が行えます。

Google は、引き続き努力することで、デバイスをより小型化し、より機能的にしたいと考えています。

その後、Google はヘッドフォン ケーブルに目を向けました。

GoogleのAIエンジニアは、つまむ、こする、持つ、叩くなどのジェスチャーを通じて、従来のタッチスクリーンの機能のほとんどを実現できる電子インタラクティブファブリック(E-Textile)を開発しました。

音量調節、曲の切り替えなどの操作もまったく問題ありません。Google の新機能は、私たちの手を自由にするという究極の目標を掲げ、知覚的インタラクションの次のステップを示しています。

ジェスチャーデータセットのトレーニングプロセス

Google が開発したこのデバイスは、機械学習アルゴリズムとセンサー ハードウェアを組み合わせたもので、ヘッドホン ケーブルは単なるキャリアに過ぎません。

実際、このケーブルは普通のヘッドホンケーブルではなく、センサーが織り込まれた柔軟な電子素材なので、人間とコンピューターの相互作用が可能です。

パーカーもお好みに応じて変形できます。

まず、Google はデータ収集のために 12 人の参加者を募集しました。各参加者は8 つのジェスチャーを 9 回繰り返し、合計 864 個の実験サンプルを作成しました。

サンプルサイズが小さすぎる問題を解決するために、研究者は線形補間を使用して各ジェスチャの時系列を再サンプリングしました。

各サンプルに対して16 個の特徴が抽出され、最終的に80 個の観測値が得られました。

トレーニングされたジェスチャ認識により、ユーザーごとに8 つの新しい個別のジェスチャが可能になります。

研究者たちは、定量的な数字だけでなく参加者の個人的な感情も考慮した、人間中心のインタラクティブな体験を提供したいと考えています。

参加者はランキングやコメントを通じて定性的なフィードバックも提供し、スワイプ、フリック、押す、つまむ、引っ張る、握るなど、さまざまなインタラクション方法を提案しました。

定量分析の結果、インタラクティブ ファブリックは既存のヘッドフォン ボタン コントロールよりも速く認識され、タッチ スクリーンと同等の速度であることが示されました。

定性的なフィードバックからも、電子テキスタイルインタラクションの方がヘッドフォンワイヤーコントロールよりも人気があることが分かります。

研究者はさまざまな使用シナリオを考慮して、さまざまな使用シナリオに合わせてさまざまなデバイスを開発しました。

携帯電話でのメディア再生を制御する電子テキスタイルUSB-C イヤホン、衣服に目に見えない形で音楽コントロールを追加するパーカーの引き紐。

アルゴリズムがジェスチャーを正確に認識

Google にとって電子ファブリックを作る上での難しさは、機械学習アルゴリズムではなく、ヘッドホンコード上のジェスチャーをキャプチャして操作する方法にあります。

サイズ上の理由から、ヘッドフォンケーブルなどの織り素材には、大型で多数のセンサーを装備することができず、その認識能力と解像度は大幅に制限されます。

第二に、人間の手のジェスチャーの曖昧さと不明確さがあります。たとえば、つまむこととつかむことをどのように区別するのでしょうか。また、叩くことと引っ張ることをどのように区別するのでしょうか。

Google のエンジニアは8 つの電極を使用してセンサー マトリックスを形成し、データセットをトレーニング データ用に 8 回、テスト データ用に 1 回に分割し、9 つのジェスチャー変換を取得しました。

彼らは、センサーマトリックスには機械学習分類アルゴリズムに非常に適した固有の関係があることを発見しました。これにより、分類アルゴリズムは限られたデータセットを使用してトレーニングされ、約30秒ジェスチャー認識を実現できます。

最終的な精度は 93.8% で、データセットのサイズと使用したトレーニング時間を考慮すると、日常使用には十分でした。

ヘッドフォンコントロールの次のステップ

今回 Google がヘッドフォン ケーブルに施したトレーニングには、ジェスチャー認識とマイクロインタラクションという 2 つの側面が含まれています。

タッチ スクリーン デバイスでは、画面の下のスペースに、Apple の 3D Touch 認識モジュールなどの多数のセンサーを配置できます。

しかし、ヘッドフォンケーブルなどの外部デバイスの場合、センサーの数とサイズが制限されているため、それほど簡単ではない可能性があります。

実験中、エンジニアは、複数のジェスチャーには複数のトレーニングが必要であり、異なる個々のジェスチャーを複数回キャプチャする必要があることを発見しました。

この研究は、コンパクトなフォームファクターで精密な小規模動作を実現できることを示しており、スマートでインタラクティブなファブリックの開発が期待できます。

ある日。ウェアラブル インターフェースとスマート ファブリックのマイクロ インタラクションは任意に使用できるため、最終的には体外デバイスがどこにでも私たちと一緒に移動し、いつでもインタラクトできるようになり、私たちの手が自由になります。

この日を楽しみにしていますか?

<<:  このおもちゃからヒントを得たアクチュエータは、ソフトロボットにジャンプする能力を与える可能性がある。

>>:  世界初の3D AI合成キャスターがデビューし、2つのセッションの取材にも参加。ネットユーザー:キャスターは失業中

ブログ    
ブログ    

推薦する

ドローンが上海の歴史的建造物の保護を主導

[[418446]]上海のピースホテルはかつて「極東第一のビル」として知られていました。1929年に...

人工知能が誤って解釈する画像とはどのようなものでしょうか?

ウィリアム・ギブソンの2010年の小説『ゼロ・ヒストリー』では、ある登場人物が「これまでで最も醜いT...

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できる...

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

人工知能がITを変える5つの方法

IT サービス デスクからデータ分析の最前線、新しいツール、戦略、関係まで、AI は IT 組織をど...

機械学習プロジェクトにおける特徴エンジニアリングの 5 つのベスト プラクティス

私たちは長年にわたり、機械学習プロジェクトで何が機能し、何が機能しないかを特定するために、さまざまな...

人工知能による画像認識では、データのラベル付けはどのように機能するのでしょうか?

画像処理技術の急速な発展に伴い、画像認識技術が生まれ、発展し、徐々に人工知能分野の重要な部分となり、...

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

...

ChatGPT「ピクチャートーク」が大変身しました!舞台裏で新型GPT-4Vモデルが公開

ChatGPTに音声・画像機能が加わりました! ChatGPT にログインすると、より直感的なインタ...

ウルトラマンが解雇されるのは今回が初めてではない! YCを去った人物は「創設者から去るように言われた」

ウルトラマンニウフルが「追い出される」のは初めてではないでしょうか? ? !予想外にも、OpenAI...

...

マイクロソフト CEO ナデラ氏へのインタビュー: 人工知能の全体的な方向性と将来はどのようなものでしょうか?

人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...

Facebookの広告システムの背後にあるペーシングアルゴリズム

[[163141]]先月、Facebook は 2015 年第 4 四半期の驚異的な財務結果を発表し...

アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...