この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 初めてモバイル音声アシスタントを使用したとき、私が興奮して質問すると、いつも「何を言っているのか分からないようですが…」という残念な答えが返ってきました。 その後、テクノロジーが進化し、ようやくいくつかのキーワードを通じて私の言ったことを理解できるようになりました。しかし、それは非常に厳格で、一語一句正確で、非常に定型的です。 人工知能がますます「賢くなり」、人間に近づいていることは否定できません。将来はどうなるのでしょうか? 最近、清華大学人工知能研究所、北京人工知能学院、清華・中国工学知識知能共同研究センターは、「人工知能におけるヒューマン・コンピュータ・インタラクション」報告書(以下、「報告書」という)を発表しました。「報告書」は、その概念的定義と発展の歴史を整理し、主要な技術の発展、分野の専門家の現状、応用分野に焦点を当て、ヒューマン・コンピュータ・インタラクションの将来の発展動向を探りました。 このレポートの全文pdfを入手したい場合は、Leiphone.com(公開アカウント:Leiphone.com)(公開アカウント:Leiphone.com(公開アカウント:Leiphone.com))WeChat(leiphone-sz)でキーワード「609レポート」に返信して抽出してください。 資料出典:清華大学人工知能研究所 1. 人間とコンピュータのインタラクションの歴史1. コンセプトヒューマン コンピュータ インタラクション (HCI) という用語は、Stuart K. Card、Allen Newell、Thomas P. Moran が執筆した「ヒューマン コンピュータ インタラクションの心理学」という書籍で初めて使用されました。これは、システムとユーザー間のインタラクティブな関係を研究する分野です。システムには、さまざまな機械やコンピュータ化されたシステム、ソフトウェアが含まれます。 ヒューマン・コンピュータ・インタラクション・インターフェースとは、通常、ユーザーに見える部分を指します。ユーザーはヒューマン・コンピュータ・インタラクション・インターフェースを介してシステムと通信し、操作を実行します。ヒューマンコンピュータインタラクション技術は、コンピュータのユーザーインターフェース設計における重要な内容の 1 つであり、認知科学、人間工学、心理学などの分野と密接に関連しています。 ヒューマン・コンピュータ・インタラクション技術の発展は、国民経済の発展と直接関係しており、情報技術を社会に融合させ、大衆に浸透させ、広範な応用を実現するための技術的な境界である。新しいインタラクティブ テクノロジーの誕生は、新しいユーザー、新しい応用分野、そして莫大な社会的、経済的利益をもたらします。 企業の観点から見ると、人間とコンピュータのインタラクションを改善することで従業員の生産性を向上させることができ、人間とコンピュータのインタラクションを習得することで製品のその後のサポートコストを削減することができます。 個人的な観点から見ると、ユーザーはエラーの可能性を効果的に減らし、エラーによる損失を回避することができます。 現代社会および未来社会において、人々が通信、コンピュータ、その他の情報処理技術を使用して社会活動を遂行する限り、人間とコンピュータの相互作用は永遠のテーマとなるでしょう。科学技術の発展におけるその重要性を考えると、人間とコンピュータの相互作用は現代の情報技術と人工知能技術における注目の研究方向です。 2. 開発の経緯過去数十年にわたり、ヒューマン コンピュータ インターフェイスは、コマンド ライン インターフェイスからグラフィカル ユーザー インターフェイスまで、2 つの主要な開発段階を経て進化してきました。近年、ヒューマン コンピュータ インターフェイスの開発では、インタラクションの自然さ、つまりユーザーのインタラクション動作が生理的および認知的習慣と一致していることがますます重視されるようになりました。登場したインタラクション インターフェイスの主な形式は、タッチ インタラクション インターフェイスと 3 次元インタラクション インターフェイスです。
コマンドライン インターフェイス (CLI) に基づいて、ユーザーはキーボードを使用して特定のルールに従って文字を入力し、マシンが認識してコンピューターの実行をトリガーできるコマンドとパラメーターを形成します。 利点は、キーボード入力の精度が比較的高く、冗長な操作がほとんど必要ないため、熟練したユーザーは極めて高いインタラクション効率を達成できることです。同時に、ルール設計を通じて、コマンドラインインターフェースは豊富で柔軟なコマンド形式もサポートできます。 コマンドラインインターフェースの欠点は、インタラクションが非常に直感的ではないことです。マシンコマンドは自然言語の構築ルールからかけ離れていることが多いため、ユーザーは大量の命令を記憶する必要があり、高い効率を達成するにはコンピューター分野の専門知識とスキルが必要になることもあります。これにより、初心者ユーザーの学習コストが大幅に増加し、コマンドライン インターフェイスを使用する際の一般ユーザーのエクスペリエンスにも大きな影響が及びます。
グラフィカル ユーザー インターフェイスには通常、ウィンドウ、アイコン、メニュー、ポインターという 4 つの主要なインタラクティブ要素が含まれます。ユーザーはポインターを制御して、ウィンドウ、アイコン、メニューなどの表示要素を指し示し、対話型タスクを完了します。広義では、グラフィカル ユーザー インターフェイスは、プログラム コマンドやデータをグラフィックスを使用して表現するインターフェイス システムを指しますが、狭義では、グラフィカル ユーザー インターフェイスは通常、パーソナル コンピューター (PC) 上の 2 次元 WIMP インターフェイスを指します。 現時点では、ユーザーがインターフェースを操作するために使用するデバイスは、一般的にキーボードとマウスです。 グラフィカル ユーザー インターフェイスの大きな利点の 1 つは、抽象的なコマンドがなくなり、物理的な世界と対話する人々の経験を活用してコンピューターと対話することで、ユーザーの学習コストと認知コストが大幅に削減されることです。しかし、グラフィカル ユーザー インターフェイスの基本的な操作はポインティングであり、つまり、ユーザーはポインターを使用して対話型ターゲットを選択する必要があるため、ユーザーのポインティング操作の精度に対する要件が高くなることがよくあります。さらに、マウスデバイスが配置されている制御領域(Motor Space)と、インターフェースが表示される表示領域(Visual Space)が分離されているため、ユーザーはターゲットに対して間接的なインタラクティブ操作(Indirect Manipulation)を実行する必要があり、インタラクションの難易度がさらに高まります。
タッチ操作インターフェースには通常、ページ、ウィジェット、アイコン、ジェスチャという 4 つの主要なタイプのインタラクティブ要素が含まれます。ユーザーは、タッチ、長押し、ドラッグなどにより指で触れたターゲットを直接操作したり、ジェスチャを描くことで対話型コマンドをトリガーしたりできます。 現在、タッチ インターフェースは主にスマートフォンなどのデバイスやスマートウォッチなどのウェアラブル デバイスに搭載されています。タッチインタラクションインターフェースの利点は、物理的な世界で物体に触れるという人々の経験を最大限に活用し、間接的なインタラクション操作を直接的なインタラクション操作(直接操作)に変換することで、ある程度の触覚フィードバックを維持しながら、ユーザーの学習コストと認知コストをさらに削減できることです。 しかし、タッチ操作には有名な「太い指の問題」があります。つまり、指自体の柔らかさと、指がクリックしたときに画面の表示内容が遮られるため、タッチスクリーンをクリックするときに着地点の位置を正確に制御することが難しいことが多く、入力信号の粒度がインタラクティブ要素の応答粒度よりもはるかに低くなります。同時に、タッチ インタラクション インターフェイスは依然として 2 次元インターフェイスであるため、3 次元のインタラクティブ要素を使用した一部のインタラクティブ操作が制限されます。
ユーザーは一般的に、身体(手や体の関節など)を使って何らかの動き(空中を指す、手足の軌跡を動かすなど)をすることで、3 次元空間内のインターフェース要素と対話します。コンピューターはユーザーの動きをキャプチャし、意図を推測して対応する対話型機能をトリガーします。 現在、3 次元インタラクティブ インターフェースは、主に体性感覚インタラクション、仮想現実、拡張現実などのインタラクティブ シナリオに存在しています。 3 次元インタラクティブ インターフェースの利点は、2 次元インタラクティブ インターフェースの制限をさらに打ち破り、インタラクションを 3 次元空間に拡張できることです。 したがって、ユーザーは現実世界と同じように仮想の 3 次元オブジェクトと対話することができ、対話の自然さがさらに向上し、学習コストが削減されます。 しかし、3次元インタラクションの課題は、触覚フィードバックがまったくないため、ユーザーのアクションのノイズが比較的大きく、インタラクティブなアクションを体の自然な動きと区別することが難しいことです。その結果、入力信号の信号対雑音比が比較的低く、インタラクションの意図を正確に推測することが難しく、インタラクティブ入力の精度が制限されます。 さらに、モーションインタラクションの振幅は、一般的にグラフィカルユーザーインターフェースやタッチインタラクションインターフェースよりも大きいため、インタラクションの効率も低く、ユーザーが疲れを感じやすくなる可能性が高くなります。 2. 技術開発の方向性現在、ヒューマンコンピュータインタラクション技術の主な開発方向には、以下のカテゴリが含まれます。 タッチインタラクション、音声制御インタラクション、モーションインタラクション、目の動きによるインタラクション、仮想現実入力、マルチモーダルインタラクション、インテリジェントインタラクションなど。 1. タッチインタラクションディスプレイが、単にユーザーに視覚情報を出力するものから、インタラクティブなインターフェース デバイスへと変化したのは、主に、特にモバイル デバイスでの使用を目的とした、ディスプレイとタッチ機能の統合によるものです。 現在、タッチ操作を実現する技術的な方法は 4 つあります。
抵抗膜方式タッチスクリーンは、圧力感知の原理を利用して画面を操作および制御します。指が画面に触れると、フィルムの下層の ITO とガラスの上層の ITO が接触し、導電層の片側に X 軸方向に 5V の均一な電圧場が伝導されます。このとき、サンプリングされた電圧はゼロから正の電圧値に変化します。センサーは電圧伝導を検出し、対応する電気信号を送信し、アナログ/デジタル変換を実行し、最後に変換された電圧値を 5V と比較して、タッチポイントの X 軸座標値を計算します。同様に、Y 軸の座標値を計算し、クリックアクションを完了して画面に表示することができます。
指が静電容量式タッチスクリーンに触れると、高周波信号が作業面に接続されます。このとき、指とタッチスクリーンの作業面の間には導体に相当する結合コンデンサが形成されます。作業面には高周波信号があるため、指が触れるとタッチポイントで小さな電流が吸収されます。この小さな電流は、タッチスクリーンの四隅の電極から流れ出します。4つの電極を流れる電流は、指から四隅までの直線距離に比例します。コントローラは、4つの電流の比率を計算することで、接触点の座標値を取得できます。
指が画面に触れると、赤外線が遮断され、赤外線送信管とそれに対応する赤外線受信管が順番に選択され、画面上に赤外線マトリックス平面が形成され、赤外線受信端の電圧が変化します。赤外線受信端の電圧はA/D変換によって制御端に送信され、制御端はこれに基づいてタッチ位置を計算します。
表面弾性波タッチスクリーンは、主に強化ガラスの角に設置された超音波トランスデューサーを利用してタッチ制御を実現します。指がディスプレイ画面に触れると、指が音波エネルギーの一部の伝播をブロックします。このとき、受信波形が変化します。波形グラフでは、ある瞬間に波形が減衰していることがわかります。コントローラは、この減衰信号を通じてタッチポイントの位置を計算できます。 2. 音声制御によるインタラクション
音声認識は、音声データをコンピューターで処理できるテキストやその他の情報に変換する技術です。主に、特徴抽出、音響モデル、言語モデル、デコーダー検索の 4 つの部分で構成されます。
音声合成は、一連の入力テキスト信号シーケンスを適切なリズム処理の後に合成装置で処理し、可能な限り豊かな表現力と高い自然さを備えた音声出力を生成する技術であり、これにより、コンピュータまたは関連システムが「人間」のような自然で流暢な音声を生成できるようになります。 音声合成の開発は、機械的な音声合成、電子的な音声合成、コンピューターベースの音声合成の段階を経てきました。音声合成は、具体的にはルール駆動型とデータ駆動型に分けられます。 3. アクションインタラクションターゲットの取得は、人間とコンピュータのインタラクション プロセスにおける最も基本的なインタラクティブ タスクです。ユーザーは、対話するターゲットをコンピュータに指示し、これに基づいて他のインタラクティブ コマンドが完了します。インタラクティブ インターフェースの発展により、従来のインタラクティブ デバイス (マウスやキーボードなど) は、長距離の大画面、仮想現実、拡張現実デバイスなど、多くの自然なインタラクティブ インターフェースでのターゲット取得タスクを完了するために使用できなくなりました。 したがって、研究者はこれらのインターフェース上で、モーションインタラクションを使用して目標獲得タスクを完了する可能性のある方法を模索しています。主な入力方法は直接入力と間接入力に分けられます。 直接アクション選択では、ユーザーはターゲットの場所をタッチして選択する必要があります。たとえば、拡張現実アプリケーションでは、ユーザーは手でタッチして仮想オブジェクトを選択します。 間接的なターゲット選択方法では、ユーザーはカーソルを操作して身体部位の位置と姿勢に沿って移動させ、カーソルを使用して選択するターゲットの位置を示す必要があります。その中でも、広く使われているカーソル制御方式がレイキャスティングです。
ジェスチャは、人間の手または手と腕の組み合わせによって生み出されるさまざまな姿勢や動きとして定義できます。ジェスチャは、静的ジェスチャ (姿勢、片手の形状を指す) と動的ジェスチャ (動きを指す、一連のジェスチャで構成される) に分けられます。前者はモデル空間内の点に対応し、後者は軌跡に対応します。したがって、ジェスチャ認識は、静的ジェスチャ認識と動的ジェスチャ認識に分けられます。
姿勢認識に一般的に使用されるアルゴリズムには、(1)テンプレートマッチングに基づく身体姿勢認識方法、(2)状態空間に基づく身体姿勢認識方法、(3)意味記述に基づく身体姿勢認識方法の3種類があります。 4.視線の動きによるインタラクション人工知能技術を使用して、眼球運動計算の精度と効率を向上させ、人の知覚と認知状態を深く理解し、「人間が関与する」インテリジェントな人間とコンピュータの相互作用フレームワークを構築し、人間とコンピュータの共生に基づくユーザー主導の自動化システムと AI システムを実現します。 一般的な眼球運動インタラクションの方法には、次のようなものがあります。
滞留時間トリガーとは、視線の滞留時間が一定のレベルに達すると、マウスのクリックやキーボードのボタンなどの従来の入力デバイスの代わりに視線を使用して、対応する実行操作をトリガーできることを意味します。滞留時間トリガーは、主にグラフィカル インターフェイスの制御やマウス カーソルの配置などに使用され、一般的な視線移動インタラクション方法です。また、ユーザーの意識的な制御意図を反映して、インタラクションをより適切に完了することもできます。
スムーズな追跡動作は、観察シーン内に動きの遅い物体やターゲットがある場合によく発生し、視線はスムーズな追跡動作状態を生み出します。滑らかな追跡運動は、継続的なフィードバックの状態です。目は、移動するターゲットの信号をキャッチし、ターゲットの移動速度、方向、角度などの情報を脳にフィードバックし、その後、眼球を制御して、相対的に移動するターゲットオブジェクトを追跡します。このプロセスでは、無意識の眼球運動やその他の動作も発生する可能性があります。動くターゲットのないシーンでは、この眼球運動動作は通常発生しません。そのため、スムーズ パーシュート トリガーは、一般的によく使用される眼球運動インタラクション方法ではありません。
まばたき動作をインタラクションに使用する場合、まばたきの頻度が一定レベルを超えた場合や、まばたき中に一定の閾値を超えて目を閉じている場合など、意識的なまばたきを識別する必要があります。まばたきのトリガーは比較的簡単ですが、人間の目が長時間閉じている場合、アイトラッカーは瞳孔を捉えることができず、注視点が失われる可能性があり、視線制御システムの精度にある程度影響を及ぼします。
アイジェスチャーは眼球運動に基づいて提案されましたが、両者の違いは、アイジェスチャーは多くの場合、人が場面や物体を観察するときに起こる無意識の視線の移動であるということです。アイジェスチャーの開始点と終了点は不明であり、人の視覚的注意に依存します。目のジェスチャーは、一連の順序付けられた視線の移動として定義され、それぞれの視線の移動は、2 つの固定された注視点または注視領域間の意図的な視線移動です。したがって、目の動きによるインタラクションの新しい形としての目のジェスチャーは、人々の意識的な誘発意図を反映することができます。移動経路が異なると、異なる目のジェスチャーが定義され、異なる目のジェスチャーが、異なる操作指示にマッピングされます。アイジェスチャーは、シングルストロークアイジェスチャーとマルチストロークアイジェスチャーに分けられます。 5.バーチャルリアリティ入力テキスト入力は、アプリケーションにおける重要なインタラクティブ テクノロジとして、アプリケーションに重要なインタラクティブ エクスペリエンスを提供します。現在、仮想現実に適したさまざまなテキスト入力技術が開発されています。既存のVRテキスト入力技術には、主に物理キーボード技術、仮想キーボード技術、および新しい入力技術(手入力技術、円形キーボード入力技術、立体入力技術)が含まれます。 6.マルチモーダルインタラクションさまざまな入力形式 (音声、ジェスチャー、タッチ、視線など) の組み合わせはマルチモーダル インタラクション モデルと呼ばれ、その目的は、ユーザーにコンピューターと対話するための複数の選択肢を提供して、自然なユーザー選択をサポートすることです。 従来の単一インターフェースと比較して、マルチモーダル インターフェースは複数の入力モードの組み合わせとして定義できます。これらの組み合わせは、6 つの基本タイプに分類できます。 補完的: 2 つ以上の入力方式が連携してコマンドを発行する場合、それらは互いに補完し合います。 重複: 2 つ以上の入力方式が同時にアプリケーションに情報を送信する場合、それらの入力方式は冗長になります。各モダリティに同じコマンドを発行させることで、複数のメッセージは誤認の問題を解決し、システムが実行する必要があるアクションを強化するのに役立ちます。 同等性: ユーザーが複数の入力方式を選択できる場合、2 つ以上の入力方式は同等です。 たとえば、ユーザーは音声コマンドを発行したり、仮想パレットからオブジェクトを選択したりすることで、仮想オブジェクトを作成できます。これら 2 つのモダリティは同等の相互作用を示し、最終結果は同じになります。 プロフェッショナル: 特定のモダリティが特定のタスクに常に使用される場合、そのモダリティはそのタスクに適しているか、そのタスクに最適な選択であるため、プロフェッショナル モダリティになります。 同時実行性: 2 つ以上の入力モダリティが同時に異なるコマンドを発行する場合、それらは同時実行です。たとえば、ユーザーは手のジェスチャーを使用して仮想環境を移動しながら、同時に音声コマンドを使用してその環境内のオブジェクトについて質問します。並行性により、ユーザーはコマンドを発行して実行することができます。これは、夕食を作りながら電話をかけるという現実世界のタスクに反映されています。 変換的: 2 つの入力様式が相互に情報を受信すると、その情報を変換し、特定のタスクを完了するために使用します。マルチモーダル インタラクション変換の最も優れた例の 1 つは、プッシュ ツー トーク インターフェイスです。このインターフェイスでは、音声モダリティが、通話をアクティブにする必要があることを通知するジェスチャから情報を取得します。 7.情報アクセシビリティにおけるインテリジェントインタラクティブテクノロジー情報アクセシビリティとは、情報技術を利用して障害のある人の身体的・認知的欠陥を補い、他者、現実世界、情報機器と円滑にやりとりできるようにすることを目的とした学際的な技術・応用分野です。 研究および応用レベルの観点から見ると、情報アクセシビリティは全体としてまだ比較的初期段階にあります。 応用面では、基本的な機能を備えた技術は情報へのアクセスやデバイスの使用に使用できますが、効果や効率などのユーザビリティ指標は高くありません。現実世界では、聴覚障害者が他の人とコミュニケーションをとったり、視覚障害者が自立して移動したりすることをサポートできる新しい技術はまだプロトタイプとコンセプトの段階にあります。 3. 今後の動向分析1. テクノロジーのトレンドテクノロジートレンド分析は、テクノロジーの出現、変化、衰退の全プロセスを説明します。研究者が分野の研究の歴史と現状を理解し、研究における最先端のホットな問題を迅速に特定するのに役立ちます。技術トレンドの分析を通じて、この分野で最も注目されている研究テーマトップ 10 は、仮想現実、拡張現実、ソーシャル メディア、ソーシャル インタラクション、インタラクション デザイン、モバイル デバイス、ソーシャル ネットワーク、ユビキタス コンピューティング、携帯電話、インタラクション テクニックであることがわかります。 2. 国内の動向国別の傾向分析によると、人間とコンピュータの相互作用に関する研究への関心が最も高い上位 10 か国は、米国、英国、ドイツ、カナダ、中国、日本、韓国、オーストラリア、フランス、オランダです。 3. 制度的動向機関の傾向分析によると、人間とコンピュータの相互作用の研究分野における上位 10 機関は、カーネギーメロン大学、ワシントン大学、カリフォルニア大学、スタンフォード大学、ミシガン大学、マサチューセッツ工科大学、ジョージア工科大学、コーネル大学、ソウル国立大学、延世大学です。 端末製品の主要技術として、ヒューマン・コンピュータ・インタラクションの役割は業界で広く認識されています。さまざまな自然なインタラクション技術と新しいインタラクティブ端末が次々と発表されていますが、グラフィカル・ユーザー・インターフェースは依然としてインタラクションの主流となっています。コンピューティングは遍在しており、人間とコンピュータのインタラクションの研究開発には巨大な余地があります。自然で効率的なインタラクションが開発のトレンドです。自然インタラクション技術の科学的原理を包括的に探求し、明確な最適化目標を設定し、インテリジェント技術を組み合わせて、効率的で使いやすい自然インタラクション技術を開発する必要があります。 |
<<: AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない
>>: AIを使用してC++、Java、Pythonコードを翻訳し、最大成功率は80.9%です。
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...
[[390945]] [51CTO.com 速訳]人工知能の普及は人々に大きな期待をもたらしました。...
人工知能と機械学習が DevOps に新たな自動化機能をもたらすにつれて、これらのテクノロジーが組織...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...
ポーリング アルゴリズム: 受信したリクエストをバックエンド サーバーに順番に転送します。現在のサー...
AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...
[[234677]]画像出典: Visual China韓国がドイツを2対0で破った後、私の別のグル...
アルゴリズムの式はかなり面倒で、機械学習は苦痛すぎる。機械学習を初めて学ぶ人は、複雑な数式やわかりに...