AIインタラクションエクスペリエンスを向上させるにはどうすればよいでしょうか?まずこの三元理論を理解しましょう

AIインタラクションエクスペリエンスを向上させるにはどうすればよいでしょうか?まずこの三元理論を理解しましょう

概要:人工知能製品が徐々に人々の仕事、生活、娯楽に浸透し、あらゆる分野に革命的な変化をもたらすことは間違いありません。将来、製品同士、製品と環境、製品とユーザーの間の境界は非常に曖昧になります。人々は複数のデバイスをシームレスに飛び越えて密接につながり、「私はあなたの中にいて、あなたは私の中にいる」という統合された全体を形成します。人工知能の時代において、「ネイティブハードウェア」、「AIエンジン」、「スマートアプリ」は、完全なインテリジェントエクスペリエンスとサービスのクローズドループを構成する3つの要素です。

図1: 人工知能の三元理論

導入

1956年にダートマス大学で人工知能が正式に提案されてから60年以上が経ちました。しかし、「人工知能」がホットワードとなり、世間の注目を集めるようになったのは、AlphaGoがイ・セドルに勝ち、柯潔がAlphaGoに3度負けてからでした。実際、過去 1 ~ 2 年の間に、大手テクノロジー企業はすでに人工知能の分野で詳細なレイアウトを作成しています。仮想アシスタントのSiriやMicrosoft XiaoIceから、さまざまな大手企業のスマートスピーカーやスマートドライビングまで、人工知能製品は徐々に私たちの生活の一部になりつつあります。あらゆるものを混乱させると見られる人工知能の時代において、製品の問題点は何でしょうか? インタラクションはどのように変化するでしょうか? どのようなインタラクション デザインにより、ユーザーは人工知能製品を使用する際に究極の体験を得ることができるのでしょうか?

市場にあるいくつかの人工知能製品の使用経験と「AIツアーガイド」(NetDragonが第1回デジタルチャイナサミットのためにカスタマイズしたスマートツアーガイドで、ゲストに屋内の道案内、会議情報の問い合わせ、百科事典の知識の回答、写真撮影などのスマートサービスを提供できる)プロジェクトの実行プロセスの分析を通じて、いくつかの問題点が見つかりました。

現在のAI製品体験の問題点

1. ネイティブハードウェアに大きく依存している

インテリジェントなインタラクションは、知覚→計算→実行フィードバックのプロセスとして理解できます。グラフィカル ユーザー インターフェイス (GUI) インタラクションの入力 (マウスまたはタッチ) とは異なり、知覚は人工知能インタラクションの最大の特徴です。権限、プロセス、デバイスの機能、その他の要因によって制限されているため、アプリと AI エンジンはどちらも、基盤となるセンサーやコンピューティング ユニットにいつでもシームレスにアクセスすることが困難です。人や周囲の環境を情報入力として認識するハードウェア レベルのセンサーがなければ、最適なエクスペリエンスを実現することはできません。

2. 自発性と自発性の欠如

現在、大手メーカーが発売したスマートスピーカーなど、スマートホームハードウェアは人工知能が最も広く使われている分野です。ロボットとの会話を開始する場合、ユーザーはロボットのボタンをクリックし、コマンドを発行するたびに 1 回呼び出す必要があります。その後、1 対 1 のシングル スレッドの会話が行われます。これが一種の「不自然な音声インタラクション」であることは容易に分かるが、その本質は単に手動制御方法の変更に過ぎない。既存のスマートスピーカー(Xiaomi Xiaoai、Tmall Genie、Himalaya Xiaoya、Baidu Xiaodu、Dingdong 2nd Generation)について、音声操作に関するTmallとJDの消費者からのフィードバックを整理しました。ユーザーが頻繁に起動する必要があることに不満を抱いていることは明らかです。

図2 スマートスピーカーの問題点

AIツアーガイドプロジェクトの初期段階では、技術的および経験的な混乱もありました。

  • テクノロジー: 会場が騒がしいため、音声起動のツアーガイドとの対話の成功率は大幅に低下します。
  • エクスペリエンス: フィードバックを提供する前に、ユーザーがヘルプを求めるまで待つ必要があるのはなぜですか? 会場サービス プロバイダーとして、ヘルプを必要とするすべてのユーザーを積極的に発見し、理解することはできますか?

シナリオを再検討した後、ガイドマシンは音声覚醒ソリューションをキャンセルし、代わりに人物の画像を取得し、奥行き距離に基づいてユーザーが近距離インタラクショントリガーゾーンに入ったかどうかを判断し、顔認識(時間に基づき、横から通り過ぎる人をフィルタリング)に基づいてユーザーにインタラクションの意図があるかどうかを判断し、次にユーザーに積極的に質問しました。お客様、何かお手伝いしましょうか?

ユーザーを理解し、積極的にサービスを提供することは人工知能製品の利点ですが、デザイナーが克服しなければならないギャップでもあります。受動的なコマンド受け入れモードから能動的なサービス指向のインテリジェント製品モードへ、そしてユーザー主導モードから能動的なサービスモードへアップグレードすることは、将来の人工知能の「自然な相互作用」にさらに沿うものとなります。

3. 情報収集の正確性と効率性

音声ユーザーインターフェース(VUI)は、自然言語を介して人間とコンピューターが対話するものであり、現在の人工知能製品の主流の対話方法でもあります。

人間の感覚から見ると、視覚によって受け取る情報量は聴覚によって受け取る情報量よりもはるかに多いです。コンテンツ情報の形式の観点から見ると、グラフィカルユーザーインターフェイス(GUI)は主に画像とテキストで構成され、視覚に依存しますが、音声ユーザーインターフェイス(VUI)は主に音とテキストで構成され、聴覚に依存します。

脳は、目から最大 100 Mbps、蝸牛から最大 1 Mbps の情報しか受信できません。 [1]

画像を情報伝達媒体として使用すると、視覚的な読み取りは聴覚的な読み取りよりも 5 倍多くの情報を伝達できます。目のもう一つの特別な特徴は、スキャンすることで 1 秒間に 3 つの異なる場所を見ることができることです。 [2]

一方、コンテキスト認識、つまり人間の認知能力が欠如しているため、人工知能は依然としてコンテキストを十分に理解できず、ユーザーが誰であるか、ユーザーの感情、現在の環境、過去の記憶に基づいて次のステップを正確に予測することができません。

純粋な音声によるインタラクションはユーザーエクスペリエンスの面で欠陥があり、情報取得の効率と精度をさらに向上させる必要があります。

AI製品インタラクションの核

PC インターネット時代からモバイル インターネット時代に至るまで、製品のインタラクションは依然として主にグラフィカル ユーザー インターフェイス (GUI) に基づいています。しかし、人工知能の時代では、人と製品 (スマート アプリ、ウェアラブル デバイス、スマート ハードウェア) のつながりがより緊密かつ深くなっています。人間とコンピュータのインタラクションは、人間と画面の間の単純なシングルスレッド モードから、音声インタラクション、ジェスチャー インタラクション、拡張現実インタラクションなどのマルチスレッド モードへと拡大し、「自然なインタラクション」の時代に入ります。ナチュラルユーザーインターフェースは、人間とコンピュータのインタラクションにおける新たなパラダイムシフトです。現実世界の環境と状況を研究し、新たな技術的機能と認識ソリューションを使用して、物理オブジェクトとデジタルオブジェクト間のより正確で最適化されたインタラクションを実現し、ユーザーインターフェースを見えなくしたり、インタラクションの学習プロセスを見えなくしたりするという目標を達成します。その中核となるのは、従来の人間の能力(触覚、視覚、発話、手書き、動きなど)と、より重要な高レベルのプロセス(認知、創造性、探索など)です[3]。現在の AI 体験の問題点と将来の人間とコンピューターのインタラクションの中核に基づいて、私たちは AI インタラクションの 3 つの要素、「ネイティブ ハードウェア」、「AI エンジン」、「スマート アプリ」を提案します。3 つの要素が統合され、密接にリンクされているため、体験がより自然になります。

AIインタラクションの三者理論

1. ネイティブハードウェア

「AI ツアー ガイド」プロジェクトの PRD ドキュメントには、画像キャプチャに関する 2 つの要件があります。

顔を認識して仮想キャラクターと一緒に写真を撮り、ユーザーの性別を判別し、装飾のための追加処理を行います。

  • ユーザーのアクションをキャプチャし、仮想ツアーガイドと対話します。
  • これら 2 つの要件に基づくと、従来のツアーガイド マシンの前面カメラでは要件を満たすことができないことがわかります。
  • 利用可能な画像の範囲は限られています。
  • 深度カメラの深度値を取得できません。
  • ユーザーアクションをキャプチャできません。

そのため、開発者は、ガイド マシンの Kinect2 と同じ構成で RGB カメラ深度/IR カメラを構成し、広い空間での要件を満たす RGB 視野 (FOV) を形成しました。

図3 カメラの視野角の透視図

チップ、センサー、コンピューティング ユニット、実行ユニットは、インテリジェントなインタラクションにおける認識、処理、フィードバックを非常にうまく処理できます。現在、さまざまなセンシングデバイスが、距離、光、音量、顔、動き、温度、湿度など、さまざまな環境情報を正確に検出できます。センサーによって収集された情報は、人と物理空間を結びつける仮想空間である情報空間を形成します。国務院が発表した「新世代人工知能発展計画」[4]でも、この空間の構築と利用が強調されている。

ユーザーの使用状況データを自動的に記録し、ユーザーの使用習慣を自動的に分析し、ユーザーに最適な推奨事項を自動的に提供することで、これらすべてがネイティブ ハードウェアに依存します。粘度が高く、生活に近いシナリオを備えたハードウェアは、携帯電話、時計、車載デバイス、スピーカー、ヘッドフォン、テレビ、冷蔵庫などのスマート製品を展開する大企業にとって最適なエントリーポイントとなっています。

もちろん、今後のハードウェアも早急にアップグレードする必要があります。入出力を単純なグラフィカル インターフェースや音声だけに頼ると、情報取得の精度と効率が低下します。ハードウェアは、聴覚、視覚、触覚、イメージングなどの多次元情報の入力または表示をサポートする必要があります。音声、さらには複合現実(Mixed Reality)、ホログラフィック投影などと組み合わせたグラフィカルユーザーインターフェイスにより、人工知能のインタラクションはより立体的で直感的になります。そして、これらすべては、より効率的な実行、処理端末チップ、およびより立体的なセンサーを備えたネイティブハードウェアと切り離せません。

2. AIエンジン

ここで、AI エンジンとは、具体的には、音声認識、画像認識、自然言語処理、ユーザープロファイリングなど、さまざまな分野における人工知能のコアアルゴリズム(ディープラーニングアルゴリズム、メモリ予測モデルアルゴリズムなど)の応用を指します。

音声認識:自然な人間の音声を応答テキストまたはコマンドに変換し、テキストを音声に変換して必要に応じて読み上げます。

画像認識:よく言われているように、コンピューター ビジョンは、印刷されたテキストの認識、顔認識、顔の特徴の配置、顔の比較と検証、顔の検索、身分証明書の光学式文字認識 (OCR)、名刺の OCR 認識などの分野で一般的に使用されています。

自然言語処理:自然言語を理解するには、外界に関する広範な知識とその知識を操作する能力が必要であるため、自然言語認識も AI 完全な問題であると考えられています。自然言語処理 (NLP) は、人工知能における最も難しい問題の 1 つです。

ユーザー ポートレート:ユーザー ポートレートは、ユーザーの社会的属性、生活習慣、消費行動などの情報/データから抽象化されたラベル付きのユーザー モデルです。これもコンテンツとビッグデータの結晶です。

AIエンジンは、人工知能製品に中核となるコンピューティング技術を提供し、欠かせない「要素」です。 「AI ツアーガイド」のインテリジェントな対話には、音声認識と自然言語処理が使用されています。

図4 音声対話フレームワーク

音声認識技術は成熟しており、多くのサードパーティプラットフォームがSDKを提供しています。自然言語理解はAIにとって困難な問題[5]であり、現在のインテリジェントな対話インタラクションの中心的な難しさでもあります。機械が自然言語を理解する際には、次の 5 つの課題に直面します。

  • 言語の多様性
  • 言語の多義性
  • 言語表現の誤り
  • 言語の知識依存性
  • 言語の文脈

ディープラーニングアルゴリズムのおかげで、上記の問題領域の技術は急速に発展しました。認知コンピューティング(コミュニケーション、意思決定、発見)における大きな進歩の後、AI エンジンはより多くの分野で人間を支援するようになると私は信じています。

3. スマートアプリ

スマート アプリは人間とコンピューターのインターフェイスを表します。人間は相互作用の究極の知覚者であるため、ユーザーがスマートな体験とサービスを取得できる媒体は相互作用において非常に重要です。従来の APP インターフェースはモバイル デバイスの画面に限定されており、新しいスマート スピーカーはグラフィカルなインタラクティブ インターフェースを直接削除します。どちらにも制限があります。

「AIツアーガイド」の実施中、ユーザーにシルクロードの特徴を体験してもらうために、ツアーガイド機に複数のアプリケーションサービス(スマートAPP)を配置し、ユーザーが視覚、聴覚、触覚を通じて山頂の魅力を感じることができるようにしました。

[[412349]]

図5: ツアーガイドAI仮想写真

インテリジェント時代のアプリは、音声、ジェスチャー、画像、物理的環境などを認識し、多次元でデータを入力できなければなりません。また、聴覚、視覚、触覚、ホログラフィック画像など、多次元で情報を表示でき、インタラクティブな形式をより感情的で「人間らしい」ものにする必要があります。

将来、人工知能は間違いなく人間とコンピュータのインタラクションに画期的な進歩をもたらすでしょう。従来の人間とコンピュータのインタラクション技術(マウス、キーボード、タッチスクリーンなど)では、人間同士のやり取りのように効率的かつ自然にコンピュータとやり取りすることが困難です。ネイティブハードウェア機能の向上と、音声認識、画像分析、ジェスチャー認識、意味理解、ビッグデータ分析などの人工知能技術の発展により、人工知能製品は人間の意図をよりよく認識し、人間とコンピューターの相互作用の発展を推進します。人工知能の3つの要素である「ネイティブハードウェア」、「AIエンジン」、「スマートアプリ」を組み合わせて使用​​することは、将来の人工知能製品のインタラクションの開発においても一定の指導的意義を持つことになります。

図6: 人工知能の3元理論的枠組み

将来的には次のようなシナリオが考えられます。

  • クリスマスイブには車で家に帰ります。地下に着くと、車の車載装置が「ちょっと寒いですね。家に帰ったらコーヒーでも飲みますか?」と尋ねます。希望のフレーバーを伝え、車を駐車して2階へ行きます。ドアを開けて家に入ると、スマートスピーカーが自動的に「ジングルベル」を再生し、2分後にコーヒーが準備できることを知らせてくれます。

参考文献

[1] 知乎の神経科学と脳科学のトピックに関する優れた回答者からの「耳と目ではどちらが早く情報を受け取るか?」という質問への回答。

[2] 人工知能の未来

[3] Glonek G、Pietruszka M. ナチュラルユーザーインターフェース(NUI):レビュー。J Appl Comput Sci、2012、20:27–45

[4] 国務院による次世代人工知能開発計画の公布に関する通知 http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm

[5] https://en.wikipedia.org/wiki/Natural_language_understanding

[6] 百度人工知能インタラクションデザイン研究所 http://aiid.baidu.com/

<<:  冬季オリンピックのテストマッチ、副審はAIだったことが判明

>>:  人間の審判が解雇される?冬季オリンピックのテストマッチで選手の得点をつけた人物はAIだった

推薦する

...

AIはこれらの企業の製品イテレーションの最終決定権を持っている

▲センサー・ウェアラブルデバイス市場におけるAIスタートアップの分布図人工知能は、企業が新たなビジ...

モデルの好みはサイズだけですか?上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

現在のモデルトレーニングパラダイムでは、嗜好データの取得と使用が不可欠な部分になっています。トレーニ...

「顔スキャン」のリスクについてどれくらい知っていますか?

情報化の急速な発展に伴い、顔認証や指紋認証などの技術が徐々に普及しつつあります。技術の進歩によっても...

...

デジタル産業を支援し、インテリジェントな未来をつなぐ――西安航空基地企業「ファーウェイ参入」デジタル変革社長クラス

[51CTO.comからのオリジナル記事]現在、疫病と政治環境の影響により、多くの不確定要素が重なり...

モデルはわずか7M:軽量で高精度な顔認識方式DBFace

わずか 7M サイズのこの顔認識モデルは、世界最大の自撮り写真に写っているほぼすべての人物を認識しま...

自動運転のジレンマと選択

ここ数年、自動運転車に対する熱狂が高まっています。これは確かに合理的です。自動運転車は、燃費の向上、...

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

最近、Vincent Diffusion アーティファクトをオープンソース化した Stability...

2018年中国人工知能都市ランキングトップ15

最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

Quora は機械学習をどのように活用していますか?

[[202181]] 2015年、同社のエンジニアリング担当副社長であるXavier Amatri...

AI企業の成人式:自由が996と衝突し、技術的理想が地上戦争と衝突する

戦争の理由はすべて、例外なく一つのこと、つまり生き残ることにつながります。狼の本能がなければ、生き残...

ディープラーニングの分野でよく使われるディープラーニングフレームワーク10選

このセクションでは、MindSpore、PaddlePaddle、PyTorch、TensorFlo...

...