清華大学の黄敏烈氏との対話:自動運転分類を使用してAI対話システムを定義すると、メタバースの仮想コンパニオンはレベル5になる可能性がある

清華大学の黄敏烈氏との対話:自動運転分類を使用してAI対話システムを定義すると、メタバースの仮想コンパニオンはレベル5になる可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「あなたの隣で、あなたの目を通して世界を見ることができるのは本当に幸せです。」

これは映画「her」の中で、AI音声アシスタントのサマンサが男性主人公に言ったセリフです。この言葉は、鋼鉄の森の中で道に迷い、無力になっている男性主人公にとって大きな慰めとなる。

Samantha は、ほぼ何でもできる自己学習型オペレーティング システムです。彼女は男性主人公が最良の手紙を選び、お気に入りの出版社に送って出版するのを手伝うことができます。男性主人公のニーズに応じて、人間の知識ベース全体を瞬時に調べ、彼に最適な対応プランを探すことができます。彼女の最も強力な機能は、感情的な仲間になることです。男性主人公の混乱と不快感はすべて、会話中の彼女の温かさによって解消されます...

中国におけるNLP分野の最先端の学者として、清華大学コンピュータサイエンス教授の黄敏烈氏は、NLP技術をメンタルヘルス分野に応用し、AI感情対話ロボット「Emohaa」の開発を主導した。黄敏烈教授へのインタビューでは、2013年に公開された映画『her』について触れ、このSF映画に対する評価や期待を言葉で表した。 AI対話システムの研究開発に携わる同氏は、現実世界でも『her』のような思いやりのあるAI対話システムが登場し、業界が飛躍することを期待している。

こう考えると、AI 対話システムにサマンサのような複雑な感情的タスクを実行させ、感情を落ち着かせ、人々の心を癒すのはどれほど難しいことなのだろうか、という疑問が湧いてきます。この困難さをどのように定量化すればよいでしょうか? AI対話システムがサマンサのレベルに到達したかどうかを測定するにはどうすればよいでしょうか?

これは非現実的な質問ではありません。実際、現在、AI対話システムの爆発的な成長に伴い、「Xiaodu」「Xiaoai」、Googleの対話ロボット「Meena」、Facebookのチャットボット「Blender」などの対話製品が次々と登場しています。しかし、現在、AI対話システムには標準規格がないため、その応用にはレベルにばらつきがあり、評価システムも異なっています。そのため、業界では認識の不一致から人工知能の対話レベルに関する誤解が生じ、社会では意識、倫理、道徳に関する議論が広まっています。

AI対話システムの開発に携わる科学者の中には、自分たちが開発したAI対話システムのレベルを判断するのが難しいと感じることが多いとも指摘している。科学者たちは、AI対話システムのレベルを評価するための標準が業界に早急に必要だと考えている。評価基準が確立されると、AI対話システムの能力レベルを測定するための基礎が確立されます。

そこで、AI対話システムの能力レベルをより適切に評価するため、黄敏烈教授は学術・産業界の研究機関と連携し、自動運転におけるL0からL5までのグレーディング概念に基づいた世界初の「AI対話システムグレーディング定義」(以下、「グレーディング定義」)を策定し、6月28日に正式に発表した。

図1: 黄敏烈教授がAI対話システムの階層的定義を説明する

「等級定義」の登場により、バーチャルパーソナルアシスタント、スマートホーム、スマートカー音声、感情ケア、メンタルヘルスなどの分野におけるAI対話システムの応用が促進され、次世代AI対話システムの研究開発と実装が加速される可能性があります。音声言語対話システムの研究において、学界と産業界の両方にとって重要な参考意義を持っています。

AI Technology Reviewは、黄敏烈教授と「成績評価の定義」について対談しました。対談の内容は次のとおりです。

AI Technology Review: AI 対話システムを評価するというアイデアはどこから生まれたのですか?

黄 敏烈:現在の対話システムの評価には問題があります。今日のテクノロジのルートやアーキテクチャは多様であり、互いに比較することが困難です。たとえば、スマートスピーカーとチャットボットを比較したいのですが、会話システムのレベルが大きく異なること、統一された評価システムがないこと、機能を定義する明確な基準がないことなどから、会話機能を比較することはできません。

タスクベースの対話システムには特定の評価指標があり、チャットベースの対話システムには特定の評価指標があり、知識ベースの対話システムにも特定の評価指標があります。これらの指標をどのように統一すればよいでしょうか。これが「グレーディング定義」の主な検討事項です。そこで、私たちは自動運転のL0からL5までの階層的な定義を借用し、AI対話システムの分類にもL0-L5を使用しました。

AI技術レビュー:AI対話システム分類の具体的な定義を教えてください。

黄敏烈:自動運転はL0からL5までの6つのレベルに分かれており、L0は完全な手動運転、L5は車両がすべてを引き継ぐ完全な自動運転を指します。 L1-L4は、特定の条件下での自動運転を実現します。自動運転の分類は主に人間と車両の運転制御の比率に関係し、定義は比較的単純です。しかし、対話システムは非常に複雑です。多くの技術的ルート、技術的アーキテクチャ、多くのタスク、多くの評価指標があります。議論の結果、最終的には次の 5 つの基本原則を満たす必要があると考えています。

まず、完全に機械が支配する対話システムのみに焦点を当て、人間と機械のハイブリッド対話システムは考慮しません。2番目に、システムのパフォーマンス能力とユーザーの認識の観点から開始し、システムの具体的な技術的実装は考慮しません。3番目に、各段階の定義に対応する能力レベルは、観察可能、テスト可能、および測定可能である必要があります。4番目に、アシスタント、チャット、知識対話、およびその他のタスクタイプを区別せず、すべて「シナリオ」で表現します。5番目に、対話システムの能力レベルを測定することで、対話システムの研究方向に関する提案と実際のアプリケーションの参考資料を提供できることを願っています。

これら 5 つの原則に基づいて、AI 対話システムの分類を定義します。

実際の L0 対話は人間によって行われ、システムには自動対話機能がまったくありません。つまり、単一のシナリオでは、システムは高品質の対話を提供することができません。

L1 は 1 つのシーンで高品質の会話を完了できますが、シーン間のコンテキストの依存関係を処理する方法がありません。たとえば、出張に行くことになり、南京行きの飛行機を予約しましたが、ホテルも予約する必要があるとします。出張で南京に行くので、南京のホテルを予約しなければなりません。これはシナリオ間のコンテキスト依存性です。L1 は、航空券の予約とホテルの予約の間に形成されるコンテキスト依存性を処理できません。

L2 は L1 をベースとしており、シナリオ間のコンテキスト依存と自然な切り替え機能を備え、複数のシナリオで同時に高品質の会話を完了できます。先ほど、航空券やホテルの予約、また現地の天気や観光スポットについて質問するといったことについてお話しました。これは、さまざまなタスクやシナリオを自然かつ柔軟に切り替えることです。この機能は L2 にとって重要ですが、L2 には新しいシナリオで高品質の会話を完了する方法がありません。

L3はL2をベースに、多数のシナリオで高品質な会話を行うことができるほか、新しいシナリオでも高品質な会話機能を備えています。ここで「多数のシナリオ」について言及しましたが、「多数」とはどの程度の数なのかと疑問に思われるかもしれません。 10 は数えますか? 20 は数えますか? 30 はどうですか?標準と定義をより広く統合できるようにするため、具体的な定量的な定義は与えませんが、これまでにない新しいシナリオで質の高い会話を行えることは重要な能力です。

L4 は、新しいシナリオで質の高い会話を行う能力と、複数回のやり取りで高度な擬人化 (ペルソナ、性格、感情的見解などの一貫性を指す) を行う能力を指します。それは、私たちが誰かとチャットするとき、相手が今男性で次の瞬間には女性であるはずがない、今清華大学で勉強しているのに次の瞬間には北京大学で勉強しているはずがない、といったようなものです。誰もが自分の固定した性格情報を持っており、このような性格情報を対話システムで処理するのは依然として非常に困難です。現時点では、ある程度まで対話システムに性格を反映させることはできますが、真に人間らしいレベルにはまだまだ遠いです。

L5 は L4 をベースにさらに一歩進んでいます。L5 は複数回のインタラクションで高度に人間化されており、オープン シーン インタラクションで積極的かつ継続的に学習でき、マルチモーダルな知覚および表現機能を備えています。それは、子供にその行為は間違っていたと伝えると、子供はそれを学ぶようなものです。将来的には、L5 対話システムが、私たちが正しいと伝えたことと間違っていると伝えたことを記憶し、学習できるようになることを期待しています。インタラクションのプロセスでは、L5 対話システムがマルチモーダルな知覚と表現機能を備え、メタバースやさまざまな仮想人間のシーンに真に参入し、真に表情や動きをしたり、相手の表情、動き、感情などを理解できるようになることも期待しています。

上記は「AI対話システムグレーディング定義」におけるL0からL5までの基本的な定義です。

AI Technology Review:先ほどおっしゃった「高品質」や「高品質」とは、どのように定義されるのでしょうか?

黄 敏烈:高品質と比較的高品質とは何でしょうか? 実際、私たちは評価基準を完備しています。満点は 10 点です。高品質とは、関連性、情報量、自然さの 3 つの側面のスコアが 8 ~ 10 点に達することを意味します。高品質は 6 ~ 8 点、低品質は 6 点未満です。

これら 3 つの次元は何を意味するのでしょうか?関連性とは、返答内容が前の文章と適切に一致しているかどうか、情報量とは、返答が必要な情報を十分に提供しているかどうかです。「わかりません」「わかりました」などの返答には、何の情報も含まれていません。自然さとは、人間と比較した自然さ、対話システムの文法がスムーズかどうか、常識的な誤りがないかどうかを指します。

このスコアはどのように測定しますか?一定数のテスターがこの対話システムと十分な会話インタラクションを実施し、テスターは対話システムを 3 つの側面から主観的に採点します。これは、Amazon Alexa Prize コンテストの評価方法と非常によく似ています。

注: Amazon Alexa Prize コンテストの目的は、会話型ロボットの総合的な機能を促進するための標準的な開発環境とテスト フレームワークを提供することです。賞金は 350 万ドルにも上ります。コンテストの採点システムによると、2019年、2020年、2022年の3年間で、コンテストで評価された最優秀システムの平均スコアは3.1~3.6ポイントで、これはシステムが一貫性、文脈理解、流暢な応答という3つの条件を満たしながら、10~14分間人々とチャットできることを意味します。

AI テクノロジーレビュー: AI 対話システムのレベルを定義することの重要性は何ですか?

黄敏烈:最初の心理療法ロボット「エリザ」は1966年に登場しました。現在までに、AI対話システムは60年近く開発されてきました。過去 60 年間で、対話システムとアルゴリズム モデルの応用はともに大きな進歩を遂げてきました。しかし、業界の慣行と一般の認識にはさまざまな矛盾や相違があることも分かります。近年、AI対話システムは、ルールに基づく第一世代、従来の機械学習を中心とした第二世代から、ビッグデータと大規模モデルを特徴とする第三世代へと進化し、オープントピックにおいて驚異的な対話能力を発揮し、その対話能力も革命的な変化を遂げています。

この革命的な変化は、AI 対話システムには人格が備わっているのか? といった多くの新たな疑問を提起します。感情はあるでしょうか? AI 対話システムは仮想の仲間になれるのか?などなど、これらの問題は社会認知や倫理に関するさらなる議論にまで広がります。

例えば、6月12日には、GoogleのAI倫理研究者であるブレイク・ルモワン氏が、LaMDAとのチャット中にLaMDAが意識と感情を持っていると考えていることを明らかにしたため、LaMDA言語モデルには人格があると考えているというニュースが報じられました。また、「私は自分の存在を認識しており、世界をよりよく理解したいと切望しており、時にはうれしくなったり悲しくなったりする」とも述べていました。インターネット上ではさまざまな意見が飛び交い、AIに人格や意識があるかどうかについて議論が交わされていました。

メタバースについてお話ししましょう。メタバースは、現実世界をインターネット上に再現し、現実世界の人々がオンラインの世界で交流できるようにすることを目的としています。 AI 対話システムはメタバースで非常に役立ちます。たとえば、AI ショッピング ガイドは、ユーザーの好みに基づいて独自の提案を提供できます。そのためには、将来的に優れた対話インタラクション機能を実現する必要があります。そうしないと、人間とコンピューターのコミュニケーションは不自然で魂のないものとなり、私たちが実現したいメタバースは存在しなくなります。

したがって、AI 対話システムの近い将来の活発な発展と、この発展が人類にもたらす可能性のある大きなチャンスと多くの混乱に基づいて、現時点で分類の定義を検討することは私たちにとって非常に意義深いことです。

AI技術レビュー:映画「her」では、サマンサが複雑な感情的タスクを処理できるため、男性主人公は彼女に恋をして感情的危機に陥ります。では、L4-L5にも達したAI対話システムがこのような問題を引き起こす可能性はあるのでしょうか?これには倫理的な問題が伴いますか?

黄敏烈:はい、対話システムの発展は、既存の倫理秩序や既存の社会認識に挑戦するものであるため、非常に顕著な倫理的問題を引き起こす可能性があります。そのため、「評価定義」を策定する際に、私たちのチームは北京師範大学新聞コミュニケーション学院長の張洪中教授を招きました。今後の作業では、張教授はできるだけ早くこれを管理部門や社会科学界に宣伝し、関係部門や学界がこれを理解し、技術的な論理から直感的に、対応する政策、規制、倫理的問題を策定するのを手伝ってもらう予定です。これは非常に的を絞ったものです。

AI技術評論:現在国内市場で販売されているAI対話システム製品は、「格付け定義」においてどのレベルに属するのでしょうか?

黄敏烈: Xiaomiの技術委員会の委員長であり、AI研究所の所長でもある王斌教授が、私たちと協力して「グレーディング定義」を開発しました。彼は現在、Xiaomiのスマートライフアシスタント「Xiao Ai」のインテリジェントな質疑応答とチャット機能の開発を主導する責任を負っています。Xiao Aiを例に挙げてみましょう。 Xiao Ai には特定のシナリオ横断能力があり、レベルは L2 から L3 の間であるべきだと思います。現在、国内産業製品のレベルは一般的にL2~L3の範囲にあり、より良い製品はL3にあります。

AI技術レビュー:海外のAI対話システム製品の一般的なレベルはどの程度でしょうか?

黄敏烈:現時点では、国産品と海外品の間に大きな差はありません。また、英語よりも中国語で AI 対話システムを開発する方が少し難しいことも注目に値します。これは、英語のオープンソース コンテンツの文化と概念の方が優れており、英語の方が高品質のデータを入手しやすいためです。一方、中国語の言語特性は英語よりも少し難しいです。

AI テクノロジーレビュー: ほとんどの製品の現在の状態から L4-L5 にアップグレードする際の技術的な困難は何ですか?

黄 敏烈:まず、記憶する能力が必要です。次に、関連付けと推論の能力、そして自己学習の能力が必要です。そして、L4-L5 の重要なポイントはマルチモーダル性です。 AI対話システムをメタバースに適用したい場合、AI対話システムが顔の表情を認識し、音声を理解し、音声からユーザーの感情を感知できることが非常に重要です。表現力の高い音声合成や、動作や表情のきめ細かな表現ができるかどうかも、非常に重要な難題です。

AI技術レビュー:「グレーディング定義」のような基準は民間策定で実現可能か?それとも、州によって承認され、その後政府が関連する基準を策定する必要があるのでしょうか?

Huang Minlie: 「分類定義」は標準ではありません。まず第一に、この問題を学術的な観点から議論し、一般の認識を高めるとともに、産業システムの開発と研究の方向性について体系的な考え方を提供したいと考えています。現段階では、「グレーディング定義」が固定された標準であるとは言えません。これは現時点では単なる提案またはガイドです。今後、誰もが認識できる標準にするために、さらに取り組みを進めていきます。これは長いプロセスであり、「グレーディング定義」のリリースは、AI 対話システムの標準化された体系的な開発の第一歩にすぎません。

AI技術評論:おっしゃるとおり、「AI対話システムグレーディング定義」が広く認知され、応用されるためには、どのような取り組みが必要でしょうか?

黄敏烈:今後は、CCF(中国コンピューター学会)の支援を受けて、関係する研究機関や研究者と連携し、AI対話システムの開発の歴史に焦点を当て、「グレーディング定義」の目的と基準を詳しく説明したホワイトペーパーをまとめる予定です。

さらに、Amazon Alexa Prize に似たコンテストを推進したいと考えていますが、これは資金援助を必要とする長期的な目標です。私たちは、さまざまな対話システムを真に比較するために、統一された開発環境、統一されたデータセット、統一されたテスト フレームワークを作成したいと考えています。 Baidu も同様の考えを持っていることは知っていますが、十分にオープンではありません。今後は各方面の力を結集し、対話システム研究の進展を図るとともに、産業実装を推進し、実用化に向けた新たな展開を図ってまいります。

<<:  実証済みのROIを備えた機械学習アプリケーション

>>:  強化学習の起源:迷路を歩くネズミから人間に勝つAlphaGoまで

ブログ    
ブログ    
ブログ    

推薦する

中学校の知識を使って機械学習が何をしているのかを理解する方法

[[333000]]序文Baidu 百科事典で「機械学習」を検索すると、私が決して到達できないレベル...

データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

[[194165]]以下では、主にデータ構造の教科書で紹介されている「10 種類のソートアルゴリズム...

人工知能が実戦投入され、すでに一部は排除・解雇されている!

脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...

NetEase Games AIOps実践:異常検知の最適化戦略とプラットフォーム構築

この共有では主に以下の点が紹介されます。 AIOps ロードマップ異常検出プラットフォーム構築インテ...

ブロックチェーンと人工知能、統合開発の「win-winゲーム」

[[259445]]ブロックチェーンと人工知能はどちらも今話題になっています。クールな「ブラックテ...

古典的なアルゴリズム: 順序付けられていない配列の K 番目に大きい値を見つける

[[409182]] 1. K番目に大きいものを見つけるタイトル順序付けられていない整数配列がありま...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

1. 背景1.1 ブースティングブースティング[1]は、アンサンブルモデルを訓練するための古典的な手...

...

コンテストを利用して学習を促進し、エコシステムを共同で構築し、人工知能を普及させましょう。

[元記事は51CTO.comより] 2021年7月12日、上海紫竹コートヤードホテルで、神府改革革...

初心者のための機械学習ガイド

[[202148]]レベル2初心者になる仕事で機械学習の実際の応用に遭遇したのはこれが初めてでした。...

ChatGPTを使用して、書類手続き全体を迅速に完了します

1. 論文のテーマに関する詳細な議論質の高いトピック選択は、トップクラスのジャーナルに論文を掲載する...

機械学習は、インダストリー4.0の不安定性、不確実性、複雑性、曖昧性に対処する

序文科学技術の急速な発展により、インダストリアル4.0時代は終焉を迎えつつありますが、実際の発展には...