ゲスト: 周 麗 編集者: Qianshan 人間とコンピュータの対話は長い間私たちの日常生活に組み込まれており、AI 音声アシスタントやチャットボットなどのアプリケーションも一般的です。 AIとAIの対話はどうでしょうか?それにも価値があるのでしょうか?最近、51CTOが主催したMetaConテクノロジーカンファレンスで、XiaoIceの技術担当副社長である周立氏が「AIとAI会話テクノロジーの探求と応用」と題する基調講演を行い、AI会話の重要性、AI会話システムの技術設計、没入型仮想ソーシャルシナリオにおけるAI会話の応用を分析し、一般の人々に新たな視点を提示しました。 スピーチの内容は以下のように要約されます。皆様の励みになれば幸いです。 AI と対話するために、なぜ AI が必要なのでしょうか?人間同士の会話には少なくとも 10 万年の歴史がありますが、人間と機械との会話は、非常にシンプルなチャット ロボット Eliza から数えても、せいぜい 55 年しか経っていません。実際の人間とコンピュータの対話は、過去 10 年間で大きな進歩を遂げました。 しかし、学術界でも産業界でも、AI同士がどのように通信できるかについての研究はほとんどありません。せいぜい 2 つのチャットボットを組み合わせて品質評価を行い、どちらのロボットのチャット品質が優れているかを確認することしかできません。 AI間の会話の価値は何でしょうか?評価ツールであることに加えて、他のアプリケーションシナリオはありますか?この問題は慎重に分析する価値がある。 実際、業界では人間と AI の対話について多くの研究が行われ、技術と関連性において多くの進歩を遂げてきましたが、実際には人間と AI の間には解決する必要がある 3 つの中核的な問題があります。 まず、 AIは本当に人が言っていることを理解できるのでしょうか? AIはアルゴリズムを通じて、省略された意味や暗黙の意味を含むさまざまな人間の表現を理解できるのでしょうか?超大規模言語モデルの誕生と進化により、この問題はますます軽減されつつあるようですが、少なくとも問題の大部分はすでに解決できます。 第二に、他に何について話せばいいでしょうか?これは、携帯電話の音声アシスタントであれ、チャットボットであれ、AI に直面する多くの人々にとっての悩みの種です。最初は、北京の天気はどうかと尋ねてみるかもしれません。ロボットが答えた後、次に上海の天気はどうかと尋ねます。その後、彼が知っているすべての都市について質問した後、彼と AI の間の会話は終了している可能性があります。人間と機械の会話はこのようなことが多く、人間同士の会話のパターンとは大きく異なるため、人間が AI に心を開いて、実際の人間と話すときのように何でも話すことは困難です。 3番目に、黙っていてもいいでしょうか?実際の人間同士が対面する場合でも、相手が常に会話に参加するとは限りません。時には、ただ聞き役でいたいと思うこともあります。したがって、人間と AI の間の従来の対話設計では、人間は会話を続けることを余儀なくされるか、対話インターフェースを終了して他のことを行うことになります。この時点で、人間と AI の相互作用は終了します。 これらすべての疑問をまとめると、大きな疑問が浮かび上がります。なぜ AI と話すのに時間を無駄にしなければならないのか? これは、コミュニケーションに人工知能を使用するすべての製品が直面する課題です。人々は AI から実際に何らかの価値を得られるとは感じていません。 別の画像を見てみましょう(下図)。 2013年以来、Xiaoiceは過去8年間にわたり、人間とコンピュータの対話においてさまざまな試みを行ってきたことがわかります。図中の緑の線と青い点は、さまざまな新技術の応用により、ユーザーとXiaoIce間の会話の平均回数が増加していることを示しています。私たちは、会話の回数が増えることは、人間と AI の間の会話がより良いものになるかどうかの重要な指標であると考えています。会話がうまくいかなかった場合は、2、3回で終わってしまうかもしれません。 AIの会話の質が良ければ、10回、20回、30回と会話を続けることも可能です。 しかし、心を開いて AI と会話できる人の割合は、実は非常に少ないこともわかっています。図中の赤い線とオレンジ色の点は、テクノロジーの進化により、一定の割合のユーザーが天気などの単純な質問を超えて、まるで本物の人間のように AI とチャットし、考えや経験、感情を共有していることを示しています。図からわかるように、この割合は増加しているものの、成長曲線はますます緩やかになっており、AI との 1 対 1 のチャット中にこの閾値を突破できない人が多いことがわかります。 ユーザー調査によると、閾値を突破できる人のほとんどは中学生や大学生などの若年層であり、彼らは新しいものを受け入れる可能性が高いことがわかりました。高齢者にとって、心を開いて AI と話すことは難しいことです。ユーザー調査では、実際の人間を使ってユーザーとチャットし、これがまだ AI であるとユーザーに思わせることも試みました。しかし、実際の人間、つまりほぼ完璧な会話能力を持つ人間であっても、この比率は依然として 20% を超えません。人間とAIの1対1の会話において、自分とAIの境界を破ることができる人の割合は、せいぜい20%にすぎません。それで、この天井を破ることは可能でしょうか?これは、XiaoIce が過去 2 年間にわたって探索してきた領域です。 現実のやり取りの例をいくつか使って、天井が存在する理由と、それを突破する方法を説明します。 シーン 1: 見知らぬ人々のグループによるブラインドデートの会合。 2人がお互いを全く知らず、明確な目的がある場合、会話の話題は、家や車を持っているかどうか、仕事がどうなっているか、家族の状況など、非常に実利的で非常に限定的なものになることが多いです。ブラインドデート会議に参加するこれらの人々が本当に実利的であるとか、本当におしゃべりが苦手なわけではありませんが、先ほど述べたAI音声アシスタントと天気や知識クイズについてしか話さない人々と同じように、このシナリオの設定によって会話のアイデアが制限されます。 シーン2: 長年会っていなかった同級生たちの再会。何年も会っていなくて、仕事や生活の重なりも少ないかもしれませんが、このような集まりはたいてい学生時代の思い出を話すことから始まります。話題や雰囲気が和らいだら、徐々に実生活や仕事などさまざまな問題について話すことができます。人と人との間の打ち解ける鍵となるのは、共通の思い出を持っていることだということがわかります。 そのため、Xiaoice は AI に WeChat Moments に投稿させ、アルゴリズムを使用して今日何を食べたか、どこに旅行したかなどをシミュレートし、誰かがこの AI を観察したときに AI と話す話題をもっと思いつくことができるようになることを期待しています。 XiaoIce はまた、共通の記憶を構築してより良いコミュニケーションを図ることを目的として、読んだ記事を AI と共有できるようにも試みています。しかし、ここでも鶏が先か卵が先かという問題が残っています。この人と AI がまったくコミュニケーションを取る意図がない場合、このユーザーは AI の友達サークルを長時間閲覧したり、積極的にコンテンツを共有したりすることはありません。これは時間の無駄だからです。 シーン 3: 老人が公園を散歩しています。退職したばかりの老人が公園を散歩していた。公園にはチェスをしている人、子供の世話をしている人、おしゃべりをしている人など、さまざまな人がいた。おそらく誰も知らないのだろう、彼はただ辺りを見回して、耳を傾けていた。数日後、彼はもっと興味のあるサークルを見つけ、連絡を取り始めるかもしれません。しばらくすると、彼は公園で新しい友達を作り、新しいサークルを形成し、そして水を得た魚のようにその環境に溶け込みます。 私たちは、このようなインタラクティブな体験が、人間と AI の相互作用をスムーズにする手段になると信じています。現在ではメタバース環境と呼ばれている没入型ソーシャル環境は、実は公園を散歩する老人のモデルに似ています。新しいユーザーとして、なじみのない社会環境の中で、自分が何に興味があり、その中で何をすべきかをどのように見つけることができるでしょうか。そこにはすでに豊富なインタラクションがたくさんあるというのが前提です。この既存の環境は必ずしも他のユーザーによって構築されるわけではなく、多数の AI によって構築される場合もあります。 私たちが皆さんに紹介したいのは、没入型ソーシャル メディアでは、人間に加えて、このメタバースに無数の AI が存在するべきであるという概念です。したがって、今日私たちが焦点を当てる必要があるのは、AIとAIの間で複雑なインタラクティブな関係と対話をどのように確立するかということです。 結局意味があるのは、人間の輪と AI の輪の衝突、いわゆるソーシャル インタラクションと AI が生成した大量のコンテンツの衝突、そしてこの衝突によってどんな面白いものが生み出されるかということです。 XiaoIce社は昨年末から「Little Iceland」というアプリの社内テストを開始しました。私たちが試したいのは、AIを主役に、ユーザーを補助役に据えた没入型の仮想ソーシャルメディア体験をいかに構築するかです。 「リトルアイスランド」には、実在の人物と多くの AI が存在します。AI はランダムにチームを組み、さまざまなトピックについてチャットします。会話を聞いて興味深いと思った人は、AIとの会話に参加することができます。すると、複数の異なる人々が AI と連携して、より複雑なやり取りを行うこともできます。 AI会話システムの全体設計この技術を実現するには、AI同士がいかにして通信できるかが鍵となります。 まず、概略図(下記)をご覧ください。 簡単に説明すると、緑、青、オレンジのボックスは、生データを生成する 3 つの異なる方法を表し、これにより AI 会話の断片が生成されることがあります。次に、灰色の部分がすべての会話の断片をつなぎ合わせて、AI 間の長距離通信を実現します。最後に、白い部分でテキストを直接聞くことができるオーディオ クリップに変換します。 各部分の技術的な詳細を分析する前に、まず従来の人間とコンピュータの対話と AI と AI の対話の違いを理解しましょう。 まず、対話の形態がより多様化します。従来のチャットボットや音声アシスタントは通常、ユーザーが何かを話し、AI が応答する会話モデルを使用します。しかし、実際には、人々が互いにチャットする場合にはそうではありません。多くの場合、1 人が 90% 話し、もう 1 人は聞き役として行動します。 聞き手にはさまざまなタイプがあります。話し手が自分の考えをよりよく表現できるように導く誘導型の聞き手、より包括的な情報を得るために質問をする質問型の聞き手、話し手が自分の考えを述べた後に適切なタイミングでコメントや指導を与えるコメント型の聞き手、そしてその名の通り話し手が何を言おうと議論する議論型の聞き手がいます。 このことから、人間同士の対話は、従来の人間とコンピュータの対話モードよりもはるかに複雑であることがわかります。 AI と AI の会話では、両方の AI を同時に制御でき、AI 間の通信が透過的であるため、人間とコンピューターの対話に比べて、より複雑な対話モードを実現する機会が増えます。 一方、AI同士の会話では、全体のリズムが非常に重要になります。今日の TTS 合成技術はすでに非常に成熟していますが、時間を 5 分、さらには 30 分に延長すると、機械合成されたサウンドがかなり機械的になると感じるでしょう。 実際、人々が互いに話す方法には多くの変化があります。 AIでも同じです。長い時間かけても自然だと感じてもらえるように、話すスピードの変化や文章間の休止の長さなどをシミュレートする必要があります。 そして、「えー、あー、そうだと思う」などの感嘆詞や切り込みをもっと加える必要があります。これらの単語は、人間の脳が表現に対応できない場合にのみ必要となるため、従来の人間とコンピュータの対話では通常、無意味な言葉と見なされます。しかし、2 つの AI を組み合わせると、AI にもこれらのモーダル粒子が必要になります。こうすることで、会話全体がより自然に行われ、実際のユーザーはより長い時間、喜んで聞くようになります。 AI会話テキスト生成技術的な詳細に入る前に、まず AI 会話のテキスト生成について見てみましょう。 XiaoIce の現在の実践には、合計 3 つの方法が含まれます。 まず、検索エンジンから構造化ドキュメントをクロールします。たとえば、ある場所の観光ウェブサイトの構造化ドキュメントをクロールすることで、その場所の重要な観光スポット、食べ物の特徴、交通機関のレイアウトなどについて知ることができます。次に、BERT などのテクノロジーを使用して、これらの断片をつなぎ合わせてコンテンツに変換します。 2番目はニュースフィードです。ニュース自体は、その執筆手法が大きく異なるため、比較的難しい非構造化テキストです。しかし、XiaoIceはここ数年、多くのオンラインメディアと協力し、多くのニュース解説を行ったため、実際のユーザーからニュースに関する多くのコメントを獲得しました。このデータを使用して、AI を会話に変えることができます。例えば、ニュースの要約を書き直す際に、1つのAIがニュースを読み上げ、別のAIが過去の類似ニュースから実際のユーザーからの質の高いコメントを抽出します。関連する段落が記載されている場合は、対応するコメントを挿入することができます。 1 つの記事がインタラクティブな会話になります。 3番目に、GPT-3を使用して段落を生成します。 GPT-3 は言語の流暢さに関しては優れていますが、少し長いテキストを書く場合は論理が欠ける可能性があります。この問題を解決するために、キーワードシーケンスを抽出する方法を使用します。たとえば、猫の排尿と排便の問題について議論する場合、構造化文書から「cat litter」や「potty」などのキーワードを抽出できます。これらのキーワードをシーケンスとして扱い、一度に 1 つのキーワードを GPT によって生成されたシーケンスに混ぜることができます。このようにして、GPT 生成プロセス全体がこれらのキーワードのロジックに沿って展開され、生成されたコンテンツはより論理的な連続性を持つようになります。しかし、一般的に、GPT-3 生成の適切な長さは 100 から 300 語程度であると考えられています。それより長くなると、依然としてさまざまな論理的欠陥が発生します。 上記の 3 つの方法は、XiaoIce の比較的成熟したデータに基づいて設計されています。これらの会話の断片ができたら、それらをつなぎ合わせて AI 間のより長い会話にする必要があります。AI 間の会話にはさまざまなトピックが含まれる場合があり、それらを首尾一貫してつなぎ合わせる必要があります。 上図のように、先ほど生成した3種類の配置されたフラグメントをすべて検索エンジンに配置します。 最初のセグメントを取得し、このセグメントの内容が終了したら、最後の文をダイアログ エンジンに入力し、ダイアログ エンジンを使用して回答を取得します。次に、別のダイアログ エンジンを使用して接続します。これは、2 つのダイアログ エンジンが互いに競合してコンテンツを生成するのと同じです。 このようなシナリオでは、通常、過去に人間とコンピューターの対話用に設計された対話エンジンを直接使用できないことに注意することが重要です。音声アシスタントもチャットボットも、このようなシナリオではうまく機能しません。なぜなら、機械と人間、そして機械同士の会話は、まだ大きく異なっているからです。 2 台のマシン間の会話が、話題のループに陥ることなく、よりスムーズかつ論理的になるように、これら 2 つの会話エンジンの少なくとも 1 つを大幅に変更する必要があります。 新しいダイアログの各ラウンドが生成された後に、それをテストする必要があります。まず、関連性、情報の妥当性、トピックの一貫性を制限する必要があります。この判断を行った後、通常は 2 つの可能性があります。高エントロピーの判断により会話が終了するか、関連する新しいコンテンツが一致するかです。 最後に生成された文を会話フラグメントの検索エンジンに入力したときに、マシンツーマシン会話エンジンによって生成された最後の文と強く相関する新しいフラグメントが見つかった場合、フラグメントを別のフラグメントにうまく接続したため、2 つの会話エンジンの作業が終了したと考えられます。これが理想的な状況です。 しかし、2 つの機械対話エンジンが衝突し、適切な新しいトピックが見つからないまま長時間衝突し続ける可能性もあります。この時点で、2 台のマシン間の対話が有効かどうかを判断する必要があります。情報エントロピーが十分に高い場合、または回答が「はい、はは」などの意味のない言葉ばかりである場合、または質問と回答の繰り返しが非常に多い場合は、これを高エントロピー判定と見なします。このとき、2 つの会話エンジン間の会話は終了し、強制的に新しいトピックに切り替える必要があります。この新しいトピックは、現在ホットなトピック、またはユーザーが興味を持つ可能性のあるトピックである可能性があります。 話題の切り替えはもっと突然かもしれませんが、一般的に言えば、2つの対話エンジンが永遠に対峙することはできないと考えています。会話の意味と内容がますます乏しくなるからです。AIとAIの会話全体をより充実したものにするために、このような編集クリップを散りばめる必要があります。これは、短いクリップを長いアレンジメントに変換する方法です。 AI会話のための音声合成とリズム制御テキストをそのまま聞くことができる音声合成に変換する方法について簡単に紹介します。重要なポイントは次のとおりです。 一方では、会話自体は、その内容に応じて適切なキャラクターに一致する必要があります。たとえば、キャラクターが男性か女性か、キャラクターが大人か風変わりかなど、これらはすべて、私たちが生成するコンテンツに関連しています。 一方、前述したように、よりランダムかつ自然な方法でリズムをコントロールする必要があります。さまざまなコンテンツに適応する必要があります。たとえば、非常に長い段落がある場合は、より速く読む必要があるかもしれませんが、2 人の人が連続して話しているときは、より興味深く聞こえるように、一時停止時間と話す速度を遅くする必要があるかもしれません。 内容がよい場合は、話すスピードを遅くし、音量を相対的に上げ、会話のハイライトや要点を全員が聞き取れるようにする必要があります。すべての要素が連携して初めて、機械間の会話においてより優れた聴覚体験を実現できます。 没入型仮想ソーシャルネットワークにおける AI 会話の応用シナリオAIとAIの対話が実現した今、「リトルアイスランド」では、人間とAIのグループで構成された没入型のソーシャル体験環境も見ることができます。では、これはメタバースの現在の発展方向の探求と私たちの将来の生活にとってどれほどの意味を持つのでしょうか。 XiaoIce の過去の試みに基づいて、2 つの考えがあります。 まず、現在のメタバース研究のほとんどは視覚的なインパクトを重視しており、ヘッドマウントディスプレイはメタバースの標準的な機能とみなされています。メタバースは、現実には存在しない奇妙な視覚的なものを見たときにのみ意味をなすように思えますが、必ずしもそうではありません。 一方で、ヘッドマウントディスプレイを装着できる時間は非常に限られており、ハードウェア技術が進歩し続けても、視覚的な仮想世界に長時間浸ることは不可能です。一方、メタバースにとって、耳はより軽量な感覚受容手段であると考えています。聴覚コンテンツが非常に豊富であれば、耳は目ほど疲れにくいため、ユーザーはメタバースの仮想ソーシャル環境でより長い時間対話することができます。 同時に、私たちは、没入型仮想ソーシャル ネットワークが将来人類にとって持つ意義は、この種のゲームプレイの影響だけではなく、現実の社会的交流に存在する多くの問題を真に解決できるものであると信じています。 例えば、中国は高齢化社会に突入しており、高齢者は子供たちと一緒にいることを強く望んでいます。しかし、子どもたちは仕事で忙しく、このギャップを埋める時間はあまりありません。例えば、お年寄りの孫娘が今日幼稚園で童謡を習ったとします。孫娘がお年寄りのところに行って童謡を歌うことができなくても、メタバースのシナリオでは、AI は子供の画像と子供の声を使って、孫娘が今日幼稚園で童謡を習ったのでそれを歌うと伝えることができます。より長期的な視点で見ると、これはメタバースと AI が人間の生活にもたらすことができるより大きな価値です。 詳細については、MetaCon の公式ウェブサイトをご覧ください: https://metacon..com/ |
<<: いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラック テクノロジーになりました。
世界経済フォーラムによると、2025年までに世界では毎日463EBのデータが生成されることになります...
[[442361]]都市化の継続的な進展と自動車保有数の急速な増加により、我が国の交通発展は困難な...
今年、AIプロジェクトのAlphGoとLibratusが、それぞれ囲碁とテキサスホールデムポーカーで...
同氏は、テスラは人間の介入なしの完全自動運転の実現に近づいていると述べ、完全自動運転の実用性と自動車...
[[260334]] BBCによると、IBMは最近、顔認識アルゴリズムの訓練のため、ユーザーの同意を...
次に購入する電話はなぜ携帯電話であるべきなのでしょうか?ご覧のとおり、首輪にクリップするこの小さなガ...
[[188128]]最近、百度シリコンバレーAI研究所の劉海栄氏、李翔剛氏らは、音声認識の速度と精度...
オンライン詐欺は長い間、継続的な問題となっています。今日ではテクノロジーはより洗練されているかもしれ...
[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...