会話型AIの本当の限界は人間の忍耐力だ

私たちは多くの驚くべき進歩を目撃しました。最新の AI 技術は、数千億の計算能力を瞬時に活用することで、特定の種類のテキストを人間レベルの精度で理解することができます。ただし、ターゲットテキストが長い会話の一部である場合、会話のコンテキストを考慮してユーザーの意味を解釈し、応答方法を決定する必要があるため、システムにとっての課題はさらに困難になります。それでも、Facebook の BlenderBot 2.0 のようなチャットボットは、人間と AI の間のよりスムーズで自然なやり取りを先導しているようです。

しかし、問題は、会話型 AI ボットに複雑さが加われば加わるほど、リアルタイムの応答性に対する期待に応えることが難しくなるということです。 BlenderBot 2.0 はまさにその好例です。バージョン 2.0 は、BlenderBot 1.0 の主要な制限の多く (長期メモリの欠如を含む) を克服しており、前バージョンよりも大幅に洗練されています。その結果、舞台裏で動作する機械学習 (ML) の応答性を高めることが難しくなります。

会話型 AI とチャットボットの速度制限自然でスムーズな会話を実現するための秘訣はありません。これには、非常に大規模な ML モデルのネットワークが必要であり、各モデルは次に何を答えるかを決定するために、パズルの小さなピースを解く必要があります。あるモデルではユーザーの位置を考慮し、別のモデルではインタラクションの履歴を考慮し、さらに別のモデルでは過去の同様の応答によって生成されたフィードバックを考慮します。それぞれが貴重な数ミリ秒の遅延をシステムに追加します。

言い換えれば、会話型 AI の本当の限界は私たちの忍耐力です。

「依存地獄」の深淵学術的な文脈で AI に何を期待するかというのは、まったく別の問題です。学術的な環境では、結果が出るまで何時間も、場合によっては何日も待つことがありますが、現実の世界では、システムが即座に応答する必要があります。特に会話型 AI ボットの場合、あらゆる潜在的な改善を、レイテンシの削減という目標と比較検討する必要があります。

この遅延は、いわゆる「クリティカルパス」によって発生します。クリティカルパスとは、入力 (ユーザーの情報) から出力 (ロボットの応答) に到達するまでに必要となる ML モデルチェーンの最短シーケンスです。これはプロジェクト管理の古い概念ですが、不必要なステップを回避するという点で、今日の ML ネットワークにとって非常に重要です。

では、クリティカルパスを見つけるにはどうすればよいでしょうか。それはすべて依存関係に帰着します。これは、従来のソフトウェア開発の世界で長い間、決定的な問題となってきました。相互接続された多数の部分で構成されるソフトウェアアーキテクチャでは、1 つのアプリケーションを改善すると、エンジニアがシステム全体を更新する必要が生じる場合があります。しかし、アプリケーション A にとって重要な更新が、アプリケーション B、C、D と互換性がない場合があります。

これが「依存地獄」と呼ばれるものです。細部に注意を払わないと、機械学習の依存関係によって、私たちが直面する地獄はさらに暗く、深くなる可能性があります。

通常のソフトウェア依存関係は、スプレッドシートのセルが赤から緑に変わるなど、特定のアプリケーションの単純で個別の状態を伝える API に基づいています。 API を使用すると、エンジニアは各アプリケーションを同じページに保ちながら、ある程度独立して開発できます。しかし、ML の依存関係では、エンジニアは抽象的な確率分布に対処する必要があり、1 つのモデルの変更がより大きな ML ネットワークにどのように影響するかを理解することが困難になります。これらのモデル間の微妙な関係を習得することによってのみ、会話型 AI を現実のものにすることができ、リアルタイムの体験も実現できます。

手順を省略して時間を節約する会話型 AI の依存関係を完全に理解するには、機械学習と人間の直感を組み合わせる必要があります。

たとえば、当社の会話型 AI ボットの 1 つは、PowerPoint ライセンスの希望や PTO ポリシーに関する質問など、従業員のリクエストに応答するように設計されています。一見単純な問題であっても、依存関係の深淵に陥る可能性があることが判明しました。 PTO に関する質問の答えは、従業員ハンドブックの 53 ページに埋もれている可能性があり、カナダの営業担当者とスペインのエンジニアでは答えが異なる可能性があります。それに加えて、多くの無関係な詳細 (従業員のハワイ旅行の計画など) を無視する必要があり、全体として機能する必要がある特殊な ML モデルが数十個あります。

重要なのは、各問題を解決するためにどのモデルが必要か、つまりクリティカルパスのどのステップが必要かを判断することです。最初のステップは自然言語理解（NLU）であり、その目的は構造化されていないテキストを機械が処理できる情報に変換することです。当社の NLU は、タイプミスの修正、主要なエンティティの識別、信号とノイズの分離、ユーザーの意図の把握などができる多数の ML モデルのパイプラインです。この情報を使用して、下流で不要なモデルを除外し始めることができます。

これは、現在会社で利用可能な実際のソリューションを分析する前に、対象の問題に対してどのような有益なソリューションがあるのかを予測することを意味します。 PowerPoint の使用を要求する従業員は、ソフトウェアライセンスや申請書を希望するかもしれませんが、新しいオフィスの地図を希望する可能性はほとんどありません。 NLU プロセスからの情報を最大限に活用できる限り、いわゆる「プリトリガー」システムを通じて、どのモデルをアクティブ化する必要があるか、どのモデルをバイパスする必要があるかを予測できます。

このプロセスに関係する確率分布の抽象的な性質を考慮して、当社のプリトリガーシステムは、機械学習の入力と、直感に基づいて人間の専門家が開発したルールの両方に依存しています。結局のところ、時間を有意義に過ごすことは芸術であり科学でもあります。

会話型 AI ボットの進歩に余地を残す 10 年後の会話型 AI がどのようなものになるかは誰にもわかりません。しかし、私たちが確実に知っているのは、将来の進歩のための余地を残すために、今すぐチャットボットを最適化する必要があるということです。人間同士の会話のような体験を望むなら、システム全体の遅延を考慮し、無謀に複雑さを増さないようにする必要があります。

SF とは対照的に、AI で見られた「ブレークスルー」は、既存のモデルや技術に対する多くの小さな漸進的な改善の総和です。会話型 AI を最適化する作業は、映画やテレビ番組で見られるような効果を達成することを目的としているわけではなく、一夜にして結果が出るということは考えにくいです。しかし、チャットボットが私たちの意図を理解し、リアルタイムで支援できるようになったのは、数回の天才的なひらめきではなく、長年の努力のおかげです。

<<: スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

>>: ByteDance、検索速度が8倍に高速化した最新の音楽検索システム「ByteCover2」をリリース

人工知能と5Gの組み合わせは医療業界の診断と治療のモデルとプロセスを変えるだろう

ブログ

会話型AIの本当の限界は人間の忍耐力だ

人工知能と5Gの組み合わせは医療業界の診断と治療のモデルとプロセスを変えるだろう

AIチップの過去と未来、この記事を読んでください

AIは中国のインターネットを狂ったように汚染している

変革は効果的であり、スマートな行動は効果的です。レノボ・エンタープライズ・テクノロジー・グループが10の業界のインテリジェントな変革に関するホワイトペーパーを発表

1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化

物理学者は人間が「マトリックス」の中で生きていることを証明するのか？宇宙は「シミュレーションシステム」であり、複数のシステムにより情報進化は安定する傾向があることが確認されている

わずか数行のコードで最初のウェブアプリを作成

強力な大型モデルにはどんなスーパーパワーがあるのでしょうか?

推薦する

Googleのジェフ・ディーンが単独著者として執筆: ディープラーニング研究の黄金の10年

AIがマイクロソフトの新素材発見を支援：20年かかるスクリーニング作業が80時間で完了、バッテリーのリチウム使用量が70%削減される見込み

マイクロソフトは、Power Platform 向け Copilot サービスの開始を正式に発表しました。これにより、AI によるアプリ開発が一文で可能になります。

エネルギー産業の変革、人工知能が次の機会となる

トランスフォーマーの層が 2 層未満で、注意ブロックのみの場合、GPT-3: 問題を起こそうとしていますか?

宇宙インテリジェンスは産業変革に新たな推進力をもたらす。ファーウェイは能力とパートナーを開放し、ウィンウィンの時代を実現する

機械学習システムの弱点: 保護が必要な 5 つの理由

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

注目の開発スキル5つについて学ぶ