Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google アシスタントのような AI アシスタントは、追加データや再トレーニングを必要とせずに、新しいサービスをより適切にサポートするにはどうすればよいでしょうか?

これは、ドメイン固有のパラメータを使用せずにサービス間でモデルを使用する方法を紹介した最近の研究で、Google の研究者が答えようとした質問です。

その一環として、研究チームは、タスク指向の対話コーパスとして公開されているものとしては最大の規模を誇るコーパス、スキーマガイド付き対話 (SGD) コーパスをリリースしました。

[[280742]]

「今日のバーチャルアシスタントは、フライトの検索、近くのイベントや映画の検索、予約、ウェブからの情報の取得など、ユーザーがさまざまなタスクを実行するのに役立ちます」と、ソフトウェアエンジニアのAbhinav Rastogi氏とGoogle ResearchのエンジニアリングリーダーPranav Khaitan氏はブログ投稿に書いています。

「驚異的な進歩にもかかわらず、最先端のモデルでは適応性の課題が見落とされがちです。これは、仮想アシスタントが直面する規模と複雑さに見合う適切なデータセットが不足していることが一因です。」

このため、 SGD には、銀行業務やイベントからメディア、カレンダー、旅行、天気まで、17 のドメインのサービスとのやり取りを含む、人々と仮想アシスタント間の 18,000 件を超える注釈付き会話が含まれています。

ほとんどのドメインでは、データセットには複数の異なる API が含まれており、その多くは機能が重複していますが、さまざまなインターフェースが典型的な現実世界のシナリオを反映しています。評価セットにはトレーニング セットに含まれていないサービスが含まれており、主に API の変更や新しい API の追加に対するモデルの堅牢性を定量化するために使用されます。

前述のパターン ガイド アプローチでは、各サービスまたは API の自然言語記述とそれに関連する属性を活用して分散セマンティック表現を学習します。これは、対話システムへの追加入力として使用され、その後、単一のモデルとして実装されます。

研究チームによると、この統合モデルはGoogleのオープンソース会話状態追跡モデルの中核をなすもので、異なるサービスにおける類似概念間の共通知識表現を促進し、トレーニングデータにはなかった新しいサービスでの動作を可能にするという。

「このデータセットは、大規模な会話モデルを構築するための優れたベンチマークとなるだろうと信じている」とラストギ氏とカイタン氏は書いている。 「研究コミュニティがこれを会話型テクノロジーの進歩のために革新的な方法で活用してくれることに興奮し、期待しています。」

新しいデータセットとモデルのリリースは、Google の Coached Conversational Preference Elicitation (CCPE) と、2 人の間の 1 対 1 の会話のデータセットである Taskmaster-1 のオープンソース化に続くものです。 (前者には、映画の好みについての人々との会話が 500 件、合計 10,000 件、合計 12,000 件の会話が含まれていました。)

Google はこれを、人間レベルのパフォーマンスを実現できる自然言語システムのモデリングに向けた一歩だと説明しています。

<<:  顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

>>:  AI ソフトウェアは教育分野にどのように役立つのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ロボットは銀行業務を破壊するのか?

[[223220]]世界経済フォーラムの最近のレポートでは、2020年までに先進国で500万の雇用...

注目の話題 | 3年生が独力でAIモデルを解読

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI が電子商取引におけるウェブサイト アクセシビリティ訴訟のリスクを最小限に抑える方法

進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...

...

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

スポーツにおける AI はどの程度信頼できないのでしょうか?先月、スコットランドサッカー選手権の試合...

2025年にはL3自動運転が普及する。まだ手動で運転しているのですか?

最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...

オリンピックに乾杯! Baidu Smart Cloud と CCTV Sports Client が共同で新しいオリンピック放送体験を創造します。

[[416815]]東京オリンピックが閉幕しました。中国選手団は金メダル38個、銀メダル32個、銅...

...

ライトスピードコンピューティングが画期的な進歩を達成、AIトレーニングコストの問題が解決される可能性

画像出典: Visual China 1956年、アメリカの経済学者によって「人工知能」の概念が提唱...

ヘルスケアにおける人工知能の課題にどう対処するか

[[384554]]人工知能は、人類がより早く、より効果的に病気と闘い、より健康的な生活を送るのに役...

回答者の半数以上が顔認識技術の使用に懸念を抱いている

近年最も注目されている新技術の一つとして、顔認識技術が広く利用されています。人々の生活は便利になった...

人工知能に関するよくある質問10選への回答

[[380789]]人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興...

Python の例を使用して TensorFlow を始めるにはどうすればよいでしょうか?

[[223516]]この記事に付属するコードは、ここからダウンロードできます。 https://g...

...