Google が 11 の言語をカバーする TyDi QA コーパスをリリース

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]

多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語をカバーする質問応答コーパス TyDi QA をリリースしました。

質問応答テクノロジーは、「イカ墨は食べても安全か?」といった日常生活における問題の解決に役立ちます。ユーザーは音声アシスタントに質問したり、検索キーワードを入力して回答を期待することができます。昨年、私たちは実際のユーザーのニーズを反映した課題を提供するために、英語版の Natural Questions Dataset を研究コミュニティにリリースしました。しかし、世界には何千もの異なる言語があり、その多くはセマンティクスの構築に非常に異なるアプローチを使用しています。たとえば、英語には 1 つのオブジェクト ("book") と複数のオブジェクト ("books") がありますが、アラビア語には、単数形 ("كتاب", kitab) または複数形 ("كتب", kutub) に加えて、2 つのオブジェクト ("كتابان", kitaban) を示す 3 番目の形式もあります。さらに、日本語などの一部の言語では、単語の間にスペースを使用しません。言語が意味を表現するさまざまな方法を理解できる機械学習システムを作成することは困難であり、そのようなシステムをトレーニングするには、適用されるさまざまな言語からのサンプルが必要です。

多言語の質問応答技術の研究を促進するために、本日、11 の異なる言語をカバーする質問応答コーパスである TyDi QA をリリースします。私たちの論文「TyDi QA: 類型的に多様な言語における情報探索型質問応答のベンチマーク」で説明されているように、私たちのコーパスは類型的多様性、つまり異なる言語は異なる構造的方法で意味を表現するという概念に触発されています。このコーパスでは類型的に互いに離れた言語のセットを選択したため、このデータセットで良好なパフォーマンスを発揮するモデルは、世界中の多数の言語に一般化されると期待しています。

多様な言語

TyDi QA には、11 の言語からの 200,000 を超える質問と回答のペアが含まれており、さまざまな言語現象とデータの課題を表しています。これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語など、ラテン文字以外のアルファベットを使用しています。アラビア語、フィンランド語、インドネシア語、スワヒリ語、ロシア語など、語の構成が非常に複雑な言語もあります。日本語では、次の 4 つのアルファベットが使用されます。

4色で表現されており、ハングル文字自体も組み合わせの強い字体になっています。言語も、英語やアラビア語のようにオンラインで利用できるデータが大量にあるものから、ベンガル語やスワヒリ語のようにデータがほとんどないものまで多岐にわたります。これらの課題に対処できるシステムは、多くの言語で成功すると期待しています。

実データの作成

研究コミュニティで使用された初期の QA データセットの多くは、まず人々に記事を提供し、次に記事で読​​んだ内容に基づいて質問を書くように依頼することによって作成されました。ただし、各質問に対する答えは書きながら確認できるため、この方法では答えと同じ単語が含まれる質問が作成されることがよくあります。その結果、このタイプのデータでトレーニングされた機械学習アルゴリズムは、単語の一致を優先し、ユーザーのニーズを満たすために必要なより微妙な回答を無視する傾向があります。

より自然なデータセットを構築するために、答えを知りたいがまだ答えを知らない人々からの質問を集めました。質問を促すために、私たちは人々にウィキペディアの興味深い一節を彼らの母国語で示しました。それから、私が示した内容では答えがわからず、実際に答えを知りたいと思う限り、どんな質問でも構いません。これは、道を歩いているときに、好奇心から何か興味深いものを見つけたときに質問が出てくるのと似ています。質問をするときには想像力を働かせるように奨励しています。たとえば、氷に関する記事を読むと、夏のアイスキャンディーを思い浮かべますか?素晴らしい!アイスキャンディーを発明したのは誰か尋ねます。重要なのは、質問が翻訳されたものではなく、その言語で直接書かれているため、多くの質問がコーパスの英語版にあるものと異なるということです。ベンガル語で質問があります。「সফেদা ফল খেতে কেমন?」(サポディラはどんな味がしますか?)サポディラって聞いたことありませんか?これは、サポジラが米国よりもインドで一般的だからかもしれません。

これらの質問ごとに、適切な言語で最適な一致する Wikipedia の記事を Google で検索し、質問者に記事内の回答を見つけて強調表示するように依頼しました。質問者が答えを見つけられなかった場合、質問と回答の間に興味深い相違が生じることは予想していましたが、世界中の言語における驚くほど幅広い言語現象と相まって、状況はさらに複雑であることがわかりました。

たとえば、フィンランド語では、質問と回答で「日」と「週」という単語が非常に異なって表現される興味深い例がいくつかあります。 Wikipedia の記事全体からこの回答文を正しく選択するには、システムがフィンランド語の単語 viikonpäivät、seitsenpäiväinen、viikko の関係を認識できる必要があります。

研究コミュニティとして共に進歩する

このデータセットが研究コミュニティの革新を推進し、世界中のユーザーにとってより便利な質問応答システムを生み出すことを願っています。コミュニティの進捗状況を追跡するために、参加者が機械学習システムの品質を評価できるリーダーボードを設置し、データセットを使用する質問応答システムもオープンソース化しました。リーダーボードを表示して詳細を確認するには、チャレンジの Web サイトにアクセスしてください。

著者について:

ジョナサン・クラークは、Google Research の研究科学者です。

<<:  Google Brainの主要研究:高速微分可能ソートアルゴリズム、桁違いに高速

>>:  過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

中国では普及していない無人コンビニが、なぜアメリカでは人気があるのか​​?

[[247391]] 2018年1月、米国シアトルのアマゾン本社にアマゾン初の無人コンビニエンスス...

大きなモデルが必ずしも良いモデルとは限らない。小さな機械学習こそが未来だ

NASA の推進により、電子機器の小型化は消費者向け製品産業全体に広がりました。ベートーヴェンの全作...

Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

本日、Google の研究科学者 Kevin P. Murphy 氏は、「確率的機械学習: 上級」の...

AIは教育業界にどのような影響を与えるのでしょうか?これら6つの側面について学ぶ

人工知能は、SFの世界のものから、私たちの日常生活に影響を与える重要な技術へと変化しました。現在、多...

自動運転車の4つの重要な要素:2040年までに市場価値500億ドル

自動運転車は自動車業界にとって非常に破壊的な技術です。現在、多くのメーカーが物流、自動運転タクシー、...

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...

スマートテクノロジーが現代のビジネス運営を強化する7つの方法

スマート テクノロジーは、あらゆる業界の企業に無限のチャンスをもたらします。小さな変更でも、企業を完...

データが少ないとディープラーニングは使えないなんて誰が言ったのでしょうか?私はこのことについて責任を負わないよ!

ある観点から見ると、激しい競争は業界の人気を示しています。最近、人気のディープラーニングも論争を引き...

...

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がス...

...

AIによる労働者排除の進捗が発表され、真っ先に影響を受けるのは女性、アジア人、ホワイトカラー労働者!誰も免れることはできない

AI革命の波が押し寄せる中、労働者は最前線に立つことができるのか、それとも無慈悲に打ちのめされるのか...

言語モデルの倫理的・社会的リスクについて

このホワイトペーパーでは、6 つの具体的なリスク領域について概説しています。I. 差別、排除、毒性、...