Google が 11 の言語をカバーする TyDi QA コーパスをリリース

Google が 11 の言語をカバーする TyDi QA コーパスをリリース

[[315942]]

多言語の質問応答技術の研究を促進するために、Google は 11 種類の言語をカバーする質問応答コーパス TyDi QA をリリースしました。

質問応答テクノロジーは、「イカ墨は食べても安全か?」といった日常生活における問題の解決に役立ちます。ユーザーは音声アシスタントに質問したり、検索キーワードを入力して回答を期待することができます。昨年、私たちは実際のユーザーのニーズを反映した課題を提供するために、英語版の Natural Questions Dataset を研究コミュニティにリリースしました。しかし、世界には何千もの異なる言語があり、その多くはセマンティクスの構築に非常に異なるアプローチを使用しています。たとえば、英語には 1 つのオブジェクト ("book") と複数のオブジェクト ("books") がありますが、アラビア語には、単数形 ("كتاب", kitab) または複数形 ("كتب", kutub) に加えて、2 つのオブジェクト ("كتابان", kitaban) を示す 3 番目の形式もあります。さらに、日本語などの一部の言語では、単語の間にスペースを使用しません。言語が意味を表現するさまざまな方法を理解できる機械学習システムを作成することは困難であり、そのようなシステムをトレーニングするには、適用されるさまざまな言語からのサンプルが必要です。

多言語の質問応答技術の研究を促進するために、本日、11 の異なる言語をカバーする質問応答コーパスである TyDi QA をリリースします。私たちの論文「TyDi QA: 類型的に多様な言語における情報探索型質問応答のベンチマーク」で説明されているように、私たちのコーパスは類型的多様性、つまり異なる言語は異なる構造的方法で意味を表現するという概念に触発されています。このコーパスでは類型的に互いに離れた言語のセットを選択したため、このデータセットで良好なパフォーマンスを発揮するモデルは、世界中の多数の言語に一般化されると期待しています。

多様な言語

TyDi QA には、11 の言語からの 200,000 を超える質問と回答のペアが含まれており、さまざまな言語現象とデータの課題を表しています。これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語など、ラテン文字以外のアルファベットを使用しています。アラビア語、フィンランド語、インドネシア語、スワヒリ語、ロシア語など、語の構成が非常に複雑な言語もあります。日本語では、次の 4 つのアルファベットが使用されます。

4色で表現されており、ハングル文字自体も組み合わせの強い字体になっています。言語も、英語やアラビア語のようにオンラインで利用できるデータが大量にあるものから、ベンガル語やスワヒリ語のようにデータがほとんどないものまで多岐にわたります。これらの課題に対処できるシステムは、多くの言語で成功すると期待しています。

実データの作成

研究コミュニティで使用された初期の QA データセットの多くは、まず人々に記事を提供し、次に記事で読​​んだ内容に基づいて質問を書くように依頼することによって作成されました。ただし、各質問に対する答えは書きながら確認できるため、この方法では答えと同じ単語が含まれる質問が作成されることがよくあります。その結果、このタイプのデータでトレーニングされた機械学習アルゴリズムは、単語の一致を優先し、ユーザーのニーズを満たすために必要なより微妙な回答を無視する傾向があります。

より自然なデータセットを構築するために、答えを知りたいがまだ答えを知らない人々からの質問を集めました。質問を促すために、私たちは人々にウィキペディアの興味深い一節を彼らの母国語で示しました。それから、私が示した内容では答えがわからず、実際に答えを知りたいと思う限り、どんな質問でも構いません。これは、道を歩いているときに、好奇心から何か興味深いものを見つけたときに質問が出てくるのと似ています。質問をするときには想像力を働かせるように奨励しています。たとえば、氷に関する記事を読むと、夏のアイスキャンディーを思い浮かべますか?素晴らしい!アイスキャンディーを発明したのは誰か尋ねます。重要なのは、質問が翻訳されたものではなく、その言語で直接書かれているため、多くの質問がコーパスの英語版にあるものと異なるということです。ベンガル語で質問があります。「সফেদা ফল খেতে কেমন?」(サポディラはどんな味がしますか?)サポディラって聞いたことありませんか?これは、サポジラが米国よりもインドで一般的だからかもしれません。

これらの質問ごとに、適切な言語で最適な一致する Wikipedia の記事を Google で検索し、質問者に記事内の回答を見つけて強調表示するように依頼しました。質問者が答えを見つけられなかった場合、質問と回答の間に興味深い相違が生じることは予想していましたが、世界中の言語における驚くほど幅広い言語現象と相まって、状況はさらに複雑であることがわかりました。

たとえば、フィンランド語では、質問と回答で「日」と「週」という単語が非常に異なって表現される興味深い例がいくつかあります。 Wikipedia の記事全体からこの回答文を正しく選択するには、システムがフィンランド語の単語 viikonpäivät、seitsenpäiväinen、viikko の関係を認識できる必要があります。

研究コミュニティとして共に進歩する

このデータセットが研究コミュニティの革新を推進し、世界中のユーザーにとってより便利な質問応答システムを生み出すことを願っています。コミュニティの進捗状況を追跡するために、参加者が機械学習システムの品質を評価できるリーダーボードを設置し、データセットを使用する質問応答システムもオープンソース化しました。リーダーボードを表示して詳細を確認するには、チャレンジの Web サイトにアクセスしてください。

著者について:

ジョナサン・クラークは、Google Research の研究科学者です。

<<:  Google Brainの主要研究:高速微分可能ソートアルゴリズム、桁違いに高速

>>:  過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

ブログ    
ブログ    

推薦する

放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト

近年、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で革新の波を起こしています。大...

...

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

この記事の著者である Cody Marie Wild は、機械学習分野のデータ サイエンティスト (...

Intel と AMD はパフォーマンスの向上のために AI PC に期待していますが、消費者はそれらを買い替える資金を持っているのでしょうか?

11月2日、新型コロナウイルス感染症のパンデミックをきっかけに2年間成長を続けてきたパソコン(PC...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...

人工知能はチェスをプレイする以外に何をすべきでしょうか?

[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...

Golang と OpenCV ライブラリ: 顔認識を実装するには?

Go 言語で顔認識を実装するには、通常、OpenCV ライブラリを使用する必要があります。 Go ...

GPT や Llama などの大規模モデルには「反転の呪い」があります。このバグを軽減するにはどうすればよいでしょうか?

中国人民大学の研究者らは、Llamaなどの因果言語モデルが遭遇する「反転の呪い」は、次のトークン予測...

...

自動運転車の運転分類と必要な処理能力

今後 20 ~ 30 年で、自動運転車 (AV) は私たちの運転習慣や輸送業界を変え、社会全体に影響...

...

...

数学的パラドックスが人工知能の限界を証明する

人間は一般的に何かが間違っていることを認識するのが得意ですが、AI システムはそうではありません。新...

機械学習とデータサイエンスのための最も人気のある Python ライブラリ トップ 10

2018 年は人工知能と機械学習が急速に発展する年となるでしょう。一部の専門家は、Python は...