95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を樹立し、マイクロソフトを抜いて1位となり、AIの常識推論能力が大幅に向上しました。この技術は、DAMOアカデミーの科学者の指導の下、1995年以降に生まれたYe Zhixiuという名のインターンによって開発されました。

諺にあるように、後ろの波が前の波を押しのけるように、またしても「他人の子供はこんなに優秀だ」というシリーズです。

最近、ある若者が有名になりました。1995 年以降に生まれたインターン生が、常識 QAの分野で権威あるデータである CommonsenseQA で新しい世界記録を樹立したのです。

この若者の名前は葉志秀。彼はDAMOアカデミーの科学者の指導の下でこの研究を完成させ、マイクロソフトを抜いて1位を獲得した。

CommonsenseQAとは何ですか?

CommonsenseQA は常識的な知識に基づいた質問応答を研究するために提案されたデータセットです。これまでの SWAG や SQuAD データセットよりも難易度が高いです。現在、主要な言語モデル BERT の SWAG および SQuAD におけるパフォーマンスは人間のパフォーマンスに近いかそれを上回っていますが、CommonsenseQA における精度は依然として人間の精度をはるかに下回っています。

Alibaba DAMO Academy Speech Laboratory は AMS メソッドを提案し、BERT モデルの常識推論能力を大幅に向上させました。 AMS メソッドは BERT と同じモデルを使用し、BERT のみを事前トレーニングします。モデルの計算の複雑さを増やすことなく、CommonsenseQA データセットの精度が 5.5% から 62.2% 向上します。

CommonsenseQA 関連の論文は arXiv で公開され、 NAACL 2019 Best Resource Paperを受賞しました。

リンク:

出典: http://arxiv.org/pdf/1811.00937.pdf

著者

アロン・タルモア、ジョナサン・ヘルジグ、ニコラス・ローリー、ジョナサン・ベラント(テルアビブ大学、アレン人工知能研究所)

まとめ

人々は質問に答えるために、豊富な世界知識と特定の文脈を利用することがよくあります。最近の研究では、基本的な知識をほとんど必要とせず、関連する文書やコンテキストに基づいて質問に答えることに主に焦点を当てています。事前知識を使用した質問応答を研究するために、常識的な質問応答に関する新しいデータセット CommonsenseQA を提案します。関連性を超えた常識を捉えるために、ソース概念と同じ意味関係を持つ複数のターゲット概念を ConceptNet (Speer et al., 2017) から抽出します。

私たちはクラウドワーカーに、ソースコンセプトに言及し、各ターゲットコンセプト間の違いを区別する多肢選択式の質問を書くように依頼しました。これにより、クラウドワーカーは、通常は事前の知識が必要となるような、複雑な意味を持つ質問と回答を書くようになります。このステップを通じて 12,247 の質問を作成し、多数の強力なベースライン モデルで実験して、この新しいデータセットが難しいことを実証しました。私たちの最良のベースラインは BERT-large (Devlin et al., 2018) に基づいており、56% の精度を達成していますが、これは人間の精度 (89%) よりも低いものです。

次の図は、CommonsenseQA データセットを構築するプロセスの例です。

最も賢いAIは猫よりも常識がない

自然言語処理 (NLP) は人工知能の最高峰として称賛されていますが、常識的な推論は最も難しいタスクの 1 つです。

常識と呼ばれるものは、特別な学習を必要としない、生まれながらに備わっている判断能力、あるいは説明や議論を必要としない、誰もが知っている知識を指します。たとえば、雷が鳴ったら雨が降ります(lei o)。雨が降ったら傘を差す必要があります(le o)。

機械翻訳や読解などの一般的な NLP タスクにおける AI のパフォーマンスは人間のレベルに近く、場合によっては人間のレベルを超えますが、常識的な推論となると AI はまったく無能です。例えば、歩行者が傘を差しているのを見ると、外は雨が降っているかもしれないと自然に考えます。AIはあらゆる種類の傘を区別できるかもしれませんが、「外は雨が降っている」と推論することはできません。

12,000 件を超える常識的な質問を含む CommonsenseQA データセットでは、現在 56.7% の精度率を達成できますが、これは人間の 89% の精度率よりはまだはるかに低いものです。チューリング賞受賞者のヤン・ルカンの言葉を借りれば、「最も賢い AI は猫よりも常識が少ない」のです。

幸いなことに、アリババDAMOアカデミーの95年以降のインターンの研究により、AIの常識的推論能力は猫のレベルに一歩近づきました。

近い将来、人間の言語を理解できる「猫」が登場するかもしれません。例えば、ガーフィールド? 👇

[[270957]]

<<:  機械学習研究の10年

>>:  2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

プログラマーは30歳で転職すべきでしょうか?曲がるならどちらの方向がいいでしょうか?

最近、皆さんは次のような H5 に悩まされていると思います。広告ポスター500枚の予算は2,000元...

「とんでもないAI画像拡大」が流行ってる!張張、それは驚きだ

家族、Tik TokのAI拡大画像に本当に笑い死にしそう——観た後に「意外」で「すごく怒る」というの...

AIが将来のスマートマスモビリティソリューションへの道を切り開く

2030年までに人口の60%が都市部に住むようになると推定されています。現在そして将来に必要な条件は...

JD.com、ビリビリ、ピンドゥオドゥオなど中国企業88社が米国の上場廃止前リストに含まれ、中国コンセプト株がクリアされる可能性

半月も経たないうちに、第6波がまたやってきました!現地時間5月4日、米証券取引委員会は再び「上場廃止...

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...

...

人工知能プロジェクト: 注目すべき 7 つのポイント

最近、業界調査会社ガートナーは、AI プロジェクトの 85% は CIO に引き渡されないという大胆...

李開復は「口を滑らせた」と言ったのか? AIデータのプライバシーが心配です!

[[341971]]シノベーションベンチャーズの会長兼CEOである李開復氏は9月12日、HICOO...

基本に立ち返る: 一歩先を行くために読むべき 5 つのデータ サイエンス論文

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

古典的なJavaアルゴリズムの筆記試験問題を分析する

Java アルゴリズム プログラムに関する質問:同社には筆記試験問題が 1 つだけあり、10 分以内...

アリババが国際AIサミットを主催、医療AIとマルチメディアコンテンツ理解が話題に

10月15日、記者はアリババが主催する2020 ACMマルチメディア(以下、ACM MM 2020)...

Siriは中国で禁止されるのでしょうか?国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...