95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を樹立し、マイクロソフトを抜いて1位となり、AIの常識推論能力が大幅に向上しました。この技術は、DAMOアカデミーの科学者の指導の下、1995年以降に生まれたYe Zhixiuという名のインターンによって開発されました。

諺にあるように、後ろの波が前の波を押しのけるように、またしても「他人の子供はこんなに優秀だ」というシリーズです。

最近、ある若者が有名になりました。1995 年以降に生まれたインターン生が、常識 QAの分野で権威あるデータである CommonsenseQA で新しい世界記録を樹立したのです。

この若者の名前は葉志秀。彼はDAMOアカデミーの科学者の指導の下でこの研究を完成させ、マイクロソフトを抜いて1位を獲得した。

CommonsenseQAとは何ですか?

CommonsenseQA は常識的な知識に基づいた質問応答を研究するために提案されたデータセットです。これまでの SWAG や SQuAD データセットよりも難易度が高いです。現在、主要な言語モデル BERT の SWAG および SQuAD におけるパフォーマンスは人間のパフォーマンスに近いかそれを上回っていますが、CommonsenseQA における精度は依然として人間の精度をはるかに下回っています。

Alibaba DAMO Academy Speech Laboratory は AMS メソッドを提案し、BERT モデルの常識推論能力を大幅に向上させました。 AMS メソッドは BERT と同じモデルを使用し、BERT のみを事前トレーニングします。モデルの計算の複雑さを増やすことなく、CommonsenseQA データセットの精度が 5.5% から 62.2% 向上します。

CommonsenseQA 関連の論文は arXiv で公開され、 NAACL 2019 Best Resource Paperを受賞しました。

リンク:

出典: http://arxiv.org/pdf/1811.00937.pdf

著者

アロン・タルモア、ジョナサン・ヘルジグ、ニコラス・ローリー、ジョナサン・ベラント(テルアビブ大学、アレン人工知能研究所)

まとめ

人々は質問に答えるために、豊富な世界知識と特定の文脈を利用することがよくあります。最近の研究では、基本的な知識をほとんど必要とせず、関連する文書やコンテキストに基づいて質問に答えることに主に焦点を当てています。事前知識を使用した質問応答を研究するために、常識的な質問応答に関する新しいデータセット CommonsenseQA を提案します。関連性を超えた常識を捉えるために、ソース概念と同じ意味関係を持つ複数のターゲット概念を ConceptNet (Speer et al., 2017) から抽出します。

私たちはクラウドワーカーに、ソースコンセプトに言及し、各ターゲットコンセプト間の違いを区別する多肢選択式の質問を書くように依頼しました。これにより、クラウドワーカーは、通常は事前の知識が必要となるような、複雑な意味を持つ質問と回答を書くようになります。このステップを通じて 12,247 の質問を作成し、多数の強力なベースライン モデルで実験して、この新しいデータセットが難しいことを実証しました。私たちの最良のベースラインは BERT-large (Devlin et al., 2018) に基づいており、56% の精度を達成していますが、これは人間の精度 (89%) よりも低いものです。

次の図は、CommonsenseQA データセットを構築するプロセスの例です。

最も賢いAIは猫よりも常識がない

自然言語処理 (NLP) は人工知能の最高峰として称賛されていますが、常識的な推論は最も難しいタスクの 1 つです。

常識と呼ばれるものは、特別な学習を必要としない、生まれながらに備わっている判断能力、あるいは説明や議論を必要としない、誰もが知っている知識を指します。たとえば、雷が鳴ったら雨が降ります(lei o)。雨が降ったら傘を差す必要があります(le o)。

機械翻訳や読解などの一般的な NLP タスクにおける AI のパフォーマンスは人間のレベルに近く、場合によっては人間のレベルを超えますが、常識的な推論となると AI はまったく無能です。例えば、歩行者が傘を差しているのを見ると、外は雨が降っているかもしれないと自然に考えます。AIはあらゆる種類の傘を区別できるかもしれませんが、「外は雨が降っている」と推論することはできません。

12,000 件を超える常識的な質問を含む CommonsenseQA データセットでは、現在 56.7% の精度率を達成できますが、これは人間の 89% の精度率よりはまだはるかに低いものです。チューリング賞受賞者のヤン・ルカンの言葉を借りれば、「最も賢い AI は猫よりも常識が少ない」のです。

幸いなことに、アリババDAMOアカデミーの95年以降のインターンの研究により、AIの常識的推論能力は猫のレベルに一歩近づきました。

近い将来、人間の言語を理解できる「猫」が登場するかもしれません。例えば、ガーフィールド? 👇

[[270957]]

<<:  機械学習研究の10年

>>:  2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

ブログ    
ブログ    
ブログ    

推薦する

スタンフォード大学の10のグラフはAI開発の新たなトレンドを分析している

スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...

OpenAIがヴィンセントのビデオモデル「Sora」をリリース。一般人がその恩恵を最大化するにはどうすればいいか?

2022年11月30日のChatGPTのリリース以来、OpenAIが新しい機能をリリースするたびに...

人間の生理学的パラメータのモニタリング分野に焦点を当て、Pulse Geekはウェアラブルでこの分野に参入し、AIを活用して心臓の守護者となる

近年、人工知能技術は、医療、金融、小売、教育、その他のサブ産業を含む多くの垂直分野に応用されています...

機械学習の3つの時代におけるコンピューティングのトレンド

2010 年以前は、トレーニング コンピューティングの開発はムーアの法則に沿って 2 年ごとに 2 ...

ロボット工学は良いが、誇張しすぎるのは良くない

現在、ロボット工学は科学技術分野における最先端技術となっており、先進国は、この技術面で優位に立つこと...

マスク氏は人気検索に頻繁に登場、テスラは「過大評価されている」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

【専門家がここにいるエピソード6】インタラクションのための人工知能

[51CTO.comからのオリジナル記事] 今回のライブ番組「ビッグネームがやってくる」のゲストは、...

顔認識の長所と短所:祝福か呪いか?

[[403037]]画像ソース: https://pixabay.com/images/id-32...

AIアルゴリズムエンジニアの涙の体験談

[[425033]]私たちはしばらくの間、展開モデルの最適化に取り組んできました。ここ数日でようやく...

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

指紋認証ドアロックは新しいものではなく、誰もがよく知っているものだと思います。近年、スマートホームが...

...

ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

アジア太平洋地域では、スマートホーム技術の登場により、ヘルスケア業界の大きな変革が起こっています。こ...

...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...