2019年のAI技術のブレークスルーをすべて見る

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

2019年にAI業界全体はどのように発展するのでしょうか?

NLP モデルは新しい記録を打ち立て続け、Google と Facebook が交互に記録を残しています。
GAN は常に進化しており、本物と偽物の区別が難しい高解像度の顔を生成することさえ可能です。
強化学習は、StarCraft 2 のような戦略ゲームを解決しました。

2020年が来るのが待ち遠しくなります。

最近、Analytics Vidhya は 2019 AI テクノロジーレビューレポートを発表し、過去 1 年間にさまざまな技術分野で AI が達成した進歩をまとめ、2020 年の新しいトレンドを展望しています。

Analytics Vidhya は有名なデータサイエンスコミュニティです。その技術レビューレポートは、機械学習業界の複数の専門家によって執筆されました。

このレポートでは、過去 1 年間で NLP が最も急速に発展し、CV は比較的成熟し、RL はまだ始まったばかりで来年には大きな爆発的な成長が見込まれると考えています。

Quantum位は報告書をもとに編集、整理、補足しました。では、早速、2019 年の AI テクノロジーを 1 つずつ見ていきましょう。

自然言語処理 (NLP): 言語モデルの爆発的な増加と展開ツールの出現

NLP は 2019 年に大きく前進し、この分野にとってブレークスルーの点では比類のない年となりました。

このレポートでは、2018 年は NLP にとって転換点となる年であり、2019 年は基本的にその基礎の上に構築され、この分野が飛躍的に進歩することになったと主張しています。

トランスフォーマーがNLPを支配する

2017 年の論文「Attention is All You Need」の発表以来、 BERTに代表される NLP モデルが登場しました。それ以来、Transformer は NLP の分野で何度も SOTA の結果で優位に立ってきました。

Google のTransformer-XL は、言語モデリングにおいて BERT を上回るもう 1 つの Transformer ベースのモデルです。その後、非常に人間らしい音声を生成できることで知られる OpenAI のGPT-2モデルが登場しました。

2019 年後半には、CMU の XLNet、Facebook AI の RoBERTa、mBERT (Multilingual BERT) など、BERT 自体に多くの革新が見られました。これらのモデルは、RACE や SQuAD などのテストリストで新しい記録を更新し続けています。

GPT-2 がついにフルバージョンをリリースし、15 億のパラメータモデルがオープンソースになりました。

GPT-2 モデルアドレス: https://openai.com/blog/gpt-2-1-5b-release/

さらに読む

BERTは複数のテストで1位を取り戻し、改良によりパフォーマンスはXLNetに追いついた。事前トレーニング済みモデルは現在オープンソースである。

トランプ氏の口調が本物か偽物かを見分けるのは難しい。コーネル大学が15億のパラメータモデルをブラインドテスト：これほどリアルなモデルはかつてなかった。最も強力なストーリーテリングAIが登場。

大規模な事前学習済み言語モデルが標準になりつつある

転移学習は、2019 年に NLP 分野で出現したもう 1 つのトレンドです。ラベル付けされていないテキストの大規模なコーパスで事前トレーニングされ、言語自体の根底にあるニュアンスを学習できる多言語モデルが登場し始めています。

GPT-2、Transformer-XL などのモデルは、ほぼすべての NLP タスクに合わせて微調整でき、比較的少ないデータでも優れたパフォーマンスを発揮します。

Baidu のERNIE 2.0などのモデルでは継続的な事前トレーニングの概念が導入され、事前トレーニング方法は大きく進歩しました。このフレームワークでは、さまざまなカスタムタスクをいつでも段階的に導入できます。

新しいテスト基準が発表されました

一連の新しい NLP モデルが大幅なパフォーマンス向上をもたらしたため、そのテストスコアはわずかな差で上限に達し、GLUE テストでは人間の平均レベルを超えました。

したがって、これらのテストベンチマークは、NLP モデルの開発レベルを反映するにはもはや不十分であり、将来のさらなる改善にもつながりません。

DeepMind、ニューヨーク大学、ワシントン大学、Facebookは共同で新しいテスト標準SuperGLUEを提案しました。これにより、より難しい因果推論タスクが追加され、NLPモデルに新たな課題が提示されました。

NLPエンジニアリングと展開について考え始める

2019 年には、実用的な NLP リソースが多数登場しました。

スタンフォード大学がオープンソース化したStanfordNLPライブラリと、 HuggingFaceの Transformer 事前トレーニング済みモデルライブラリ。 spaCy はこのライブラリを活用して、テキスト処理用の産業用ライブラリである spacy-transformers を作成しました。

「2019年に訓練した大規模言語モデルと同様に、これらのモデルの最適化にも重点を置きました」とスタンフォード大学のNLPグループは述べています。

BERT、Transformer-XL、GPT-2 などの大規模モデルの問題は、計算量が多く、実際に使用するのはほとんど不可能なことです。

HuggingFace のDistilBERT は、言語理解能力の 97% を維持しながら BERT モデルのサイズを 40% 削減し、速度を 60% 向上できることを示しました。

Google とトヨタは、BERT モデルのサイズを縮小する別の方法であるALBERTを開発しました。ALBERT は、3 つの NLP ベンチマーク (GLUE、SQuAD、RACE) で SOTA 結果を達成しました。

さらに読む

GitHub Wanxing NLP リソースのアップグレード: Pytorch と TF 間の高度な相互運用性を実現し、32 の最新の事前トレーニング済みモデルを統合

音声認識への関心の高まり

NLP 分野では、エンドツーエンドの自動音声認識システムのモデルを非常に簡単にトレーニングできる Nvidia のNeMoなどのフレームワークを使用してオーディオデータを活用することに 2019 年に新たな関心が集まりました。

NVIDIA は、NeMo に加えて、小型で効率的な音声認識モデルである Jasper をベースにした、もう 1 つの新しいエンドツーエンドの音声認識モデルアーキテクチャであるQuartzNetもオープンソース化しました。

多言語モデルへのさらなる重点

多言語データを使用できるようになる前に、NLP は実際にどのように機能するのでしょうか?

今年は、50 を超える人間の言語のテキストを処理できる事前トレーニング済みモデルを備えた StanfordNLP などの NLP ライブラリの多言語の道を再検討することに新たな関心が集まっています。ご想像のとおり、これはコミュニティに大きな影響を与えました。

その後、Facebook AI の XLM mBERT (100 以上の言語) やフランス語向けに微調整された CamemBERT などのプロジェクトを通じて、BERT のような大規模な言語モデルを作成する試みが成功しました。

2020年のトレンド

上記は、2019 年の NLP 分野の進歩の概要です。2020 年には、この分野にどのようなトレンドが見られるのでしょうか。

NLP の専門家であり Kaggle グランドマスターでもある Sudalai Rajkumar 氏は、2020 年の主なトレンドについて次のように推測しています。

より大規模なデータセットでより大規模なディープラーニングモデルをトレーニングするという現在の傾向を継続します。
より小規模な NLP モデルが役立つ、より多くの本番アプリケーションを構築する。
テキストデータに手動で注釈を付けるにはコストがかかるため、半教師ありラベル付け手法が重要になる可能性があります。
NLP モデルの解釈可能性により、モデルが偏りのない決定を下す際に何を学習したかを理解できます。

NLP 分野の学者であり、ULMFiT の著者の一人であるセバスチャン・ルーダーは、次のように考えています。

膨大なデータセットから学習するだけでなく、より少ないサンプルで効率的に学習するモデルも増えるでしょう。
モデルはますますスパース性と効率性を重視するようになっています。
複数の言語のデータセットに重点を置きます。

コンピュータビジョン（CV）：画像セグメンテーションがより洗練され、AIフェイクがよりリアルに

コンピュータービジョンに関しては、CVPRやICCVなどのトップクラスの国際会議に採択された論文数が今年は大幅に増加しました。次に、2019 年に最も人気のある重要なアルゴリズムと実装のいくつかを見てみましょう。

何開明マスクR-CNNは追い抜かれている

マスクスコアリング R-CNN

COCO画像インスタンスセグメンテーションタスクでは、Mask Scoring R-CNNがHe KaimingのMask R-CNNを上回り、トップコンピュータービジョンカンファレンスCVPR 2019での口頭発表に選ばれました。

Mask R-CNN などのモデルでは、インスタンス分類の信頼度がマスク品質の尺度として使用されますが、実際にはマスクの品質と分類の品質の間には強い相関関係はありません。

華中科技大学のこの記事ではこの問題を研究し、マスクスコアという新しいスコアリング方法を提案しました。

マスクスコアリング R-CNN モデルは、分類スコアを取得するために検出に直接依存するだけでなく、マスクの別のスコアリングルールである MaskloU ヘッドも学習します。

分類スコアとマスクスコアの両方を考慮することで、Mask Scoring R-CNN はアルゴリズムの品質をより公平に評価し、インスタンスセグメンテーションモデルのパフォーマンスを向上させることができます。

研究チームは COCO データセットで実験を行い、その結果、さまざまなバックボーンネットワーク上の Mask Scoring R-CNN の AP 改善は常に約 1.5% であることが示されました。

この論文は、Open Data Science によって 2019 年第 1 四半期のトップ 10 論文の 1 つに選ばれました。

この論文の第一著者は、華中科技大学電気通信工学学院の准教授である王星剛氏のチームに所属するホライゾンのインターンである黄兆金氏です。王星剛氏はこの論文の著者の一人でもあります。

ソロ

ByteDanceのインターン生である王欣龍氏が提案した新しいインスタンスセグメンテーション手法であるSOLOは、よりシンプルなフレームワークを備えた単一ステージのインスタンスセグメンテーション手法ですが、そのパフォーマンスもMask R-CNNを上回っています。

SOLO メソッドの中心的なアイデアは、インスタンス分割問題をカテゴリを考慮した予測問題とインスタンスを考慮したマスク生成問題として再定義することです。

COCO データセットでの実験結果によると、SOLO は一般的に、これまでの主流のシングルステージインスタンスセグメンテーション手法よりも優れており、いくつかの指標では Mask R-CNN の拡張バージョンよりも優れていることが示されています。

関連アドレス

https://arxiv.org/abs/1903.00241v1 https://arxiv.org/abs/1912.04488

さらに読む

何開明の仮面R-CNNを超えるパフォーマンス！華中科技大学の修士課程の学生が新しい画像セグメンテーション手法をオープンソース化 | CVPR19 口頭発表

ByteDanceのインターンが新しいインスタンスセグメンテーション手法を提案：パフォーマンスはHe KaimingのMask R-CNNを上回る

エフィシェントネット

EfficientNetは、AutoMLをベースにGoogleが開発したモデルスケーリング手法で、ImageNetテストで84.1%の精度を達成し、新記録を樹立しました。

精度は以前のSOTAモデルGpipeよりわずか0.1%高いだけですが、モデルはより小さく、より高速になり、パラメータ数とFLOPは大幅に削減され、効率は10倍向上しました。

著者は、Google Brain のエンジニアである Mingxing Tan 氏と主任科学者の Quoc V. Le 氏です。

関連アドレス

GitHub: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

論文: https://arxiv.org/abs/1905.11946

さらに読む

Google のオープンソーススケーリングモデル EfficientNets: ImageNet の精度が過去最高に達し、効率が 10 倍に向上

ディテクトロン2

この強力な PyTorch オブジェクト検出ライブラリは Facebook から提供されています。

第一世代の Detectron と比較すると、トレーニング速度が速くなり、機能が充実し、サポートするモデルも増えました。かつては GitHub のホットリストでトップにランクされました。

実際、Detectron2 は第 1 世代の Detectron を完全に書き直したものです。第 1 世代は Caffe2 で実装されていましたが、モデル設計と実験をより速く反復するために、Detectron2 は PyTorch でゼロから作成されました。

さらに、Detectron2 はモジュール化されており、ユーザーは独自のカスタマイズされたモジュールを実装し、それをオブジェクト検出システムの任意の部分に追加できます。

これは、わずか数百行のコードで多くの新しい研究を記述でき、新しい実装をコア Detectron2 ライブラリから完全に分離できることを意味します。

Detectron2 は、第 1 世代の利用可能なすべてのモデル (Faster R-CNN、Mask R-CNN、RetinaNet、DensePose) に基づいて、Cascade R-NN、Panoptic FPN、TensorMask などの新しいモデルを追加します。

関連アドレス

GitHub: https://github.com/facebookresearch/detectron2

さらに読む

GitHub トレンド第 1 位: Detectron2、強力な PyTorch オブジェクト検出ライブラリ。トレーニングが高速化され、より多くのタスクをサポート

より強力なGAN

2019年現在でもGANは活発に活動しています。

たとえば、同じく Google DeepMind の第 2 世代の VQ-VAEは、BigGAN よりも高解像度でリアルで多様な画像を生成します: https://arxiv.org/abs/1906.00446

BigBiGANは、高品質の画像を生成するだけでなく、画像分類タスクの記録も更新しています: https://arxiv.org/abs/1907.02544

イスラエル工科大学とGoogleが共同で制作したSinGANがICCV2019最優秀論文賞を受賞しました: https://arxiv.org/abs/1905.01164

Nvidia の StyleGAN もStyleGAN2に進化しており、第 1 世代のさまざまな欠陥を補っています: https://arxiv.org/abs/1912.04958

さらに読む

史上最高のGANを超えました！ DeepMindは、本物と偽物の区別が困難な人間や動物の顔の高解像度画像を生成する第2世代VQ-VAEをリリースしました。

ImageNet の記録を更新、GAN は偽造が得意なだけではない! DeepMindは画像分類にこれを使用しており、職業分類のAIに勝っている

ICCV2019のベストペーパーSinGANの包括的な解釈、この記事を読めば理解できるでしょう

StyleGAN2がなければ第1世代がピークだと本気で思う：NVIDIAの顔ジェネレーターは大きな欠陥を補うように進化してきた

2020年のトレンド

Analytics Vidhya は、2020 年を見据えて、この分野の焦点は依然として GAN にあると考えています。

styleGAN2 などの新しい手法により、よりリアルな顔画像が生成されており、DeepFake の検出がますます重要になります。視覚と（音声）の両方において、この方向でさらに研究を進めていきます。

メタ学習と半教師あり学習は、2020 年のもう一つの重要な研究方向です。

強化学習（RL）：StarCraftとDOTAの両方がクラックされ、使いやすさが向上

2019 年には、既存の強化手法がより大きなコンピューティングリソースに拡張され、一定の進歩を遂げました。

過去 1 年間で、強化学習は、Dota2 や StarCraft 2 などのゲームでトップクラスの人間のプロ選手を破るなど、従来は解決が困難であった一連の複雑な環境問題を解決しました。

報告書では、こうした動きはメディア業界から大きな注目を集めているものの、現在のアプローチには依然としていくつかの問題があると指摘している。

大量のトレーニングデータが必要ですが、これは十分に正確で高速なシミュレーション環境がある場合にのみ取得できます。これは多くのビデオゲームに当てはまりますが、現実世界のほとんどの問題には当てはまりません。
このトレーニングパラダイムのため、大規模な強化学習アルゴリズムは、環境内の根本的な因果関係を学習してインテリジェントに一般化するのではなく、単に混雑した問題空間でポリシーを過剰に生成しているように感じられます。
同様に、既存のほぼすべての Deep RL 手法は、敵対的サンプル、ドメイン外の一般化、ワンショット学習に対して非常に脆弱であり、現在のところ適切な解決策はありません。

したがって、Deep RL の主な課題は、決定論的な環境への対処から、一般化、転移学習、限られたデータからの学習などのより基本的な進歩に徐々に重点を置くように移行することです。これはいくつかの機関の研究動向からもわかります。

まず、OpenAI は、プロセスレベルの生成を使用して Deep RL アルゴリズムの一般化能力をテストする、ジムのような環境の新しいセットをリリースしました。

多くの研究者が「知性」の実際の定義に疑問を持ち、再評価し始めています。私たちは、ニューラルネットワークの未発見の弱点をより深く理解し始めており、この知識を使用してより優れたモデルを構築しています。

さらに読む

1-10で負け、5分で崩れ落ちた！スタークラフト2のプロ選手が史上初めてAIに敗北、アルファスターは一戦で有名になった

人間の対戦相手の 99.8% を粉砕し、3 つの種族すべてがグランドマスターレベルに到達しました。星間AIがネイチャー誌に登場、技術が初めて完全公開

2:0! Dota2世界チャンピオンのOGはOpenAIに圧倒され、人間はゲーム全体で外側のタワーを2つしか倒せなかった

Dota2 チャンピオン OG はどのようにして AI に打ち負かされたのでしょうか? OpenAIは3年間の蓄積を経てついに完全な論文を公開した

2020年のトレンド

まとめると、2020 年の予測傾向は次のとおりです。

限られたデータからの学習と一般化は、強化学習研究の中心的なテーマになるでしょう。
強化学習におけるブレークスルーは、ディープラーニングの進歩と密接に結びついています。
生成モデルの力を活用してさまざまなトレーニングプロセスを強化する研究は今後ますます増えていくでしょう。

学際研究：AIに関する詳細な学際研究

人工知能技術の発展に伴い、今年は学際的な研究も盛んになってきました。 AIは、医療、脳コンピューターインターフェース、さらには数学の研究にも頻繁に登場します。

脳コンピューターインターフェース

マスク氏とフェイスブックが賭けている脳コンピューターインターフェースの分野では、ディープラーニングが研究者が脳が何を考えているのかを解読するのに役立っている。

たとえば、カリフォルニア大学サンフランシスコ校が Nature 誌に発表したこの研究では、ディープラーニングを使用して脳を直接読み取り、脳の信号を音声に変換しています。

これまでの音声合成脳コンピューターインターフェースは1分間に8語しか生成できなかったが、今回の研究で使用された新しいデバイスは1分間に150語を生成でき、これは人間の自然な発話速度に近い。

薬

医療分野では、機械学習技術は医療画像認識にのみ利用されているわけではありません。

たとえば、ドイツ組織工学・再生医学研究所による研究では、ディープラーニングアルゴリズム DeepMACT を使用して、マウスの体全体にわたる癌の転移を自動的に検出し、分析しました。

この技術を基に、科学者たちは初めて単一の癌細胞によって形成された微小な転移部位を観察し、作業効率を300倍以上向上させました。

「現在、腫瘍学の臨床試験の成功率は約5％です。DeepMACT技術は前臨床研究における医薬品開発プロセスを大幅に改善できると考えています。その結果、臨床試験のためのより強力な医薬品候補を見つけるのに役立ち、多くの命を救うことにつながると期待しています」と、この研究の責任著者であるアリ・エルトゥルク氏は述べた。

数学

数学は自然科学の基礎ですが、AIの継続的な発展に伴い、一定の「フィードバック」の役割も果たしてきました。

Facebookが発表した新しいモデルは、微分方程式と不定積分を1秒以内に正確に解くことができる。

それだけでなく、そのパフォーマンスは、一般的に使用されている Mathematica や Matlab を上回ります。

積分方程式と微分方程式はどちらも、ある表現を別の表現に変換するものと見ることができます。研究者は、これは NLP 手法を使用して解決できる機械翻訳の特殊な例であると考えています。

この方法は主に4つのステップに分かれています。

数式をツリー形式で表現します。
seq2seq モデルを導入しました。
ランダムな表現を生成します。
式の数をカウントします。

研究者らは、5,000 個の方程式のデータセットで微積分方程式を解くモデルの精度を評価しました。

結果は、微分方程式の場合、ビームサーチデコードによってモデルの精度が大幅に向上することを示しています。

500 個の方程式のテストセットでは、最も優れた商用ソフトウェアは Mathematica でした。

新しい方法でサイズ 50 のビーム検索を実行すると、モデルの精度は 81.2% から 97% に向上し、Mathematica (77.2%) よりもはるかに優れています。

さらに、新しいモデルは、Mathematica や Matlab では解決できないいくつかの問題に対して効果的なソリューションを提供します。

2020年の機械学習の展望

NLP からコンピュータービジョン、強化学習まで、2020 年には期待できることがたくさんあります。 Analytics Vidhya が 2020 年に予測する主要なトレンドの一部を以下に示します。

機械学習関連の求人数は 2020 年まで急増し続けるでしょう。 NLP の成長により、多くの企業がチームの拡大を検討しており、この分野に参入するには絶好のタイミングです。
データエンジニアの役割はさらに重要になります。
AutoML は 2018 年に普及しましたが、2019 年には期待されたほどの高みには達しませんでした。 AWS と Google Cloud の既成ソリューションがさらに普及するにつれ、来年はこうした事例がさらに増えるはずです。
2020 年は、強化学習においてついにブレークスルーが見られる年になるでしょうか?研究成果を現実世界に移すことが大きな障害であることが判明したため、この数年間は低迷が続いています。

<<: Baidu: 無料で公開されている LinearFold アルゴリズムにより、RNA 分析を 55 分から 27 秒に短縮できます

>>: 予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

自然言語処理 (NLP): 言語モデルの爆発的な増加と展開ツールの出現

トランスフォーマーがNLPを支配する

大規模な事前学習済み言語モデルが標準になりつつある

新しいテスト基準が発表されました

NLPエンジニアリングと展開について考え始める

音声認識への関心の高まり

多言語モデルへのさらなる重点

2020年のトレンド

コンピュータビジョン（CV）：画像セグメンテーションがより洗練され、AIフェイクがよりリアルに

何開明マスクR-CNNは追い抜かれている

エフィシェントネット

ディテクトロン2

より強力なGAN

2020年のトレンド

強化学習（RL）：StarCraftとDOTAの両方がクラックされ、使いやすさが向上

2020年のトレンド

学際研究：AIに関する詳細な学際研究

脳コンピューターインターフェース

薬

数学

2020年の機械学習の展望

推薦する