2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]]

2018 年は AI 分野にとって依然として刺激的な年です。

今年はNLP研究の分水嶺となり、さまざまなブレークスルーが次々と起こりました。CV分野も素晴らしいですし、GANで生成された偽の顔は4年前とは思えないほどリアルです。新しいツールや新しいフレームワークの登場も、この分野の将来を特にエキサイティングなものにしています...

最近、Analytics Vidhya は 2018 年の人工知能技術の概要と 2019 年のトレンド予測レポートを発表しました。原著者は PRANAV DAR です。 Quantum位はレポートの構成を維持しながら、内容を再編集し補足しました。

このレポートでは、年間を通じて主要な AI 技術分野における主要な進展を要約して整理し、より有効に活用および照会できるように関連リソースのアドレスも提供します。

このレポートは主に 5 つの部分から構成されています。

自然言語処理 (NLP)
コンピュータビジョン
ツールとライブラリ
強化学習
AI倫理

次は、振り返り、楽しみにしています

自然言語処理 (NLP)

NLP の歴史において 2018 年が特別な位置を占めていることは疑いの余地がありません。

このレポートでは、今年は NLP にとって転換点となる年になると考えています。 2018 年には、NLP 分野で ULMFiT、ELMo、そして最近人気の BERT など、連続的なブレークスルーがありました...

転移学習は、NLP の進歩にとって重要な原動力となっています。事前トレーニング済みのモデルから始めて、常に新しいデータに適応することで無限の可能性が生まれ、「NLP 分野における ImageNet 時代が到来した」という声さえあります。

■ ウルムフィット

この頭字語は「Universal Language Model Fine-tuning」の略で、ACL 2018 の論文「Universal Language Model Fine-tuning for Text Classification」に由来しています。

今年の NLP 転移学習カーニバルで最初の一撃を放ったのはこの論文でした。

論文の著者は、転移学習の豊富な経験を持つ Fast.ai の創設者 Jeremy Howard 氏と、自然言語処理の博士課程の学生で、同業者のほぼ全員が NLP ブログを読んでいる Sebastian Ruder 氏の 2 人です。

二人の専門知識の組み合わせにより、ULMFiTが誕生しました。 NLP タスクを解決する場合、モデルを最初からトレーニングする必要はなくなりました。ULMFiT を使用して少量のデータで微調整することで、新しいタスクでより優れたパフォーマンスを実現できます。

彼らのアプローチは、6 つのテキスト分類タスクにおいて、これまでの最先端モデルを上回っています。

詳細な説明は彼らの論文に記載されています:

https://arxiv.org/abs/1801.06146

Fast.ai の Web サイトでは、トレーニングスクリプトやモデルなどが公開されています。

カテゴリー

■エルモ

この名前は、もちろん「セサミストリート」のキャラクターを指すのではなく、「言語モデルのための単語埋め込み」を指しています。これは、アレン人工知能研究所とワシントン大学による論文「Deep contextualized word presentations」に由来しており、トップクラスの NLP カンファレンス NAACL HLT 2018 での優れた論文の 1 つです。

ELMo は言語モデルを使用して単語の埋め込みを取得し、単語が配置されている文または段落のコンテキストも考慮します。

このような文脈に沿った単語の表現は、文法的および意味的な使用法における単語の複雑な特徴を反映することができ、また、異なる文脈で単語がどのように変化するかを反映することもできます。

もちろん、ELMo は実験でもその強力な有効性を実証しました。 ELMo を既存の NLP モデルに適用すると、さまざまなタスクのパフォーマンスが向上します。たとえば、機械質問応答データセット SQuAD では、ELMo を使用すると、以前の最高モデルのパフォーマンスが 4.7 パーセントポイント向上します。

ELMo に関するその他の紹介とリソースは次のとおりです。

https://allennlp.org/elmo

■ バート

BERT は 2018 年に最も人気のある NLP モデルであると言っても過言ではありません。NLP の新時代の始まりとも言われています。

これは Google によって開始されたもので、正式名称はBidirectional Encoder Representations from Transformersで、Transformer からの双方向エンコーダー表現を意味します。これは言語表現を事前トレーニングする方法でもあります。

パフォーマンスの面では、BERT に匹敵するモデルはありません。 11 の NLP タスクで最高の結果を達成しました。これまでのところ、SQuAD 2.0 のトップ 10 のうち BERT バリアントではないのは 1 つだけです。

まだ BERT の論文を読んでいないなら、2018 年が終わる前にぜひ読んでみてください。

https://arxiv.org/abs/1810.04805

さらに、Google はトレーニングコードと事前トレーニング済みモデルを公式にオープンソース化しました。

https://github.com/google-research/bert

PyTorch ファンなら、心配しないでください。公式に推奨されている PyTorch の再実装および変換スクリプトもここにあります。

https://github.com/huggingface/pytorch-pretrained-BERT

■ パイテキスト

BERT の後、2018 年に NLP コミュニティはどのような驚きを得られるでしょうか?答えは新しいツールです。

先週末、Facebook は、同社のエンジニアが使用してきた NLP モデリングフレームワークである PyText をオープンソース化しました。このフレームワークは、さまざまな Facebook アプリケーションで毎日 10 億を超える NLP タスクを処理する、産業グレードのツールキットです。

（Facebookが新たなNLPフレームワークをオープンソース化：導入プロセスを簡素化し、大規模アプリケーションもOK）

PyText は PyTorch をベースとしており、研究から応用までの進捗を加速できます。モデルの調査から実装完了までわずか数日しかかかりません。このフレームワークには、テキスト分類やシーケンスのラベル付けなどのタスクを直接処理するために使用できる、事前トレーニング済みのモデルもいくつか含まれています。

試してみませんか？オープンソースのアドレスは次のとおりです:

https://github.com/facebookresearch/pytext

■ デュプレックス

これまでの研究が抽象的すぎると感じる人にとって、Duplex は NLP の進歩を示す最も鮮明な例です。

名前が聞き覚えがありませんか?しかし、この製品については聞いたことがあるはずです。これは、Google が 2018 I/O Developer Conference でデモした「Phone AI」です。

ヘアサロンやレストランに積極的に電話をかけてサービスを予約することができ、プロセス全体が非常にスムーズなので、本物とほとんど区別がつきません。グーグルのジョン・ヘネシー会長は後にこれを「驚くべき躍進」と呼び、「予約に関しては、このAIはチューリングテストに合格した」と付け加えた。

Duplex が複数回の会話で実証した理解力と合成音声の自然さは、どちらも現在の NLP レベルを反映しています。

まだビデオを見ていない方は…

■ 2019年の展望

2019 年に NLP はどうなるでしょうか? ULMFiT の著者である Sebastian Ruder 氏の見解を借りてみましょう。

事前トレーニング済みの言語モデルの埋め込みは普及するでしょう。事前トレーニング済みのモデルなしで最先端のモデルをゼロからトレーニングすることは稀になるでしょう。
専門的な情報をエンコードできる事前トレーニング済みの表現は、言語モデルの埋め込みを補完するものとして登場します。その時点で、タスクの要件に応じて、さまざまな種類の事前トレーニング済み表現を組み合わせることができるようになります。
多言語アプリケーションとクロス言語モデルに関する研究がさらに進むでしょう。特に、言語間の単語埋め込みに基づいて、事前に深くトレーニングされた言語間の表現が出現します。

コンピュータビジョン

今年は、画像とビデオの両分野で多数の新しい研究が発表され、3つの主要な研究がCV界に衝撃を与えました。

■ビッグガン

今年9月、BigGANを使用した二重盲検レビュー中のICLR 2019論文が発表されたとき、専門家たちは興奮しました。それがGAN自体によって生成されたものとは見分けがつかなかったからです。

コンピューター画像研究の歴史において、BigGAN の結果は、その前身のものよりもはるかに優れています。たとえば、解像度 128×128 の ImageNet でトレーニングした後、その Inception Score (IS) スコアは 166.3 となり、これは以前の最高スコア 52.52 の3 倍になります。

BigGAN は、128×128 の小さな画像を処理するだけでなく、256×256 および 512×512 の ImageNet データで直接トレーニングして、より説得力のあるサンプルを生成することもできます。

論文の中で研究者らは、BigGAN の驚くべき効果には実はコストがかかることを明らかにした。トレーニングには最大 512 個の TPU が必要で、そのコストは最大 11 万ドル (76 万人民元) になる可能性がある。

このモデルはパラメータが多いだけでなく、トレーニング規模も GAN の登場以来最大規模です。パラメータは前モデルの 2 ～ 4 倍、バッチサイズは前モデルの 8 倍です。

関連アドレス

研究論文:

https://openreview.net/pdf?id=B1xsqj09Fm

■ Fast.aiはImageNet全体を18分でトレーニングしました

完全な ImageNet でモデルをトレーニングするにはどのくらいの時間がかかりますか?大手企業は記録を破るために巨額の資金を費やし続けています。

ただし、それほど多くのコンピューティングリソースを消費しない民間バージョンもあります。

今年8月、オンラインディープラーニングコースFast.aiの創設者ジェレミー・ハワード氏とその学生たちは、レンタルしたAmazon AWSクラウドコンピューティングリソースを使用して、ImageNet上の画像分類モデルを18分で93%の精度までトレーニングしました。

[[253126]]

全体として、Fast.ai チームは 8 基の NVIDIA V100 GPU を搭載した 16 個の AWS クラウドインスタンスのみを使用しました。その結果、スタンフォード DAWNBench テストで Google が TPU Pod を使用して達成した速度よりも 40% 高速になりました。

このような素晴らしい成果はわずか40 ドルで実現でき、Fast.ai はブログで、誰でも達成できると述べています。

関連アドレス:

Fast.ai ブログ紹介:

https://www.fast.ai/2018/08/10/fastai-diu-imagenet/

■ vid2vidテクノロジー

今年8月、NvidiaとMITの研究チームは、超リアルなHDビデオを生成できるAIを開発した。

動的なセマンティックマップだけで、現実世界とほぼ同じビデオを作成できます。つまり、実際に撮影しなくても、頭の中でシーンをスケッチするだけで、映画品質のビデオを自動的に編集できるのです。

街の風景に加えて、顔も生成できます。

この背後にある vid2vid テクノロジーは、生成的敵対学習のフレームワークに基づく新しい手法であり、慎重に設計されたジェネレーターとディスクリミネーターのアーキテクチャと、時空間の敵対的目的を組み合わせたものです。

このアプローチにより、セグメンテーションマスク、手描きのスケッチ、人間のポーズなど、さまざまな入力形式で高解像度、フォトリアリスティック、かつ時間的に一貫したビデオ効果を実現できます。

良いニュースです。vid2vid は NVIDIA によってオープンソース化されました。

関連アドレス

研究論文:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHubアドレス

https://github.com/NVIDIA/vid2vid

■ 2019年のトレンド展望

Analytics Vidhya は、コンピュータービジョンの分野では、来年は新しい方法を開発するよりも、既存の方法を改善および強化する研究が多くなる可能性があると予測しています。

米国では、ドローンに対する政府の規制が若干「緩和」され、開放度が増すかもしれない。今年非常に人気があった自己教師学習は、来年さらに多くの研究に応用される可能性があります。

Analytics Vidhya も、ビジョンの分野に期待を寄せています。現時点では、CVPR や ICML などの主要な国際会議で最新の研究成果が発表されていますが、産業分野での応用は楽観的ではありません。彼は、2019年に実際のシナリオでより多くの研究が実施されることを期待しています。

Analytics Vidhya は、ビジュアル質問応答 (VQA) テクノロジーとビジュアル対話システムが、さまざまな実際のアプリケーションでデビューする可能性が高いと予想しています。

[[253129]]

ツールとフレームワーク

どのツールが最適ですか?どのフレームワークが未来を代表するのでしょうか?これらは永遠に議論できる話題です。

議論の結果がどうであろうと、私たち全員が最新のツールを習得し理解する必要があることは疑いの余地がありません。そうしないと、業界から取り残されてしまう可能性があります。

今年も機械学習分野のツールやフレームワークは急速に発展しています。以下はこの点についての概要と展望です。

■ PyTorch 1.0

GitHubが10月に発表した2018年の年次レポートによると、PyTorchは最も急成長しているオープンソースプロジェクトのランキングで2位にランクされました。これは、最終候補に残った唯一のディープラーニングフレームワークでもあります。

Google TensorFlow の最大のライバルである PyTorch は、実は 2017 年 1 月 19 日に正式にリリースされた新参者です。 2018 年 5 月には PyTorch と Caffe2 が統合され、さらに競争力の高い新世代の PyTorch 1.0 になりました。

それに比べて、PyTorch は高速で柔軟性が非常に高く、GitHub 上のオープンコードでは PyTorch フレームワークを使用するケースが増えています。来年には PyTorch の人気がさらに高まることが予想されます。

PyTorch と TensorFlow のどちらを選択すればよいのでしょうか?以前公開したレポートでは、多くの著名人が PyTorch をサポートしていました。

実際、2 つのフレームワークはますます類似しつつあります。 Google Brain の元ディープラーニング研究者であるデニー・ブリッツ氏は、ほとんどの場合、ディープラーニングフレームワークの選択は実際にはそれほど大きな影響を与えないと考えています。

関連アドレス

PyTorch公式サイト:

https://pytorch.org/

■ オートML

多くの人が AutoML をディープラーニングの新しい方法と呼び、それがシステム全体を変えると信じています。 AutoML を使用すると、複雑なディープラーニングネットワークを設計する必要がなくなります。

Googleは今年1月17日、クラウドプラットフォームを通じて独自のAutoML技術を公開するCloud AutoMLサービスを開始した。機械学習を理解していなくても、カスタマイズされた機械学習モデルをトレーニングできる。

ただし、AutoML は Google の特許ではありません。ここ数年、海外ではRapidMiner、KNIME、DataRobot、H2O.aiなど多くの企業がこの分野に参入しています。

これらの企業の製品に加えて、紹介するオープンソースライブラリもあります。

オートケラス！

これは AutoML タスクを実行するためのオープンソースライブラリであり、人工知能の専門的な背景がなくても、より多くの人が機械学習を処理できるようにすることを目的としています。

このライブラリの著者は、テキサス A&M 大学の助教授 Hu Xia 氏と、彼の 2 人の博士課程の学生 Jin Haifeng 氏と Qingquan Song 氏です。 Auto Keras は、Google AutoML の 3 つの大きな欠陥を直接的に解決します。

まず、支払いをしなければなりません。
次に、クラウド上にあるため、Docker コンテナと Kubernetes も構成する必要があります。
3 番目に、サービスプロバイダー (Google) はデータのセキュリティとプライバシーを保証することはできません。

関連アドレス

公式サイト:

https://autokeras.com/

GitHub:

https://github.com/jhfjhfj1/autokeras

■TensorFlow.jsについて

TensorFlow.js は、今年 3 月末の TensorFlow Developer Summit 2018 で正式にリリースされました。

これは、JavaScript 開発者向けの機械学習フレームワークです。ブラウザ内で完全にモデルを定義およびトレーニングし、オフラインでトレーニングされた TensorFlow および Keras モデルをインポートして予測し、WebGL をシームレスにサポートできます。

ブラウザで TensorFlow.js を使用すると、インタラクティブな機械学習、すべてのデータがクライアントに保存されるなど、より多くのアプリケーションシナリオを拡張できます。

実は、新しくリリースされた TensorFlow.js は以前の deeplearn.js をベースにしていますが、TensorFlow に統合されています。

Google は TensorFlow.js の応用事例もいくつか紹介しました。たとえば、カメラを使って古典的なゲーム「パックマン」をプレイします。

関連アドレス

公式サイト:

テンソルフロー

■ 2019年のトレンド展望

ツールの話題では、AutoML が最も人気があります。なぜなら、これはゲームのルールを真に変える中核的なテクノロジーだからです。ここで、H2O.ai の Marios Michailidis (KazAnova) 氏の来年の AutoML 分野の展望を引用したいと思います。

インテリジェントな視覚化と洞察を通じてデータの説明と理解を支援
データセットのより良い特徴を発見、構築、抽出する
より強力でスマートな予測モデルを迅速に構築
機械学習の説明可能性を通じてブラックボックスモデリングのギャップを埋める
これらのモデルの開発を推進する

強化学習

[[253133]]

強化学習にはまだまだ道のりが残っています。

時折注目を集めるニュースを除けば、強化学習における真のブレークスルーは今のところ存在しない。強化学習の研究は数学に大きく依存しており、実際の産業応用はまだ実現されていません。

来年は、RL の実際の使用例がさらに増えると予想されます。今は、将来どんな大きなことが起こるのかを知るために、強化学習の進歩に毎月特に注目しています。

■ OpenAIの強化学習入門チュートリアル

機械学習の経験がない人でも、強化学習をすぐに始めることができます。

11月初旬、OpenAI は強化学習 (RL) の入門チュートリアル「Spinning Up」をリリースしました。一連の重要な概念から、一連の主要なアルゴリズム実装コード、ウォームアップ演習まで、各ステップは明確かつ簡潔で、プロセス全体が初心者の視点から構成されています。

[[253134]]

研究チームによれば、現時点では普遍的な強化学習の教科書は存在せず、RL分野に参入できるのは少数の人だけだという。強化学習は本当に便利なので、この状況は変える必要があります。

関連アドレス

チュートリアルエントリ:

https://spinningup.openai.com/en/latest/index.html

GitHub ポータル:

https://github.com/openai/spinningup

■Googleの新しい強化学習フレームワーク「Dopamine」

Dopamine は、TensorFlow をベースにした、今年 8 月に Google がリリースしたオープンソースの強化学習フレームワークです。

新しいフレームワークは明快さとシンプルさを念頭に置いて設計されているため、コードは比較的コンパクトで、約 15 個の Python ファイルで構成されています。これは、Arcade Learning Environment (ALE) ベンチマークに基づいており、DQN、C51、Rainbow エージェントライトバージョン、および ICML 2018 の Implicit Quantile Networks を統合しています。

研究者が自分のアイデアを既存の方法と素早く比較できるように、このフレームワークは、ALE ベンチマークに基づく 60 の Atari ゲームで、DQN、C51、Rainbow エージェントの簡易バージョン、および Implicit Quantile Networks の完全なトレーニングデータを提供します。

さらに、ドーパミン教育コラボのセットもあります。

関連アドレス

ドーパミン Google ブログ:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

ドーパミン github ダウンロード:

https://github.com/google/dopamine/tree/master/docs#downloads

コラボ:

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

ゲームトレーニング視覚化ウェブページ:

https://google.github.io/dopamine/baselines/plots.html

■ 2019年のトレンド展望

DataHack Summit 2018 の講演者であり、ArxivInsights の創設者でもある Xander Steenbrugge 氏も強化学習の専門家です。以下は彼の要約と展望です。

1. 補助学習タスクの数が増え、スパースな外的報酬が追加されるにつれて、サンプルの複雑さは増加し続けます。報酬が非常に少ない環境では、これは非常にうまく機能します。 2. このため、主に仮想環境で最初にトレーニングするという現在の方法に代わる、物理的な世界で直接トレーニングすることがますます実現可能になります。 2019 年には、ディープラーニングのみでトレーニングされ、人間の関与がなく、優れたパフォーマンスを発揮する最初のロボットのデモが登場すると予測しています。 3. DeepMind が AlphaGo のストーリーを生物学分野 (AlphaFold) に拡張した後、強化学習は学術分野以外でも徐々に実用的な商業価値を生み出すようになると考えています。たとえば、新薬の探索、電子チップアーキテクチャの最適化、車両など。4. 強化学習に大きな変化があり、トレーニングデータでインテリジェントエージェントをテストする動作は「許可」されなくなります。教師あり学習と同様に、一般化メトリックが中心になります。

AI倫理

2018年にはAIの悪用事件が頻繁に暴露された。FacebookのAIはトランプ氏の米国大統領選出を支援し、Googleは米軍と提携してAI兵器を開発し、Microsoftは移民関税執行局（ICE）にクラウドコンピューティングと顔認識サービスを提供した...

事故が起こるたびにAI倫理に関する新たな議論の波が巻き起こり、シリコンバレーのテクノロジー企業の中にはこの時期に企業向けAIガイドラインを策定したところもある。

Analytics Vidhya は、AI 倫理はまだグレーゾーンであり、現時点では誰もが従うべき枠組みは存在しないと考えています。2019 年には、さらに多くの企業と政府が関連規制を策定するでしょう。

AI倫理基準の策定はまだ始まったばかりです。

<<: ディープラーニングの成果は収穫されようとしているのでしょうか? 11人の専門家がAIの現在（2018年）と未来（2019年）について語る

>>: ThunderSoft の Sun Li: AI 対応産業の課題と解決策

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

自然言語処理 (NLP)

コンピュータビジョン

ツールとフレームワーク

強化学習

AI倫理

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

掃除ロボットはほこりを吸い取るだけでなく、プライバシーも「吸い取る」ことができます

ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案：乗客の意図を完璧に制御

ドローンはサメに対する私たちの考え方を変えている、と研究で判明

自動制御システムとは何ですか? 自動制御システムの動作原理は何ですか?

AIは人間の教師に取って代わるでしょうか？どれだけの能力があるのかを確かめるためにレッスンを受けました

クラウドコンピューティングと人工知能が伝統的な医学を覆すのは時間の問題だ

推薦する

AIが「ツール人」を救う: RPA+AIがすべてを自動化

200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

スマート建設現場: 2021 年に注目すべき 5 つのスマート建設技術

Nvidia、世界最速のAIスーパーコンピュータがイタリアにやってくると発表

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90％は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

AIOpsの構築と導入を成功させるための3つの要素

救世主か、それとも公敵か？人工知能の現在と未来を説明する記事

AIの未来はエッジにある

人工知能に関しては 5 つの主要な考え方があります。あなたはどれを支持しますか?

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー