2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]]

2018 年は AI 分野にとって依然として刺激的な年です。

今年はNLP研究の分水嶺となり、さまざまなブレークスルーが次々と起こりました。CV分野も素晴らしいですし、GANで生成された偽の顔は4年前とは思えないほどリアルです。新しいツールや新しいフレームワークの登場も、この分野の将来を特にエキサイティングなものにしています...

最近、Analytics Vidhya は 2018 年の人工知能技術の概要と 2019 年のトレンド予測レポートを発表しました。原著者は PRANAV DAR です。 Quantum位はレポートの構成を維持しながら、内容を再編集し補足しました。

このレポートでは、年間を通じて主要な AI 技術分野における主要な進展を要約して整理し、より有効に活用および照会できるように関連リソースのアドレスも提供します。

このレポートは主に 5 つの部分から構成されています。

  • 自然言語処理 (NLP)
  • コンピュータビジョン
  • ツールとライブラリ
  • 強化学習
  • AI倫理

次は、振り返り、楽しみにしています

自然言語処理 (NLP)

NLP の歴史において 2018 年が特別な位置を占めていることは疑いの余地がありません。

このレポートでは、今年は NLP にとって転換点となる年になると考えています。 2018 年には、NLP 分野で ULMFiT、ELMo、そして最近人気の BERT など、連続的なブレークスルーがありました...

転移学習は、NLP の進歩にとって重要な原動力となっています。事前トレーニング済みのモデルから始めて、常に新しいデータに適応することで無限の可能性が生まれ、「NLP 分野における ImageNet 時代が到来した」という声さえあります。

■ ウルムフィット

この頭字語は「Universal Language Model Fine-tuning」の略で、ACL 2018 の論文「Universal Language Model Fine-tuning for Text Classification」に由来しています。

今年の NLP 転移学習カーニバルで最初の一撃を放ったのはこの論文でした。

論文の著者は、転移学習の豊富な経験を持つ Fast.ai の創設者 Jeremy Howard 氏と、自然言語処理の博士課程の学生で、同業者のほぼ全員が NLP ブログを読んでいる Sebastian Ruder 氏の 2 人です。

二人の専門知識の組み合わせにより、ULMFiTが誕生しました。 NLP タスクを解決する場合、モデルを最初からトレーニングする必要はなくなりました。ULMFiT を使用して少量のデータで微調整することで、新しいタスクでより優れたパフォーマンスを実現できます。

彼らのアプローチは、6 つのテキスト分類タスクにおいて、これまでの最先端モデルを上回っています。

詳細な説明は彼らの論文に記載されています:

https://arxiv.org/abs/1801.06146

Fast.ai の Web サイトでは、トレーニング スクリプトやモデルなどが公開されています。

カテゴリー

■エルモ

この名前は、もちろん「セサミストリート」のキャラクターを指すのではなく、「言語モデルのための単語埋め込み」を指しています。これは、アレン人工知能研究所とワシントン大学による論文「Deep contextualized word presentations」に由来しており、トップクラスの NLP カンファレンス NAACL HLT 2018 での優れた論文の 1 つです。

ELMo は言語モデルを使用して単語の埋め込みを取得し、単語が配置されている文または段落のコンテキストも考慮します。

このような文脈に沿った単語の表現は、文法的および意味的な使用法における単語の複雑な特徴を反映することができ、また、異なる文脈で単語がどのように変化するかを反映することもできます。

もちろん、ELMo は実験でもその強力な有効性を実証しました。 ELMo を既存の NLP モデルに適用すると、さまざまなタスクのパフォーマンスが向上します。たとえば、機械質問応答データセット SQuAD では、ELMo を使用すると、以前の最高モデルのパフォーマンスが 4.7 パーセントポイント向上します。

ELMo に関するその他の紹介とリソースは次のとおりです。

https://allennlp.org/elmo

■ バート

BERT は 2018 年に最も人気のある NLP モデルであると言っても過言ではありません。NLP の新時代の始まりとも言われています。

これは Google によって開始されたもので、正式名称はBidirectional Encoder Representations from Transformersで、Transformer からの双方向エンコーダー表現を意味します。これは言語表現を事前トレーニングする方法でもあります。

パフォーマンスの面では、BERT に匹敵するモデルはありません。 11 の NLP タスクで最高の結果を達成しました。これまでのところ、SQuAD 2.0 のトップ 10 のうち BERT バリアントではないのは 1 つだけです。

まだ BERT の論文を読んでいないなら、2018 年が終わる前にぜひ読んでみてください。

https://arxiv.org/abs/1810.04805

さらに、Google はトレーニング コードと事前トレーニング済みモデルを公式にオープンソース化しました。

https://github.com/google-research/bert

PyTorch ファンなら、心配しないでください。公式に推奨されている PyTorch の再実装および変換スクリプトもここにあります。

https://github.com/huggingface/pytorch-pretrained-BERT

■ パイテキスト

BERT の後、2018 年に NLP コミュニティはどのような驚きを得られるでしょうか?答えは新しいツールです。

先週末、Facebook は、同社のエンジニアが使用してきた NLP モデリング フレームワークである PyText をオープンソース化しました。このフレームワークは、さまざまな Facebook アプリケーションで毎日 10 億を超える NLP タスクを処理する、産業グレードのツールキットです。

(Facebookが新たなNLPフレームワークをオープンソース化:導入プロセスを簡素化し、大規模アプリケーションもOK)

PyText は PyTorch をベースとしており、研究から応用までの進捗を加速できます。モデルの調査から実装完了までわずか数日しかかかりません。このフレームワークには、テキスト分類やシーケンスのラベル付けなどのタスクを直接処理するために使用できる、事前トレーニング済みのモデルもいくつか含まれています。

試してみませんか?オープンソースのアドレスは次のとおりです:

https://github.com/facebookresearch/pytext

■ デュプレックス

これまでの研究が抽象的すぎると感じる人にとって、Duplex は NLP の進歩を示す最も鮮明な例です。

名前が聞き覚えがありませんか?しかし、この製品については聞いたことがあるはずです。これは、Google が 2018 I/O Developer Conference でデモした「Phone AI」です。

ヘアサロンやレストランに積極的に電話をかけてサービスを予約することができ、プロセス全体が非常にスムーズなので、本物とほとんど区別がつきません。グーグルのジョン・ヘネシー会長は後にこれを「驚くべき躍進」と呼び、「予約に関しては、このAIはチューリングテストに合格した」と付け加えた。

Duplex が複数回の会話で実証した理解力と合成音声の自然さは、どちらも現在の NLP レベルを反映しています。

まだビデオを見ていない方は…

■ 2019年の展望

2019 年に NLP はどうなるでしょうか? ULMFiT の著者である Sebastian Ruder 氏の見解を借りてみましょう。

  • 事前トレーニング済みの言語モデルの埋め込みは普及するでしょう。事前トレーニング済みのモデルなしで最先端のモデルをゼロからトレーニングすることは稀になるでしょう。
  • 専門的な情報をエンコードできる事前トレーニング済みの表現は、言語モデルの埋め込みを補完するものとして登場します。その時点で、タスクの要件に応じて、さまざまな種類の事前トレーニング済み表現を組み合わせることができるようになります。
  • 多言語アプリケーションとクロス言語モデルに関する研究がさらに進むでしょう。特に、言語間の単語埋め込みに基づいて、事前に深くトレーニングされた言語間の表現が出現します。

コンピュータビジョン

今年は、画像とビデオの両分野で多数の新しい研究が発表され、3つの主要な研究がCV界に衝撃を与えました。

■ビッグガン

今年9月、BigGANを使用した二重盲検レビュー中のICLR 2019論文が発表されたとき、専門家たちは興奮しました。それがGAN自体によって生成されたものとは見分けがつかなかったからです

コンピューター画像研究の歴史において、BigGAN の結果は、その前身のものよりもはるかに優れています。たとえば、解像度 128×128 の ImageNet でトレーニングした後、その Inception Score (IS) スコアは 166.3 となり、これは以前の最高スコア 52.52 の3 倍になります。

BigGAN は、128×128 の小さな画像を処理するだけでなく、256×256 および 512×512 の ImageNet データで直接トレーニングして、より説得力のあるサンプルを生成することもできます。

論文の中で研究者らは、BigGAN の驚くべき効果には実はコストがかかることを明らかにした。トレーニングには最大 512 個の TPU が必要で、そのコストは最大 11 万ドル (76 万人民元) になる可能性がある。

このモデルはパラメータが多いだけでなく、トレーニング規模も GAN の登場以来最大規模です。パラメータは前モデルの 2 ~ 4 倍、バッチ サイズは前モデルの 8 倍です。

関連アドレス

研究論文:

https://openreview.net/pdf?id=B1xsqj09Fm

■ Fast.aiはImageNet全体を18分でトレーニングしました

完全な ImageNet でモデルをトレーニングするにはどのくらいの時間がかかりますか?大手企業は記録を破るために巨額の資金を費やし続けています。

ただし、それほど多くのコンピューティング リソースを消費しない民間バージョンもあります。

今年8月、オンラインディープラーニングコースFast.aiの創設者ジェレミー・ハワード氏とその学生たちは、レンタルしたAmazon AWSクラウドコンピューティングリソースを使用して、ImageNet上の画像分類モデルを18分で93%の精度までトレーニングしました。

[[253126]]

全体として、Fast.ai チームは 8 基の NVIDIA V100 GPU を搭載した 16 個の AWS クラウド インスタンスのみを使用しました。その結果、スタンフォード DAWNBench テストで Google が TPU Pod を使用して達成した速度よりも 40% 高速になりました。

このような素晴らしい成果はわずか40 ドルで実現でき、Fast.ai はブログで、誰でも達成できると述べています。

関連アドレス:

Fast.ai ブログ紹介:

https://www.fast.ai/2018/08/10/fastai-diu-imagenet/

■ vid2vidテクノロジー

今年8月、NvidiaとMITの研究チームは、超リアルなHDビデオを生成できるAIを開発した。

動的なセマンティック マップだけで、現実世界とほぼ同じビデオを作成できます。つまり、実際に撮影しなくても、頭の中でシーンをスケッチするだけで、映画品質のビデオを自動的に編集できるのです。

街の風景に加えて、顔も生成できます。

この背後にある vid2vid テクノロジーは、生成的敵対学習のフレームワークに基づく新しい手法であり、慎重に設計されたジェネレーターとディスクリミネーターのアーキテクチャと、時空間の敵対的目的を組み合わせたものです。

このアプローチにより、セグメンテーション マスク、手描きのスケッチ、人間のポーズなど、さまざまな入力形式で高解像度、フォトリアリスティック、かつ時間的に一貫したビデオ効果を実現できます。

良いニュースです。vid2vid は NVIDIA によってオープンソース化されました。

関連アドレス

研究論文:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHubアドレス

https://github.com/NVIDIA/vid2vid

■ 2019年のトレンド展望

Analytics Vidhya は、コンピューター ビジョンの分野では、来年は新しい方法を開発するよりも、既存の方法を改善および強化する研究が多くなる可能性があると予測しています。

米国では、ドローンに対する政府の規制が若干「緩​​和」され、開放度が増すかもしれない。今年非常に人気があった自己教師学習は、来年さらに多くの研究に応用される可能性があります。

Analytics Vidhya も、ビジョンの分野に期待を寄せています。現時点では、CVPR や ICML などの主要な国際会議で最新の研究成果が発表されていますが、産業分野での応用は楽観的ではありません。彼は、2019年に実際のシナリオでより多くの研究が実施されることを期待しています。

Analytics Vidhya は、ビジュアル質問応答 (VQA) テクノロジーとビジュアル対話システムが、さまざまな実際のアプリケーションでデビューする可能性が高いと予想しています。

[[253129]]

ツールとフレームワーク

どのツールが最適ですか?どのフレームワークが未来を代表するのでしょうか?これらは永遠に議論できる話題です。

議論の結果がどうであろうと、私たち全員が最新のツールを習得し理解する必要があることは疑いの余地がありません。そうしないと、業界から取り残されてしまう可能性があります。

今年も機械学習分野のツールやフレームワークは急速に発展しています。以下はこの点についての概要と展望です。

■ PyTorch 1.0

GitHubが10月に発表した2018年の年次レポートによると、PyTorchは最も急成長しているオープンソースプロジェクトのランキングで2位にランクされました。これは、最終候補に残った唯一のディープラーニング フレームワークでもあります。

Google TensorFlow の最大のライバルである PyTorch は、実は 2017 年 1 月 19 日に正式にリリースされた新参者です。 2018 年 5 月には PyTorch と Caffe2 が統合され、さらに競争力の高い新世代の PyTorch 1.0 になりました。

それに比べて、PyTorch は高速で柔軟性が非常に高く、GitHub 上のオープンコードでは PyTorch フレームワークを使用するケースが増えています。来年には PyTorch の人気がさらに高まることが予想されます。

PyTorch と TensorFlow のどちらを選択すればよいのでしょうか?以前公開したレポートでは、多くの著名人が PyTorch をサポートしていました。

実際、2 つのフレームワークはますます類似しつつあります。 Google Brain の元ディープラーニング研究者であるデニー・ブリッツ氏は、ほとんどの場合、ディープラーニング フレームワークの選択は実際にはそれほど大きな影響を与えないと考えています。

関連アドレス

PyTorch公式サイト:

https://pytorch.org/

■ オートML

多くの人が AutoML をディープラーニングの新しい方法と呼び、それがシステム全体を変えると信じています。 AutoML を使用すると、複雑なディープラーニング ネットワークを設計する必要がなくなります。

Googleは今年1月17日、クラウドプラットフォームを通じて独自のAutoML技術を公開するCloud AutoMLサービスを開始した。機械学習を理解していなくても、カスタマイズされた機械学習モデルをトレーニングできる。

ただし、AutoML は Google の特許ではありません。ここ数年、海外ではRapidMiner、KNIME、DataRobot、H2O.aiなど多くの企業がこの分野に参入しています。

これらの企業の製品に加えて、紹介するオープンソース ライブラリもあります。

オートケラス!

これは AutoML タスクを実行するためのオープンソース ライブラリであり、人工知能の専門的な背景がなくても、より多くの人が機械学習を処理できるようにすることを目的としています。

このライブラリの著者は、テキサス A&M 大学の助教授 Hu Xia 氏と、彼の 2 人の博士課程の学生 Jin Haifeng 氏と Qingquan Song 氏です。 Auto Keras は、Google AutoML の 3 つの大きな欠陥を直接的に解決します。

  • まず、支払いをしなければなりません。
  • 次に、クラウド上にあるため、Docker コンテナと Kubernetes も構成する必要があります。
  • 3 番目に、サービス プロバイダー (Google) はデータのセキュリティとプライバシーを保証することはできません。

関連アドレス

公式サイト:

https://autokeras.com/

GitHub:

https://github.com/jhfjhfj1/autokeras

■TensorFlow.jsについて

TensorFlow.js は、今年 3 月末の TensorFlow Developer Summit 2018 で正式にリリースされました。

これは、JavaScript 開発者向けの機械学習フレームワークです。ブラウザ内で完全にモデルを定義およびトレーニングし、オフラインでトレーニングされた TensorFlow および Keras モデルをインポートして予測し、WebGL をシームレスにサポートできます。

ブラウザで TensorFlow.js を使用すると、インタラクティブな機械学習、すべてのデータがクライアントに保存されるなど、より多くのアプリケーション シナリオを拡張できます。

実は、新しくリリースされた TensorFlow.js は以前の deeplearn.js をベースにしていますが、TensorFlow に統合されています。

Google は TensorFlow.js の応用事例もいくつか紹介しました。たとえば、カメラを使って古典的なゲーム「パックマン」をプレイします。

関連アドレス

公式サイト:

テンソルフロー

■ 2019年のトレンド展望

ツールの話題では、AutoML が最も人気があります。なぜなら、これはゲームのルールを真に変える中核的なテクノロジーだからです。ここで、H2O.ai の Marios Michailidis (KazAnova) 氏の来年の AutoML 分野の展望を引用したいと思います。

  • インテリジェントな視覚化と洞察を通じてデータの説明と理解を支援
  • データセットのより良い特徴を発見、構築、抽出する
  • より強力でスマートな予測モデルを迅速に構築
  • 機械学習の説明可能性を通じてブラックボックスモデリングのギャップを埋める
  • これらのモデルの開発を推進する

強化学習

[[253133]]

強化学習にはまだまだ道のりが残っています。

時折注目を集めるニュースを除けば、強化学習における真のブレークスルーは今のところ存在しない。強化学習の研究は数学に大きく依存しており、実際の産業応用はまだ実現されていません。

来年は、RL の実際の使用例がさらに増えると予想されます。今は、将来どんな大きなことが起こるのかを知るために、強化学習の進歩に毎月特に注目しています。

■ OpenAIの強化学習入門チュートリアル

機械学習の経験がない人でも、強化学習をすぐに始めることができます。

11月初旬、OpenAI は強化学習 (RL) の入門チュートリアル「Spinning Up」をリリースしました。一連の重要な概念から、一連の主要なアルゴリズム実装コード、ウォームアップ演習まで、各ステップは明確かつ簡潔で、プロセス全体が初心者の視点から構成されています。

[[253134]]

研究チームによれば、現時点では普遍的な強化学習の教科書は存在せず、RL分野に参入できるのは少数の人だけだという。強化学習は本当に便利なので、この状況は変える必要があります。

関連アドレス

チュートリアルエントリ:

https://spinningup.openai.com/en/latest/index.html

GitHub ポータル:

https://github.com/openai/spinningup

■Googleの新しい強化学習フレームワーク「Dopamine」

Dopamine は、TensorFlow をベースにした、今年 8 月に Google がリリースしたオープンソースの強化学習フレームワークです。

新しいフレームワークは明快さとシンプルさを念頭に置いて設計されているため、コードは比較的コンパクトで、約 15 個の Python ファイルで構成されています。これは、Arcade Learning Environment (ALE) ベンチマークに基づいており、DQN、C51、Rainbow エージェント ライト バージョン、および ICML 2018 の Implicit Quantile Networks を統合しています。

研究者が自分のアイデアを既存の方法と素早く比較できるように、このフレームワークは、ALE ベンチマークに基づく 60 の Atari ゲームで、DQN、C51、Rainbow エージェントの簡易バージョン、および Implicit Quantile Networks の完全なトレーニング データを提供します。

さらに、ドーパミン教育コラボのセットもあります。

関連アドレス

ドーパミン Google ブログ:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

ドーパミン github ダウンロード:

https://github.com/google/dopamine/tree/master/docs#downloads

コラボ:

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

ゲームトレーニング視覚化ウェブページ:

https://google.github.io/dopamine/baselines/plots.html

■ 2019年のトレンド展望

DataHack Summit 2018 の講演者であり、ArxivInsights の創設者でもある Xander Steenbrugge 氏も強化学習の専門家です。以下は彼の要約と展望です。

1. 補助学習タスクの数が増え、スパースな外的報酬が追加されるにつれて、サンプルの複雑さは増加し続けます。報酬が非常に少ない環境では、これは非常にうまく機能します。 2. このため、主に仮想環境で最初にトレーニングするという現在の方法に代わる、物理的な世界で直接トレーニングすることがますます実現可能になります。 2019 年には、ディープラーニングのみでトレーニングされ、人間の関与がなく、優れたパフォーマンスを発揮する最初のロボットのデモが登場すると予測しています。 3. DeepMind が AlphaGo のストーリーを生物学分野 (AlphaFold) に拡張した後、強化学習は学術分野以外でも徐々に実用的な商業価値を生み出すようになると考えています。たとえば、新薬の探索、電子チップアーキテクチャの最適化、車両など。4. 強化学習に大きな変化があり、トレーニングデータでインテリジェントエージェントをテストする動作は「許可」されなくなります。教師あり学習と同様に、一般化メトリックが中心になります。

AI倫理

2018年にはAIの悪用事件が頻繁に暴露された。FacebookのAIはトランプ氏の米国大統領選出を支援し、Googleは米軍と提携してAI兵器を開発し、Microsoftは移民関税執行局(ICE)にクラウドコンピューティングと顔認識サービスを提供した...

事故が起こるたびにAI倫理に関する新たな議論の波が巻き起こり、シリコンバレーのテクノロジー企業の中にはこの時期に企業向けAIガイドラインを策定したところもある。

Analytics Vidhya は、AI 倫理はまだグレーゾーンであり、現時点では誰もが従うべき枠組みは存在しないと考えています。2019 年には、さらに多くの企業と政府が関連規制を策定するでしょう。

AI倫理基準の策定はまだ始まったばかりです。

<<:  ディープラーニングの成果は収穫されようとしているのでしょうか? 11人の専門家がAIの現在(2018年)と未来(2019年)について語る

>>:  ThunderSoft の Sun Li: AI 対応産業の課題と解決策

ブログ    
ブログ    
ブログ    

推薦する

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

GPT-4が化学者になる! USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

「我々の実験は制御不能になった!これは我々の世界の終わりだ!」 - デイ・アフター・トゥモローSF映...

業界の洞察 | 世界の人工知能とその産業チェーン

18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...

現代の分散ストレージシステムをサポートするアルゴリズム

アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...

...

顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...

AIと自動化によるセキュリティの向上

2020年に突如発生した新型コロナウイルス感染症のパンデミックにより多くの従業員が自宅待機を余儀なく...

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...

AIの文章検出ツールは信頼性が低く、米国憲法は実際にはロボットによって書かれたと考えられている

7月16日、一部のネットユーザーは、米国で最も重要な法律文書である米国憲法を、人工知能による執筆を検...

ビール会社がIoTとAIを活用する方法

ワイン、酒類、ビール会社を含むあらゆる業界が、モノのインターネット (IoT) と人工知能 (AI)...

MIT、思考制御によるロボットのミスを防ぐ新しいインターフェースシステムを開発

[[233698]]海外メディアの報道によると、ロボットに災害を引き起こす可能性のあることをしないよ...

「AI医薬品製造」の新時代が到来!人工知能がより良い抗がん剤の組み合わせを予測

[[355967]]人工知能は新興の破壊的技術として、科学技術革命と産業変革によって蓄積された膨大な...

...