AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史

[[269852]]

人類の進化の歴史は、人類が道具を作り、使用してきた歴史です。さまざまな道具は人類の進化のレベルを表しています。石器時代、鉄器時代、蒸気時代、電気時代から現在の情報化時代に至るまで、私たちはより高度で便利な道具を使って生産や生活を変えてきました。

道具の目的は、人間の能力を拡張し、拡大することです。私たちは速く走ることはできませんが、馬に乗ったり車を運転したりすることで、1 日に何千マイルも移動することができます。高くジャンプしたり、飛んだりすることはできませんが、飛行機やロケットの助けを借りて空や地面に行くことができます。道具は一般的に、人間の肉体的な力を拡張する道具と、人間の精神的な力を拡張する道具の 2 つに分けられます。

コンピュータが発明される前、人間が作った道具のほとんどは前者であり、肉体労働の軽減に役立ちました。たとえば、土地を耕すには牛やトラクターを使う方が効率的です。もちろん、そろばんや筆記具など、頭脳労働を軽減するツールもいくつかあります。筆記具は人間の記憶容量を大幅に拡大することができます。現在では、多くの機械的な頭脳労働はコンピューターで行うことができます。しかし、従来のコンピュータプログラムは、メモリを拡張し、単純な機械計算を実行することしかできません。私たちは、より大きく、より高速なメモリを使用して、財務会計に役立つ財務ソフトウェアをコンパイルできます。

コンピューターに車を運転させるなど、「知性」を必要とすることは実現できません。コンピューターは今のところ、人間のように自然言語を使用して人間と日常的にコミュニケーションをとることができません。人工知能の目標は、コンピューターがこれらの複雑な問題を人間と同じくらい「知的に」解決できるようにすることです。今日の人工知能システムはすでに囲碁で人間の世界チャンピオンに勝つことができ、現在の音声認識システムは特定のシナリオではすでに人間の認識精度に匹敵し、無人運転車はすでにいくつかの場所で実験的に路上を走っています。将来、人工知能の応用シナリオはますます広がり、私たちの最終的な目標は、人間と同等、あるいはそれ以上の知能を持つ機械を生み出すことです。

人工知能の発展の簡単な歴史

人工知能の最も初期の研究は、記号計算を自動的に実行できる機械を作ろうとしたライプニッツにまで遡るかもしれないが、現代的な意味での人工知能という用語は、1956 年のダートマス会議で造られたものである。

人工知能には多くの定義があります。それ自体が多くの分野の交差点であり、人によって焦点が当てられる側面が異なります。そのため、誰もが同意できる定義を与えることは困難です。ここで、時間の流れを通して AI の開発プロセスを理解してみましょう。

黄金時代（1956-1974）

これは AI の黄金時代であり、この分野の研究開発を支援するために巨額の資金が投入されました。この時期に影響力のあった研究には、General Problem Solver と初期のチャットボット ELIZA が含まれます。多くの人は、チャットしている ELIZA が実在の人物だと思っていましたが、実際には一致するテンプレートに基づいて返信を生成しただけです (実際に、市場に出回っている当社のチャットボットの多くは、同様のテクノロジーを使用しています)。当時の人々は非常に楽観的でした。たとえば、HA サイモンは 1958 年に、10 年以内にコンピューターがチェスで人間に勝つだろうと主張しました。彼は 1965 年に「20 年以内にコンピューターは人間ができるすべてのことを行うことが可能になるだろう」とさえ言っていました。

最初の寒い冬（1974-1980）

この時までに、以前の主張は実現されていなかったため、さまざまな批判が浮上し、国（米国）はそれ以上の資金を投入しなくなり、人工知能は最初の寒い冬を迎えました。この時代はコネクショニズムの暗黒時代でもありました。 1958 年、フランク・ローゼンブラットは、ニューラルネットワークに関する最も初期の研究と言える知覚マシンを提案しました。しかし、その後の 10 年間でコネクショニズムに関する研究や進歩はあまり見られませんでした。

全盛期（1980-1989）

この時代における繁栄はエキスパートシステムの普及によるものでした。 1982 年にジョン・ホップフィールドが提案したホップフィールドネットワークや、同時期に発見されたバックプロパゲーションアルゴリズムなど、コネクショニストニューラルネットワークも開発されましたが、主流の手法は依然としてシンボリックエキスパートシステムに基づいています。

二度目の寒い冬（1989-1993）

これまで成功していたエキスパートシステムは、コストの高さなどの理由から商業的な成功を達成することが難しく、人工知能は再び厳しい冬を迎えています。

開発期間（1993年～2006年）

この時期の人工知能の主流は機械学習です。統計学習理論の発展と SVM などのツールの普及により、機械学習は着実な発展期を迎えています。

発生期間（2006年～現在）

現在、人工知能の発展は主にディープラーニング、つまりディープニューラルネットワークによって推進されています。 1980 年代から 1990 年代にかけて、ニューラルネットワークは非線形活性化関数を通じて理論的な XOR 問題を解決し、バックプロパゲーションアルゴリズムによって浅いニューラルネットワークのトレーニングも可能になりました。しかし、コンピューティングリソースと技術の制限により、当時はより深いネットワークをトレーニングすることは不可能であり、実際の結果は従来の「浅い」機械学習方法よりも優れていなかったため、この方向に注目する人は多くありませんでした。

Hinton が Deep Belief Nets (DBN) を提案したのは 2006 年になってからで、これにより事前トレーニング方法を通じてより深いニューラルネットワークをトレーニングすることが可能になりました。 2009 年、ヒントン氏とデンリー氏は初めてディープニューラルネットワーク (DNN) を使用して音声認識システムの音響モデルをトレーニングし、システムの単語誤り率 (WER) が大幅に削減されました。

ディープラーニングが学術界で有名になったのは、2012 年の ILSVRC 評価によるものです。それまでは、上位 5 つの分類のエラー率は 25% を超えていましたが、2012 年に AlexNet がコンテストで初めて深層畳み込みネットワークを使用し、エラー率 16% を達成しました。その後も毎年新たな好成績が生まれ、2014年はGoogLeNetとVGG、2015年はResNet残差ネットワークとなりました。現在、優良システムの上位5つの分類エラー率は5%以下となっています。より多くの人々（特に中国人）がディープラーニングの進歩を理解するきっかけとなったのは、2016年にGoogle DeepMindが開発したAlphaGoが人間の世界チャンピオンであるイ・セドルを4対1で破ったことだ。そのため、人工知能は新たな繁栄期を迎え、各界の資本が投資を競い合い、国家レベルの人工知能開発計画も次々と導入されている。

2006年から現在まで、さまざまな分野で大きな進歩がありました

2006 年以降のコンピュータービジョン、聴覚、自然言語処理、強化学習におけるディープラーニングの主な進歩を振り返り、その発展プロセスに基づいて将来の発展の方向性を分析します。著者のレベルと興味の制限により、ここには著者が精通している一部の記事のみがリストされているため、いくつかの重要な研究が確実に見逃されることになります。

コンピュータビジョン

教師なし事前トレーニング

DNN、CNN、RNN (LSTM) などの多くの「最新の」ディープラーニングモデルは、2006 年以前に非常に早い時期に提案されましたが、多くのレイヤーを持つニューラルネットワークをトレーニングする方法がなかったため、ディープラーニングと従来の機械学習の効果に大きな違いはありませんでした。

2006 年、Hinton らは論文「ディープビリーフネットの高速学習アルゴリズム」で、多層 (5 層) ニューラルネットワークをトレーニングするための貪欲な教師なしディープビリーフネット (DBN) 層ごとの事前トレーニング方法と教師あり微調整方法を初めて提案しました。その後の研究の焦点は、さまざまな技術を使用してディープニューラルネットワークをトレーニングする方法であり、このプロセスはおよそ 2010 年まで続きました。主なアイデアは、さまざまな教師なし事前トレーニング方法を使用することです。この期間中、DBN に加えて、制限付きボルツマンマシン (RBM)、ディープボルツマンマシン (DBM)、およびノイズ除去オートエンコーダも提案されました。

代表的な論文としては、Nature 誌に掲載された Hinton らの「ニューラルネットワークによるデータの次元削減」、NIPS 2007 誌に掲載された Bengio らの「ディープネットワークの貪欲なレイヤー単位のトレーニング」、ICML 2009 誌に掲載された Lee らの「階層的表現のスケーラブルな教師なし学習のための畳み込みディープビリーフネットワーク」、2010 年に掲載された Vincent らの「スタックされたノイズ除去オートエンコーダー: ローカルノイズ除去基準を使用してディープネットワークで有用な表現を学習する」などがあります。

当時、より深いニューラルネットワークのトレーニングは非常に難しかったため、Glorot らによる「ディープフィードフォワードニューラルネットワークのトレーニングの難しさについて理解する」などの論文がありました。ディープラーニングツールを使用するときに、Xavier Glorot によって書かれた Xavier 初期化メソッドに遭遇することがあります。当時は、ハイパーパラメータを選択して良いモデルをトレーニングできることが「ブラックテクノロジー」でした。具体的に様々なコツを紹介した「Neural Networks: Tricks of the Trade」という分厚い本もあったことを覚えています。

深層畳み込みニューラルネットワーク

ディープラーニングが注目を集めるようになった主な理由の 1 つは、Alex らが実装した AlexNet が LSVRC-2012 ImageNet コンペティションで非常に優れた結果を達成したことです。それ以来、畳み込みニューラルネットワークとその派生型は、さまざまな画像関連のタスクで広く使用されてきました。 2012 年に始まり 2016 年まで続いた LSVRC コンテストでは、毎年、より深いモデルとより優れた結果が生み出されました。

Alex Krizhevsky の 2012 年の論文「深層畳み込みニューラルネットワークによる ImageNet 分類」がこの「深層」競争の旅の始まりでした。

2014 年の優勝者は GoogleNet でした。これは、22 層のディープニューラルネットワークをトレーニングできる Inception 構造を提案した論文「Going further with convolutions」から生まれました。同年の次点となったのは VGGNet で、モデル構造に大きな変更はありませんが、畳み込みネットワークを深くする (18 層) 技術がいくつか使用されました。

2015 年の優勝者は ResNet で、He Kaiming らによる論文「画像認識のための深層残差学習」から生まれました。残差構造を導入することで、152 層のネットワークをトレーニングすることができました。2016 年の論文「深層残差ネットワークにおけるアイデンティティマッピング」では、残差ネットワークの理論的な分析とさらなる改良が行われました。

2016年にGoogleのSzegedyらは論文「Inception-v4、inception-resnet、および残差接続の学習への影響」の中で、残差接続とIncpetion構造を組み合わせたネットワーク構造を提案し、認識効果がさらに向上しました。

下の図は、LSVRC コンペティションにおけるこれらのモデルのパフォーマンスを示しています。ネットワークが深くなるにつれて、上位 5 つの分類エラー率が徐々に減少していることがわかります。

写真: LSVRC 競技会

物体検出とインスタンスセグメンテーション

これまでのモデルは主に画像分類タスクを考慮していました。物体検出とインスタンスのセグメンテーションもコンピュータービジョンでは非常に一般的なタスクです。これら 2 つのタスクにディープ畳み込みニューラルネットワークを使用するのはごく自然なことですが、このタスクでは、画像内にどのようなオブジェクトがあるのかを知ることに加えて、これらのオブジェクトを正確に配置する必要もあります。この種のタスクに畳み込みニューラルネットワークを使用するには、多くの改良が必要です。

もちろん、ターゲット検出に CNN を使用するのはごく自然なことです。最も簡単な方法は、まず従来の方法を使用してターゲットを特定することですが、位置決めの効果は良くありません。 2014年にGirshickらは論文「正確な物体検出とセマンティックセグメンテーションのための豊富な特徴階層」でR-CNNモデルを提案しました。彼らはRegion Proposalを使用して多数の候補領域を生成し、最終的にCNNを使用してそれらがターゲットであるかどうかを判断しました。しかし、すべての候補を分類する必要があったため、速度が非常に遅かったです。

図: R-CNN

2015年にGirshickらは、RoIプーリング層を用いて1回の計算で全ての候補領域の特徴を同時に計算し、高速計算を実現するFast R-CNNを提案した。しかし、Regional Proposal 自体は非常に遅いです。同年、Ren らは論文「Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks」で Faster R-CNN を提案しました。彼らは、Region Proposal Networks (RPN) を使用して元の Region Proposal アルゴリズムを置き換え、リアルタイムの物体検出アルゴリズムを実現しました。異なる画像内の対象オブジェクトのスケールが異なるという問題を解決するために、Lin らは論文「Feature Pyramid Networks for Object Detection」で Feature Pyramid Networks (FPN) を提案しました。

図: 高速 R-CNN

図: より高速な R-CNN

R-CNN はオブジェクト検出タスクでうまく機能するため、インスタンスセグメンテーションには Faster R-CNN を使用するのが自然です。ただし、リージョン提案と RoI プーリングの両方に量子化丸め誤差があるため、インスタンスのセグメンテーションに使用すると、RoI プーリングの偏差は比較的大きくなります。そこでHe Kaimingらは2017年にMask R-CNNモデルを提案した。

図: マスク R-CNN

この一連の記事から、ディープラーニングをより複雑なシナリオに適用するプロセスを見ることができます。まず、ディープニューラルネットワークが複雑なプロセスで部分的に使用され、最後にすべてのプロセスがニューラルネットワークを使用してエンドツーエンドで実装されます。

また、Redmonらは「You only look once: Unified, real-time object detection」においてYOLOモデル（後続のYOLOv2、YOLOv3を含む）を提案し、LiuらもSSD: Single Shot MultiBox Detectorモデルを提案しました。これらのモデルの目的は、精度を保ちながら検出を高速化することです。

生成モデル

最近、コンピュータービジョンのどの分野が最も人気があるかと聞かれれば、生成モデルは間違いなくその 1 つになるでしょう。物体を認識するのは簡単ではありませんが、物体を生成するのはさらに困難です (3 歳児は猫を認識できますが、猫を上手に描ける 3 歳児は多くありません)。生成モデルが人気になったのは、2014 年に Goodfellow が提案した Generative Adversarial Nets (略して GAN) のおかげです。

この分野は比較的新しい分野であり、研究範囲が非常に広いため、画像分類などの標準的なタスクや、ImageNet などの標準的なデータセットが存在せず、評価方法が非常に主観的になることが多いです。多くの記事では、特定の応用ポイントを見つけて、クールな写真やビデオを生成（または慎重に選択）します。「写真は言葉よりも雄弁です。」人々は写真はクールだと思うが、内容を理解できないので、感動します。どのような実際的な問題が解決されたのかを言うのは難しい。しかし、いずれにしても、この方向性は非常に目を引くものです。たとえば、DeepFake のようなアプリケーションは、すぐにすべての人の興味と議論を呼び起こすことができます。この方向性についてはあまり詳しくないので、以下にいくつかのアプリケーションをリストします。

スタイル転送

最も古い「A Neural Algorithm of Artistic Style」は 2015 年に公開されました。これは GAN が提案される前のことですが、それでも私はそれを生成モデルの中に入れています。当時はしばらくの間非常に人気があり、「Prisma」というヒットアプリも生まれました。下の図に示すように、風景写真と絵画（例えば、c はゴッホの絵画）があれば、この技術を使って風景写真にゴッホのスタイルを加えることができます。

図: ニューラルスタイル転送

Zhu Junyan らが「サイクル一貫性のある敵対的ネットワークを使用した非対画像間翻訳」で提案した CycleGAN は、ペアデータを必要としない、より興味深いモデルです。いわゆるペアデータには、普通の馬の写真とシマウマの写真が必要であり、その内容は完全に一致している必要があります。ペアのデータを入手するのは非常に困難です。写真を撮影したとき、背景を含め、まったく同じ外観と姿勢のシマウマと普通の馬を見つけることは不可能でした。さらに、ゴッホの作品が与えられた場合、それに一致する写真をどのように見つけるのでしょうか。あるいは逆に、風景写真が与えられた場合、同じ内容の芸術作品はどこで見つけられるのでしょうか。

この記事で紹介する Cycle GAN では、ペアになったトレーニングデータは必要なく、2 つの異なるドメインからのラベルなしデータセットのみが必要です。たとえば、普通の馬をシマウマに変えたい場合、普通の馬の写真をたくさん用意し、シマウマの写真をすべてまとめ、普通の馬の写真をすべてまとめるだけです。これは明らかに非常に簡単です。ゴッホ風の風景画を描くのも簡単です。風景画の写真をたくさん見つけて、ゴッホの絵をできるだけ多く見つけるだけです。その効果は下の図に示されています。

図: CycleGAN

テキストから画像へ

テキストから画像への変換は、テキストの説明に基づいて対応する画像を生成します。これは、画像キャプションの逆です。 2016 年の Zhang らの「StackGAN: スタックされた生成的敵対的ネットワークによるテキストからフォトリアリスティックな画像への合成」は、この方向での初期の論文であり、その効果は下の図の最後の行に示されています。

図: StackGANと他のモデルの比較

超解像度

超解像とは、低解像度の画像に基づいて対応する高解像度の画像を生成することです。従来の補間方法と比較すると、生成モデルは大量の画像から分布を学習するため、「推測」する内容は補間効果よりもはるかに優れています。「Enhanced Super-Resolution Generative Adversarial Networks」は2018年の論文で、その効果が下の図の中央に示されています。

図: ESRGAN 効果

画像の修復

画像の修復とは、モザイクなどの画像の一部をブロックし、生成モデルを使用してこの部分を「修復」することです。下の図は、コンテキストアテンションによる生成画像修復の効果を示しています。

[[269859]]

図: DeepFillシステムの効果

記事「EdgeConnect: 敵対的エッジ学習による生成的画像修復」は、人間が絵を描くときに、まず輪郭（線）を描いてから色を付けるというプロセスを取り上げています。修復をエッジジェネレーターと画像補完ネットワークの2つのステップに分け、その効果を次に示します。

図: EdgeConnectの効果

注目トピック: ネットワーク構造の自動最適化と半教師あり学習

最近、注目に値すると思う方向性が 2 つあります。1 つはネットワーク構造の自動最適化、もう 1 つは半教師あり学習です。

自動ネットワーク最適化に関する最新の記事は、Google Research による「EfficientNet: 畳み込みニューラルネットワークのモデルスケーリングの再考」です。この記事では、ネットワークの精度と効率を同時に向上できる (パラメータを削減できる) ニューラルネットワーク拡張方法を見つけることを目指しています。これを実現するための重要なステップは、幅、奥行き、解像度の 3 つの次元のバランスをとることです。

著者らは、固定比率スケーリング操作を使用することで、3 つの間の単純なバランスを実現できることを発見しました。最後に、著者らはシンプルだが効果的な複合スケーリング法を提案した。コンピューティングリソースを 2𝑁 倍使用したい場合は、ネットワーク幅を 𝛼𝑁 倍、深さを 𝛽𝑁 倍、画像サイズを 𝛾𝑁 倍に増やすだけで済みます。このうち、𝛼、𝛽、𝛾は固定係数であり、通常は小範囲のグリッド検索を使用して最適値が得られます。この方法を使用して、彼らは EfficientNet モデルを実装し、下の図に示すように、非常に少ないパラメータを使用して良好な結果を達成しました。

図: モデルパラメータと精度

EfficientNet は、これまでのベストモデル GPipe よりも 8.4 倍小さいですが、効果はそれよりも優れていることがわかります。

ここでの半教師あり学習とは、ラベルのない画像を通じて学習機能を事前にトレーニングし、その後少量の教師ありデータで学習することを指します。最新の記事は、Google DeepMind による「対照予測コーディングによるデータ効率の高い画像認識」です。この記事では、対照予測コーディング法を使用して、大量のラベルなしデータから特徴を抽出します。これらの機能に線形ソフトマックスレイヤーを追加するだけで、ImageNet 上の AlexNet を使用した教師あり学習モデルよりも優れたパフォーマンスを発揮できます。

各クラスのトレーニングデータが 13 個しかない場合、この方法のトップ 5 精度は、13 個のデータのみでトレーニングされたモデルよりも 20% 高く、以前の最高の半教師ありモデルよりも 10% 高くなります。従来の教師なし学習の多くは、データ量が少ない場合にはうまく機能しますが、データ量が十分に大きい場合には、完全教師あり学習よりも性能が低下します。ただし、この記事の方法で得られる特徴は、ImageNet データのみを使用してトレーニングされており、完全教師あり学習と同様の結果を達成できるため、学習する特徴が十分に優れていることがわかります。

音声認識

音声認識システムは非常に複雑なシステムです。ディープラーニング技術が登場する前は、主流のシステムはすべて HMM モデルに基づいていました。通常、HMM-GMM を使用してサブワード単位 (トライフォンなど) をモデル化し、発音辞書を使用してサブワード単位の HMM を単語の HMM に連結します。最後に、デコーダーは言語モデルも追加して、音響モデルと言語モデルを最終的に統合し、巨大な検索空間でより良いパスを見つけます。

Hinton 氏は、ディープニューラルネットワークを使用して音声認識システムを改善しようとしてきました。彼の最も初期の研究 (2006 年以降) は、2009 年に発表された「電話認識のためのディープビリーフネットワーク」です。これは、事前トレーニングが普及していた時期でした。コンピュータービジョンの DBN を音声認識に適用することは、非常に自然なアイデアでした。同様の研究としては、2010 年の「制限付きボルツマンマシンを使用した電話認識」があります。しかし、これらのタスクは、最も単純な音素分類、つまり各フレームに対応する音素を決定するだけであり、連続音声認識にはまだまだ遠いものです。

ディープニューラルネットワークを音声認識に実際に適用した最も重要な論文は、Hinton らによる 2012 年の論文「音声認識における音響モデリングのためのディープニューラルネットワーク」です。この記事では、従来の HMM-GMM 音響モデルで GMM モデルの代わりに DNN を使用しました。それ以来、音声認識の主流のフレームワークは HMM-DNN モデルになりました。その後、2013 年に Sainath らは「LVCSR 向け深層畳み込みニューラルネットワーク」で、通常の完全接続ネットワークの代わりに CNN を使用しました。 George らによる記事「正規化線形ユニットとドロップアウトを使用した LVCSR のディープニューラルネットワークの改善」からは、コンピュータービジョンで一般的に使用されるいくつかの手法が音声認識でも使用されていることがわかります。

従来の HMM-DNN は GMM の代わりにディープニューラルネットワークを使用していますが、HMM とそれに続く N-gram 言語モデルは依然として存在しており、DNN 自体のトレーニングでもフレームレベルのトレーニングデータを提供するために HMM-GMM の強制アライメントを使用する必要があります。

エンドツーエンドの音声認識システムを構築する方法は、常に学術研究の焦点となってきました。 RNN は現在、時系列データを処理するための強力な武器となっています。2013 年に Graves らは論文「Speech Recognition with Deep Recurrent Neural Networks」で音声認識に RNN を使用しました。この記事では、RNN と CTC 損失関数を使用します。CTC は Deep Speech の中核です。 CTC が音声認識に「実際に」使用されたのは 2013 年ですが、Graves は 2006 年に早くも論文「コネクショニスト時間分類: リカレントニューラルネットワークによるセグメント化されていないシーケンスデータのラベル付け」で CTC を提案しました。

2014 年に Hannun らが提案した「Deep Speech: エンドツーエンドの音声認識のスケールアップ」は、その後の「Deep Speech 2: 英語と北京語でのエンドツーエンドの音声認識」を含め、パフォーマンスにおいて HMM-DNN に匹敵する最初のエンドツーエンドシステムでした。 Deep Speech システムは非常にシンプルです。入力は特徴シーケンスで、出力は文字列です。HMM、GMM、発音辞書などのモジュールはなく、音素の概念さえありません。

CTC 損失関数に基づくエンドツーエンドシステムに加えて、機械翻訳などのシステムで一般的に使用される seq2seq モデルを利用する別のタイプのエンドツーエンドシステムもあります。これには、最も初期の「Listen, attention and spell: A neural network for large vocabulary conversational speech recognize」と、音声認識用のいくつかの SOTA Seq2Seq モデルを要約し、このモデルを実際のシステムで使用した後、単語エラー率が元の 6.7% から 5.6% に低下したと主張する Google の「State-of-the-art Speech Recognition With Sequence-to-Sequence Models」が含まれます。これは業界で実際に適用された最初のエンドツーエンドの音声認識システムです（Andrew Ng 氏が率いる Baidu IDL は Deep Speech と Deep Speech2 を提案しましたが、Baidu の実際のシステムでは使用されませんでした）。

下の図は、一般的なデータセットでの効果を示したものです。SwitchBoardを例にとると、2006年以前の進歩は比較的遅かったのですが、ディープラーニングを使用してからは単語エラー率が下がり続けています。図は2017年のデータを示しており、Microsoftのシステムは単語エラー率が6.3％まで低下しています。

図: 単語誤り率の変化

自然言語処理

音声認識とは異なり、自然言語処理は非常に「複雑」な分野です。音声認識のタスクは、音をテキストに変換するという 1 つのタスクだけです。音声合成や話者認識などの関連タスクを追加したとしても、タスクの数は自然言語処理の数とは比べものになりません。自然言語処理の最終的な目標は、機械が人間の言語を理解できるようにすることですが、理解というのは非常に漠然とした概念です。私は相対性理論のすべての単語の意味を知っているかもしれませんが、それは相対性理論を理解しているという意味ではありません。

このため、ここでは、特定のタスクに限定されるのではなく、多くのサブフィールドで使用できる、より一般的な方法に焦点を当てます。

自然言語は連続した音声や画像とは異なり、人間が作り出した離散的で抽象的な記号体系です。従来の特徴表現は離散的かつスパースな表現方法であり、一般化能力が乏しい。たとえば、トレーニングデータに「北京の天気」はたくさんあるが、「上海の天気」はあまりない場合、分類中に予測されるスコアは大きく異なります。しかし、「北京」と「上海」は似たような文脈で頻繁に出現する可能性があり、この表現方法ではそのような情報を活用することができません。

2003年、ベンジオは論文「ニューラル確率言語モデル」でニューラルネットワーク言語モデルを提案しました。彼は埋め込み行列を使用して単語を低次元の密なベクトルにエンコードし、類似したコンテキストの共有を実現しました。たとえば、「北京」と「上海」はよく似たコンテキストに現れるため、比較的似たベクトルにエンコードされます。このようにして、「上海の天気」がトレーニングデータにほとんど現れなくても、「北京の天気」を通じてより高い確率を与えることができます。

しかし、2003 年当時はニューラルネットワークにあまり注目されていなかったため、当時はこの記事に関するフォローアップ作業はあまり行われませんでした。 2012年以降、ディープニューラルネットワークはコンピュータービジョンや音声認識などの分野で大きな進歩を遂げており、自然言語処理の分野に応用するのはごく自然なことです。しかし、現時点では、教師ありラベル付きデータが大量に存在しないという問題に直面しています。これは実際には、前述したように自然言語処理が非常に「複雑」であるという事実に関係しています。

自然言語処理のタスクは多すぎます。機械翻訳など、直接アプリケーション指向で、実用上のニーズが強く、比較的大量のデータを持ついくつかのタスクを除いて、ほとんどのタスクのラベル付きデータは非常に限られています。数百万のラベル付きデータセットを持つ ImageNet や、数千時間のラベル付きデータセットを持つ音声認識データセットと比較すると、多くの自然言語処理のラベル付きデータセットは、数万から多くても数十万のオーダーです。これは、特定の業務に関係するため、自然言語処理の特性によって決まります。したがって、自然言語処理の分野における緊急の課題は、文法、意味、世界の知識を含む、ラベルのないデータから有用な知識をどのように学習するかということです。

Mikolov らは、2013 年に「ベクトル空間における単語表現の効率的な推定」と「単語と句の分散表現とその構成性」でこの取り組みを始めました。彼らが提案した Word2Vec は、下の図に示すように、優れた単語ベクトルをシンプルかつ効率的に学習できます。

図: Word2Vec 単語ベクトル

上の図から、確かに何らかの意味的知識を学習しており、ベクトル計算によって「男-女=王-女王」のようなものが得られることがわかります。

これらの単語ベクトルを他のタスクの初期値として使用できます。下流のタスクデータの量が少ない場合は、これらの事前トレーニング済みの単語ベクトルを修正し、上位層のパラメータのみを調整することもできます。 Pennington らは、2014 年の論文「Glove: Global vectors for word represent」で GloVe モデルを提案しました。

ただし、Word2Vec では、「bank」が岸と水辺を意味するなどの文脈情報を考慮することはできません。ただし、特定の文にどの意味が含まれているかを判断することはできないため、両方の意味を同時にベクトルにエンコードすることしかできません。しかし、下流のアプリケーションの特定の文では、必要なセマンティクスは 1 つだけです。もちろん、2014 年の Neelakantan らによる「ベクトル空間での単語あたりの複数の埋め込みの効率的なノンパラメトリック推定」など、多義性の問題を解決しようとする試みはありましたが、どれもあまり成功しませんでした。

コンテキストを解決するためのもう 1 つのツールは RNN です。しかし、通常の RNN では勾配消失の問題があることから、LSTM がより一般的に使用されています。 LSTM は、1997 年に Sepp Hochreiter と Jürgen Schmidhuber によって提案されました。 2016 年頃になって初めて、LSTM は自然言語処理タスクで広く使用され、当時のテキスト処理の「事実上の」標準になりました。あらゆるタスクではまず LSTM を使用するべきだと誰もが信じていました。もちろん、LSTM の他のバリエーションや新しく提案された GRU も広く使用されています。 RNN は、文脈上の意味関係を学習できることに加えて、理論的には長距離の意味依存関係も解決できます (もちろん、ゲートメカニズムを導入しても、長すぎる意味関係を学習するのは依然として困難です)。

図: LSTM

多くの NLP の入力はシーケンスであり、出力もシーケンスであり、それらの間には厳密な順序や対応関係はありません。この問題を解決するために、seq2seq モデルが提案されました。 seq2seq の最終的な用途は機械翻訳です。 Sutskever et al。「Googleのニューラルマシン翻訳システム：人間と機械の翻訳のギャップを埋める」で、Googleは実際のシステムでニューラルネットワークの機械翻訳を使用した経験のいくつかを導入しました。

図：LSTM

Seq2Seq Plusの注意は、要約、質問を回答、さらには対話システムなど、多くの問題を解決するための標準的な方法になりました。

2017年、Googleは「注意が必要です」という注意点に注意メカニズムを極端に押し上げ、トランスモデルを提案しました。注意はRNNよりも並行している可能性があるため、その自己関節メカニズムは同時にコンテキスト情報をエンコードできるため、機械翻訳のためにWMT14データで1位になりました。

図：神経機械の翻訳

しかし、実際には、「メモリ」も2015年に人気がありました。メモリは、コンピューターのメモリと同じように、LSTMセルをさらにストレージメカニズムに抽象化することです。これには、ニューラルネットワークがソートアルゴリズムを自動的に学習できるようにするなど、多くの複雑なモデルが提案されます。当時はしばらく人気がありましたが、最終的には実際的な問題を解決しませんでした。

RNN/トランスは、機械翻訳などのいくつかのタスクを除き、コンテキストセマンティック関係を学習できますが、ほとんどのタスクにはトレーニングデータがほとんどありません。したがって、監視されていないコーパスを使用して、良好なコンテキストセマンティック関係を学習する方法は、非常に重要なトピックになります。この方向は、Elmo、Openai GPT、Bert、XLNetなど、2018年から現在まで続きました。

Elmoは、言語モデルからの埋め込みの略語です。これは、言語モデルによって得られた（文）埋め込みを意味します。さらに、エルモはアメリカの子供向け教育テレビ番組セサミストリートのリトルモンスターの名前です。元の論文は「ディープコンテキスト化された単語表現」であり、これは非常に適切なタイトルです。つまり、ディープトランスモデルを使用してコンテキスト関連の単語表現を学習します。

この論文のアイデアは実際には非常に単純ですが、非常に良い結果を達成しました。アイデアは、下の図に示すように、深い双方向RNN（LSTM）を使用して、大量の非標識データで言語モデルをトレーニングすることです。次に、実際のタスクでは、入力文の場合、この言語モデルを使用して処理して出力ベクトルを取得するため、これは一種の機能抽出と見なすことができます。ただし、通常のWord2Vecやグローブの前脱直とは異なり、ELMOによって得られる埋め込みは文脈的です。

たとえば、Word2vecを使用して、「銀行」という単語の埋め込みを取得することもできます。しかし、銀行は多くの意味を持っています。それは、銀行または水辺である可能性があります。前提条件の埋め込みは、両方のセマンティクスを同時にエンコードし、その後のモデルに頼って、コンテキストに応じて適切なセマンティクスを選択します。ただし、RNNがこの種のコンテキスト関係を学習するには、このタスクに関連するラベル付けされたデータが大量に必要ですが、これは多くの場合利用できません。 ELMOの特徴抽出は、入力文にお金が含まれている場合、銀行のより可能性の高いセマンティクスを知っている必要があります。

図：RNN言語モデル

ELMOによって学習した言語モデルパラメーターは固定されており、下流のタスクは隠された状態を機能として使用します。論文「生成前トレーニングによる言語理解の向上」のOpenAI GPTモデルは、特定のタスクに従って調整されている（通常は微調整されています）。このアイデアは、実際にはトランスモデルを学習し、文章に埋め込まれていないことを実行し、特定のタスクに従ってトランスパラメーターを微調整します。トレーニングされたタスク言語モデルの入力は1つの文ですが、多くの下流タスクの入力は2つであるため、OpenAI GPTは、2つの文の前に特別なセパレーターを追加することで2つの入力を処理します。

図：Openai GPTのダウンストリームタスクに対するアプローチ

Openai GPTは非常に良い結果を達成し、多くのタスクで前の最初のことをはるかに超えています。

ElmoとGPTの最大の問題は、従来の言語モデルが一方向であることです。以前の歴史に基づいて現在の単語を予測しています。ただし、後者の情報を使用することはできません。たとえば、「動物はあまりにも疲れていたため、通りを横断しなかった」という文。セマンティクスをエンコードする場合、この文では動物または通りを指す可能性があるため、前後に情報を使用する必要があります。疲れに基づいて、通りは疲れていないので、動物を指すと推測します。しかし、タイヤがワイドに変更された場合、それは通りを指します。

従来の言語モデルは、RNNであろうと変圧器であろうと、単方向情報のみを使用できます。たとえば、前方のRNNは、それをエンコードするとき、動物と通りを見ていますが、まだ疲れていないので、それが何を指すかはわかりません。後方のRNNの場合、エンコードすると疲れているのが見えますが、それでも動物がまったく見えないので、動物を指すことはわかりません。 Transformerの自己関節は、理論的にはこれら2つの単語に同時に注意を払うことができますが、前の紹介によると、Transformerを使用して言語モデルを学習する必要があるため、Maskを使用して将来の情報を表示できないようにする必要があるため、この問題を解決できません。

それでは、言語モデルが一方向にのみ情報を使用できるという問題をどのように解決しますか？このアイデアは、Googleの論文「言語理解のための深い双方向変圧器の事前訓練」で提案されています。

バートが出てくるとすぐに、さまざまなNLPのレビューリストを一掃し、大きな注目を集めました。メディアが「最強のNLPモデル」のような言葉でバートを賞賛していたとき、XLNetが最近登場し、再び主要なリストを一掃しました。 Bertには2つの大きな問題があると考えています。マスクである単語は、他の非マスクの単語を考慮していると仮定していますが、それは事前に導入されていませんが、微調整は導入されていません。 XLNETは、順列言語モデルを介して通常の言語モデルの単方向情報の流れの問題を解決し、トランス-XLの利点についても利用します。 2ストリームの自己告知でターゲットを知らない問題を解決する究極の訓練されたモデルは、新しいレコードを設定するために多くのタスクでバートを上回ります。

強化学習

強化学習は実際には同じレベルのものではなく、監視された学習と監視されていない学習と並行して学習メカニズム（アルゴリズム）ですが、強化学習は非常に重要な学習メカニズムだと思います。

監視された学習の特徴は、私たちを「監督」し、正しい結果が何であるかを教えてくれる「教師」があるということです。私たちが若かったとき、監督学習は本質的に知識の移転であると教えてくれる教師がいるでしょうが、新しい知識を発見することはできません。人間全体にとって、知識の本当の（または唯一の）源は実践です。つまり、補強学習です。たとえば、シェノンが何百ものハーブを味わったとき、人間はどの草が最初に病気を治すことができるかを知りませんでしたが、試してみることで、彼らは新しい知識を学ぶことができました。学んだ知識は言語を通して記録され、書かれており、世代から世代へと伝えられているため、人間社会全体が進歩を続けることができます。

監視された学習とは異なり、「教師」は私たちを監督することはありません。たとえば、GOをプレイするとき、現在の状況での最良の方法は、ゲームの終わりまでレビューする必要があり、どのステップが悪いかを知ることができます。同じことは、私たちが他の人と協力すべきかどうかを教えてくれませんが、私たちがお互いを助ける社会はより競争力があります。以前の監視された監視されていない監視されていない学習と比較して、大きな違いがあります。補強学習のエージェントは、行動を通じて環境に影響を与える可能性があります。

解決したい中核的な問題は、状態を考えると、その価値（価値）を判断する必要があることです。価値と報酬は、強化学習の最も基本的な2つの概念です。エージェント（強化学習の主題）の場合、報酬はすぐに、内部的に、さらには生来さえも得られます。たとえば、おなかがすいているときは、食べるときに報酬があります。値は遅れており、計算し、慎重に検討する必要があります。たとえば、おなかがすいている間に何かを盗むと、報酬を得ることができますが、価値（価値）の観点からは、これは良い行動ではありません。たとえば、人間の監督と学習は良いのですか？しかし、私たちは以前、人間の究極の知識源は、賢者がそれを神から来ていると考えているのです。進化論の観点から説明すると、人間は実際に「サバイバル」ゲームをしています。

補強学習は単なる方法であるため、多くの分野にアプリケーションがあり、ロボット、コントロール、ゲームは最も一般的なアプリケーション領域ですが、他の分野には自然言語処理のためのダイアログシステムが含まれ、補強学習技術がよく使用されます。機械学習のように、補強学習には多くの方法があります。環境がモデル化されているかどうかに応じて、値関数とモード機能があるかどうかに応じて、値ベースの方法とポリシー勾配に分割できますが、2つを組み合わせて俳優の批判的な方法を取得できます。

ここでは、深い学習と強化学習を組み合わせたいくつかの方法に焦点を当てます。

Google DeepMindが公開した「深い強化学習による人間レベルの制御」は、その入力のエンドツーエンドのディープ補強学習モデルをゲーム画面のピクセル値にします。

写真：ディープQネットワーク

エクスペリエンスのリプレイを通して、同じ軌跡データの相関を回避することができ、同時に、ターゲットネットワークを導入して、ターゲット2600の問題を解決し、29ゲームが人間の75％以上を獲得しました。

図：Atari2600プラットフォームでディープQネットワークスのスコア

ディープQネットワークのフォローアップの改善には、優先順位付けされたExpeience Replay、Double Q-Learningによる深い補強学習、Rainbow：深い補強学習の改善の組み合わせなどが含まれます。

ポリシーグラディエントクラスには、信頼地域のポリシー最適化（TRPO）、決定論的ポリシーグラデーションアルゴリズム（DPG）、補強学習の予想ポリシーグラデーション、近位ポリシー最適化アルゴリズム（PPO）などが含まれます。

ゲームに関しては、Google Deepmindは、おなじみのAlphago、Alphagozero、Alphazeroの記事のシリーズを公開しています。

GOが解決された後、誰もがDeepMindの「Alphastar：Anovolutionary Computation Perspective」やOpenai Fiveを含むリアルタイム戦略ゲームにも焦点を当てており、Starcraft 2とDota 2で大きな進歩を遂げました。

さらに、メタ学習、模倣学習、逆強化学習にもいくつかの新しい進歩がなされているため、ここにはすべてリストされません。

将来の見通し

最近のより明白な傾向は、最初に自然言語処理の分野で、非監視（半監視）学習の進歩です。コンピュータービジョンでは、Google DeepMindの最新の進捗状況も見てきましたが、ブレークスルーが増えると思います。比較的言えば、音声認識の分野での進歩は、監視されていないことは言うまでもありません。たとえば、大量のマンダリンデータがある場合、少量のデータを使用して、方言で他のマンダリンを簡単に識別するにはどうすればよいですか？多くの適応技術がありますが、全体的に期待を満たすことは依然として難しいようです。

もう1つは、エンドツーエンドのシステムが業界で広く使用されていないことです（Googleの使用はもちろん、現在のシステムも比較的少ないプレーヤーに関連しているため、コンピュータービジョンのディープ学習方法がはるかに優れていない場合があります。元のHMM-GMMがHMM-DNNに変換され、さまざまな適応とシーケンス識別トレーニングが追加された後、SOTA効果を依然として取得できるため、比較的エンドツーエンドを使用する動機ではさらに十分ではありません。アカデミックコミュニティはこの方向に激しく発展していますが、古い音声プレーヤー（Google以外）はあまり購入していません。

長期的には、人工知能を「本当に」実現するには、ビジョン、聴覚（味と触覚など）、言語を組み合わせて、監督されていない、監視され、強化された学習方法を使用して、「マシン」を自分自身で制御し、3歳の子供のような「本当の」物理的世界と人間の社会に統合できるようにする必要があると思います。技術の進歩に加えて、これには人間の心の大きなブレークスルーが必要です。

<<: AIが科学研究を「行う」ことを学習し、ネイチャー誌に発表。知湖ネットユーザー：水を見るのは耐えられない

>>: 自動運転車の実現はAIと人間のゲームである