2017 年に 1 年間眠っていたのに、突然目が覚めて、今年世界で最も誇るべき業績は何だったのか知りたくなったとします。この記事は、数分かけて読む価値があります。 今年、Google は Google 翻訳の新しいモデルをリリースし、ネットワーク構造(リカレント ニューラル ネットワーク)を詳細に説明しました。 Facebook のチャットボットは制御不能になり、独自の言語を作成したためシャットダウンされました。 DeepMind の研究者たちは論文の中で、音声を生成する方法を示しています。人間を上回ることに成功したディープラーニングの成果の 1 つに、唇の動きを読み取る認識があります。 この記事では、テキスト、音声、コンピューター ビジョンから強化学習、そして最も重要なニュースまで、2017 年の最も有意義な AI 研究のほぼすべてを紹介します。 これらの出来事のほとんどは、発生時に文在寅が報道しており、今思い返すと感慨深いものがあります。詳細をご覧いただく際の利便性を考慮し、該当セクションに報道へのリンクも貼っております。 1. テキスト 1.1 Google ニューラル機械翻訳 約 1 年前、Google は Google 翻訳の新しいモデルをリリースし、ネットワーク構造 (リカレント ニューラル ネットワーク) を詳細に説明しました。 リンク: https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4 主な結果: 人間による翻訳との精度の差が 55% ~ 85% 減少しました (研究者が 6 段階評価で評価)。この結果は、トレーニングに Google の大規模なデータベースに頼らなければ再現が難しいでしょう。 1.2: 交渉 噂を聞いたことがあるかもしれません。Facebook のチャットボットが制御不能になり、独自の言語を作成したためシャットダウンされました。 チャットボットはもともと交渉用に設計されており、他のボット (エージェント) とテキストによる交渉を行い、2 人の間でアイテム (本、帽子など) を分配する方法について合意に達することを目的としていました。各ロボット(エージェント)には、他のロボットにはないトランザクション情報があります。同時に、合意に達するまで交渉は終了しないことになっている。 彼らは人間の交渉に関するデータベースを収集し、教師あり再帰ネットワークを訓練しました。その後、ロボットが人間の言語にある程度近づくまで、集中的な訓練を経て自己対話による訓練を継続させました。 ロボットは、取引の特定の要素に興味があるふりをして、実際の目的を達成するためにそれらを犠牲にする、実際の交渉テクニックを学習しました。 ロボットが新しい言語を発明したというニュースの主張は少し誇張されている。同じロボットを訓練する場合、人間の言語に限定されていなかったため、アルゴリズムに多少の変化が生じるのは普通のことでした。 記事リンク: https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4 過去 1 年間で、リカレント ネットワークは大幅に改善され、多くの分野で応用されてきました。 RNN の構造はますます複雑になっていますが、一部の領域では、単純化されたフォワード ネットワーク (DSSM) が同様の結果を達成しています。たとえば、スマートな電子メール返信に関しては、Google は以前に LSTM と同じ結果を達成しています。さらに、Yandex はこのネットワークをベースにした新しい検索エンジンを立ち上げました。 2. 音声 2.1: 音源生成モデルWaveNet DeepMind の研究者たちは論文の中で、音声を生成する方法を示しています。簡単に言えば、彼らは以前の画像生成方法である PixelRNN と PixelCNN に基づいて、自己回帰完全畳み込み WaveNet モデルを作成しました。 ネットワークは、テキストを入力、音声を出力として、エンドツーエンド方式でトレーニングされます。最終的に研究者たちは素晴らしい結果を達成しました。音声生成に関しては、ロボットと人間の間のギャップは50%縮まりました。 このネットワークの主な欠点は、その非効率性です。自己回帰技術を使用しているため、音声は順次生成され、1~2 分ごとに 1 秒の音声のみが生成されます。 テキスト入力への依存がなくなり、ネットワークが初期段階で生成された音声のみに基づくようになると、人間のような言語が生成されます。しかし、これは実際的な意味がありません。 このモデルは音声生成だけでなく、音楽作成にも使用できます。モデルがピアノゲームのデータベースでトレーニングするだけで、入力データに依存せずにオーディオを生成できると想像してください。 2.2: 唇の動きの認識 唇の動きを読み取る認識は、人間を上回ることに成功したディープラーニングの成果の 1 つです。 野生の唇を読む文章。この論文はオックスフォード大学と共同で発表されたもので、Google Deepmind はテレビデータでトレーニングしたモデルを公開しました。このモデルは、BBC のプロの唇読み手よりも優れた成績を収めました。 データセットは、音声とビデオを伴う 100,000 の文章で構成されています。 LSTM トレーニング オーディオ、CNN + LSTM トレーニング ビデオ。最後に、両方の状態ベクトルが最終的な LSTM モデルへの入力として使用され、テキスト出力が生成されます。 トレーニング中は、オーディオ、ビデオ、オーディオ + ビデオなど、さまざまなデータ タイプが使用されます。つまり、マルチチャネルモデルです。 2.3: オバマの合成 - オーディオから唇の動きを同期させる ワシントン大学は、バラク・オバマ元米国大統領の唇の動きを合成する研究を行った。彼を被写体に選んだ理由は、インターネット上に彼の動画が多数(高画質動画17時間分)存在するからです。 ネットワーク モデルの合成出力を直接利用することはあまりできません。そのため、論文の著者らは、テクスチャリングの時間的側面を改善するためにいくつかのトリックを使用しました。 その効果は衝撃的です。おそらく近い将来、大統領演説のビデオさえも合成されるようになるかもしれない。 3. コンピュータービジョン 3.1: OCR - Google マップとストリートビュー Google Brain チームは、公開された記事の中で、道路標識や店舗看板の自動認識を実現するために、Google マップに新世代の OCR (光学式文字認識) エンジンを導入した方法を紹介しました。
開発中、Google は多くの複雑なシナリオを持つ新しい FSNS (フランスの道路名標識) をデコードしました。 各ロゴを認識するために、ネットワーク モデルは最大 4 つのロゴの画像を使用しました。 CNN によって特徴が抽出された後、それらは空間的に変換され (ピクセル座標を考慮)、LSTM モデルに入力されます。 同様のアプローチが、看板上の店名などの項目を識別するのにも使用されます。ただし、このプロジェクトの画像データには無関係な情報が多数含まれているため、ネットワーク モデルは正しい情報に焦点を当てて読み取る必要があります。このアルゴリズムは 800 億枚の画像に適用されています。 3.2: 視覚的推論 視覚的推論と呼ばれる別のタスクでは、ニューラル ネットワークに画像内の情報を使用して質問に答えるように要求します。たとえば、写真の中に黄色い金属製の円筒とほぼ同じ大きさのゴム製の物体がありますか?この種の問題はアルゴリズムにとって難しく、これまでのところ精度はわずか 68.5% です。 DeepMind はこの分野で画期的な進歩を遂げました。CLEVR データセットでは、95.5% という超高精度を達成しました。 このネットワーク モデルの構造は非常に興味深いものです。
3.3: Pix2Code - ユーザーグラフィカルインターフェースコードを自動的に生成する コペンハーゲンのスタートアップ企業 Uizard は、インターフェース デザイナーが提供するスクリーンショットに基づいて GUI (グラフィカル ユーザー インターフェース) レイアウト コードを生成できる、興味深いニューラル ネットワーク ベースのアプリケーションを開発しました。 これは、ソフトウェア開発を容易にする非常に実用的なニューラル ネットワーク アプリケーションです。開発者(作者)は、このアプリは 77% の精度を達成できると主張しています。ただし、このアプリはまだ研究段階であり、実用化には至っていない。 このプロジェクトのオープンソースコードとデータセットはまだ公開されていないが、同社は将来的にオンラインで公開することを約束している。 3.4: SketchRNN — 機械に絵の描き方を教える おそらく、Google の「Quick, Draw!」を見たことがあるでしょう。これは、ユーザーが 20 秒でさまざまなオブジェクトをスケッチできる小さなプログラムです。 Google は、ブログや記事で説明されているように、ニューラル ネットワークに描画方法を教えるためにこのプログラム用のデータセットを収集しています。 同社は7万枚のスケッチのデータセットを収集し、現在それを一般に公開している。スケッチは絵の形ではなく、図面内の線の詳細なベクトル表現の形で表現されます。 研究者らは、エンコード/デコードメカニズムとして、シーケンスツーシーケンス変分オートエンコーダをトレーニングするために RNN を使用しました。 最後に、オートエンコーダを適応させるために、モデルは元の画像の特性を表す特徴ベクトル (潜在ベクトル) を入力として受け取ります。 デコーダーは入力ベクトルからグラフを抽出し、入力ベクトルを変更することで新しいスケッチを取得できます。 ベクトル演算によって「catpig」画像を作成することもできます。 3.5: 生成的敵対ネットワーク (GAN) 敵対的生成ネットワーク (GAN) は、ディープラーニングで最も議論されているトピックの 1 つです。ほとんどの場合、このネットワークは画像の処理に使用されます。 記事のリンク: https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47 GAN のアイデアは、ジェネレーターとディスクリミネーターの 2 つのネットワーク間の競争です。最初のネットワークは画像を生成し、2 番目のネットワークは画像が実際のものか生成されたものかを判断しようとします。 GANS の概略図を以下に示します。 トレーニング プロセス中、ジェネレーターは最初にランダム ベクトル (ノイズ) を通じて画像を生成し、次にその画像を、画像が本物か偽物かを判別できる識別子に入力します。現実世界の画像も識別器に入力されます。 このような構造は、2 つのネットワーク間のバランスを見つけることが難しいため、トレーニングが困難です。ほとんどの場合、識別器が勝ち、トレーニング プロセスが停止します。しかし、このシステムの利点は、識別器の損失関数(例えば、写真の品質を向上させる)の設定が難しいという問題を解決できることです。 GAN トレーニング結果の典型的な例としては、寝室の写真や顔の写真が挙げられます。 先ほど、生データを潜在表現にエンコードするオートエンコーディング (Sketch-RNN) について説明しました。ジェネレーターも同様に動作します。 ベクトルを使用して画像を生成するというアイデアは、このプロジェクトの顔生成の例でよく示されています。ベクトルを変更して顔がどのように変化するかを確認できます。 同じアルゴリズムが潜在空間にも適用されます。 「眼鏡をかけている男性」 - 「男性」 + 「女性」 = 「眼鏡をかけている女性」 3.6: GANSによる顔年齢の変化 トレーニング中に潜在ベクトルに制御されたパラメータを与えると、そのベクトルを生成するときにそれを変更して、画像内の必要なイメージを管理することができます。このアプローチは条件付き GAN と呼ばれます。 これが、「条件付き生成的敵対的ネットワークによる顔の老化」の著者が行ったことです。研究者たちは、IMDBデータセットから年齢がわかっている俳優の写真でモデルをトレーニングすることで、俳優の顔の年齢を変えることができた。 3.7: プロの写真 Google は、GAN のもう 1 つの興味深い用途である、写真のスクリーニングと改善を発見しました。 GAN はプロの画像データセットでトレーニングされます。ジェネレーターは満足のいく写真を改善することになっていますが、ディスクリミネーターは「改善された」写真と実際のプロの写真を区別することになっています。 訓練されたアルゴリズムは、Google ストリート ビューのパノラマを検索して最適な構図を見つけ、プロ品質やセミプロ品質の画像を取得します。 (カメラマンのレベルによります) 3.8: テキスト記述から画像を生成する GAN の印象的な例としては、テキストから画像を生成することが挙げられます。 この研究の著者らは、テキストと画像の関連性を検証するために、ジェネレータ(条件付き GAN)の入力だけでなく、識別器にもテキストを埋め込むことを提案しました。識別器が期待される機能を学習して実行できることを保証するために、通常のトレーニング プロセスに加えて、実際の画像とそれに対応する画像を誤って説明したテキストも追加し、一緒にトレーニングに使用しました。 3.9: ピックス2ピックス 2016 年に最も注目された論文の 1 つは、BAIR の「条件付き敵対的ネットワークを使用した画像から画像への変換」でした。研究者たちは、衛星画像から地図を生成したり、スケッチから物体のリアルな質感を描いたりする必要がある場合など、画像から画像を生成する問題に取り組みました。 これは、条件付き GAN が優れたパフォーマンスを発揮するもう 1 つの例です。この場合、条件は画像全体によって決定されます。画像セグメンテーションで人気の技術である UNet をジェネレータ構造として使用し、画像の判別が困難にならないように新しく提案された PatchGAN 分類器を識別器として使用します。 (画像はN個の小さなブロックに分割され、各ブロックの真偽が別々に予測されます) Christopher Hesse 氏は猫のデモを作成し、Pix2pix に大きな関心を呼び起こしました。 3.10: サイクルGAN Pix2pix を適用するには、異なるドメインからの対応する画像のペアのデータセットが必要です。たとえば、この場合、トランプを使用してこのようなデータセットを生成することは難しくありません。ただし、画像内のオブジェクトや画像のスタイルを「変更」するなど、より複雑な操作を実行したい場合、原則としてそのようなデータセットは利用できません。 そこで、Pix2pix の作者たちは深く考え続け、明示的なマッチングなしで異なる分野の画像間の変換を実現する CycleGAN、「Unpaired Image-to-Image Translation」を提案しました。 CycleGAN のアイデアは、2 組のジェネレーターとディスクリミネーターをトレーニングして、画像をあるドメインから別のドメインに変換し、またその逆に変換することです。これにより、サイクルの一貫性が保証され、一連の変換の後、元の L1 損失に近い画像が得られます。サイクル損失により、ジェネレータの変換された画像が元の画像と完全に無関係にならないことが保証されます。 この方法を使用すると、馬をシマウマに変えることができます。 このような遷移は安定しておらず、失敗することが多いです。 3.11: 腫瘍分子の開発 機械学習は医療の分野でも応用されつつあります。超音波画像、MRI画像、診断識別に加えて、機械学習は新しい抗がん剤を見つけるためにも使用できます。 この研究の詳細については以前に報告しました。簡単に言えば、敵対的オートエンコーダ (AEE) の助けを借りて、分子の潜在的な表現を取得し、それを使用して新しい分子を見つけることができます。これに基づいて、69 個の新しい分子が発見され、そのうち約 35 個ががんとの戦いに利用され、残りの分子にも大きな可能性があります。 3.12: 敵対的攻撃 多くの学者が敵対的攻撃というテーマを積極的に研究してきました。敵対的攻撃とは何ですか?たとえば、ImageNet でトレーニングされた標準ネットワークは、特殊なノイズの影響を受けた画像を分類するときに非常に不安定になります。以下の例では、人間の目にはノイズの影響を受けた画像は元の画像と比べて基本的に変化していないように見えますが、モデルには予測誤差があることがわかります。 モデルの安定化は FGSM アルゴリズムによって実現されています。モデルのパラメータを調整することで、1 つ以上の勾配ステップを目的のカテゴリの方向に変更し、元の画像を変更できます。 Kaggle にはこれに関連したプロジェクトがあります。参加者は、誰が最優秀かを決定するために、普遍的な攻撃/防御画像を作成する必要があります。 なぜ攻撃を研究する必要があるのでしょうか?まず、製品を保護したい場合は、CAPTCHA にノイズを追加して、スパマーが自動的に製品を識別するのを防ぐことができます。第二に、顔認識や自動運転などのアルゴリズムが徐々に私たちの生活に組み込まれつつあります。この時点で、攻撃者はアルゴリズムの弱点を悪用することができます。 以下は、顔認識システムを騙して「他人になりすます」ことができる特殊なメガネの例です。したがって、モデルをトレーニングする際には、起こり得る攻撃を考慮する必要があります。 このように加工された看板は正しく識別できません。 4. 強化学習 強化学習は、機械学習における最も興味深くダイナミックな開発パスの 1 つです。 このアプローチは、人間が人生を通じて学習するのと同じように、経験を通じて報酬を与える環境に基づいてエージェントの成功行動を学習することに重点を置きます。 強化学習は、ゲーム、ロボット工学、システム制御(交通システムなど)で積極的に利用されています。 もちろん、AlphaGo がこの大会でトッププロ選手を破ったことは多くの人が聞いたことがあるでしょう。研究者らはロボットの訓練に「強化学習」を使用し、ロボットが自らの練習を通じて戦略を改善できるようにした。 4.1: 強化されたトレーニングと制御されていない補助タスク 過去数年にわたり、DeepMind は深層強化学習を使用して、人間よりも上手にゲームをプレイすることを学習してきました。アルゴリズムはすでに、Doom などのより複雑なゲームをプレイすることを学習しています。 エージェントが環境と対話する経験には最新の GPU での広範なトレーニングが必要であるため、学習の加速に最も注目が集まっています。 Deepmind はブログで、フレーム間の変化を予測する (ピクセル制御) などの追加の損失 (補助タスク) を導入すると、エージェントが自分の行動の結果をよりよく理解できるようになり、学習が大幅に高速化されると報告しています。 OpenAI では、現実世界に比べて実験に安全な仮想環境で人々を使ってエージェントをトレーニングする方法を積極的に研究してきました。 研究の1つで、研究チームはワンショット学習の可能性を実証しました。つまり、ある人物が仮想現実で特定のタスクを実行する方法を示し、1回のデモンストレーションでアルゴリズムがそれを学習し、実際の状況で再現できるというものです。 4.2: 人間の好みの学習 OpenAI と DeepMind の両社はこの問題に関する研究を実施しました。このプロジェクトの要点は、各エージェントにタスクがあり、アルゴリズムが問題に対する 2 つの解決策を提示し、どちらが優れているかを示すことです。このプロセスは繰り返し行われ、人間が問題を解決する方法を学習するにつれて、900 ビットのフィードバック (バイナリ ラベル) が人間から得られます。 トレーニング プロセス中に、慎重に検討する必要がある質問があります。それは、機械に何を教えるかということです。たとえば、コンピューターは、アルゴリズムが実際にこのオブジェクトを取得したいと判断しますが、実際には、そのアクションをシミュレートしただけです。 4.3: 複雑な環境での移動 DeepMind による別の研究もあります。ロボットに複雑な動作(歩く、ジャンプするなど)を教え、人間と同じように動作させることもできます。望ましい動作を促す損失関数の選択に深く関与する必要があります。しかし、アルゴリズムが単純な報酬を通じて複雑な動作を自ら学習できればさらに良いでしょう。 研究者たちはこれに成功しました。彼らは、障害物のある複雑な環境を構築し、単純な報酬を使って動きの進行を促進することで、エージェント(身体シミュレーター)に複雑な動きを実行するように教えたのです。 ビデオを見ると、ロボットがすでにかなり良い仕事をしていることがわかります。 5. その他 5.1: データセンターの冷却 2017 年 7 月、Google は、ディープマインド社の機械学習開発の進歩を活用して、自社のデータセンターのエネルギー消費を削減すると発表しました。 Google の開発者は、データセンター内の何千ものセンサーからの情報を基に、PUE (電力使用効率) とより効率的なデータセンター管理モードを予測するモデルを作成しました。このプロジェクトは広範囲にわたる意義を持っています。 5.2: オールラウンドモデル トレーニングモデルはタスク間の移植性が低く、各タスクにはそれに対応する特定のモデルが必要です。「ユニバーサルモデル」と題された記事では、Google Brain のモデルが普遍的な適用性において一定の成果を上げていることが述べられています。 論文リンク: https://arxiv.org/abs/1706.05137 研究者たちは、異なる領域(テキスト、音声、画像)で 8 つのタスクを実行できるモデルを作成しました。たとえば、異なる言語間の翻訳、テキスト解析、画像や音声の認識などです。 これを実現するために、彼らは複雑なネットワーク アーキテクチャを構築し、さまざまなモジュールを使用して入力データを処理して結果を生成しました。エンコードおよびデコード モジュールには、畳み込み、アテンション、ハイブリッド エキスパート システムの 3 つの主なタイプがあります。 主な結果: ほぼ完璧なモデルが得られました (著者はハイパーパラメータを微調整しませんでした)。 異なる分野間での知識移転、つまり十分なデータがあればプロジェクト予測においてモデルのパフォーマンスは非常に安定します。 さまざまなタスクに必要なモジュールは、互いに干渉しないだけでなく、Imagenet タスクの MoE のように、互いにメリットをもたらします。 ちなみにこのモデルはT2Tに存在します… 5.3: 1時間でImagenetを学ぶ Facebook の投稿によると、同社のエンジニアはわずか 1 時間で Imagenet 上で ResNet-50 モデルを学習させることができたそうです。これには 256 個の GPU (Tesla P100) のクラスターが必要です。 分散学習には Gloo と caffe2 を使用します。プロセスを効率的にするには、勾配平均化、ウォームアップフェーズ、特別な学習率など、多数の学習戦略 (8192 要素) が必要です。 したがって、8 個から 256 個の GPU にスケーリングすると、90% の効率を達成できます。今後、Facebook の研究者はより速く実験を実行できるようになります。 6. ニュース 6.1: 自動運転車 自動運転車の分野は急速に発展しており、積極的なテスト段階に入っています。最近の業界ニュースには、Intel MobilEye の買収、Uber と Google の元従業員による技術窃盗事件、Autopilot の使用に関連した初の死亡事故などがあります。 Google Waymo がベータ プログラムを開始します。 Google はこの分野の先駆者であり、同社の技術は広く認知されており、同社の車両は 300 万マイル以上走行しています。 最近、米国の各州では自動運転車の公道走行が許可されました。 6.2: ヘルスケア 機械学習が医療に導入されつつあります。たとえば、Google は医療センターと協力して患者の診断を支援しています。 Deepmind は独立した事業部門も設立しました。 今年は、「データサイエンスボウル」プロジェクトの一環として、高解像度画像に基づいて1年以内の肺がんの発症率を予測する100万ドルのコンテストが開催されました。 6.3: 投資 これまでビッグデータ業界に多額の資金が流入してきたのと同様に、投資コミュニティでは機械学習も人気があります。 中国は人工知能に1500億ドルを投資し、この分野の先駆者となっている。 比較データを見てみましょう。百度研究所は1,300人を雇用しているが、フェイスブックでは同じ分野で80人しか雇用していない。 機械学習を学ぶのに遅すぎるということはありません。いずれにせよ、時間が経つにつれてすべての開発者が機械学習を使用するようになり、今日誰もがデータベースを使用しているのと同じように、機械学習は一般的なスキルになるでしょう。 オリジナルリンク: https://blog.statsbot.co/deep-learning-achievements-4c563e034257 |
<<: iQIYI CTO 唐星氏:AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある
>>: Python とディープニューラルネットワークを使用して画像を認識する方法は?
[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...
2020年の中国の人工知能市場のレビュー2015年から2020年にかけて、人工知能市場には毎年新たな...
人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...
改革開放から30年、中国は科学技術の進歩の分野で非常に重要な役割を果たしてきました。人口ボーナス、政...
[[314062]] 10日以上も経過したが、流行は収束の兆しを見せず、事態はますます深刻化してい...
人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...
こんにちは、みんな。今日も引き続き、興味深い AI プロジェクトを皆さんと共有したいと思います。前回...
この記事では、人工知能が防衛システムにどのように革命をもたらし、より安全な未来を実現できるかを探りま...
[[355166]]この記事はWeChatの公開アカウント「bigsai」から転載したもので、著者は...
人工知能(AI)は、機械によって発揮される知能であるという点で人間の知能とは異なります。しかし、直接...
昨日は第4回世界トップ科学者フォーラムの2日目でした。世界トップの科学者たちがオンラインとオフライン...