純粋な乾物 | ディープラーニング研究の概要

純粋な乾物 | ディープラーニング研究の概要

[[195952]]

1. ディープラーニング

ディープラーニングといえば、一度でも触れたことがある人なら、何かしら知っているはずです。実際、ディープラーニングは機械学習の分野における新しい研究方向です。

初期段階では、特に音声の分野で、音声認識やコンピュータービジョンなどの多くのアプリケーションで画期的な進歩が遂げられてきました。 人間の脳の一般的な神経構造をシミュレートするモデルを構築することが目的です。トレーニング データ (画像、音声、またはテキスト) 信号を処理する場合、データの特徴は複数の変換段階を通じて階層的に記述され、データの表現が与えられます。画像データを例にとると、霊長類の視覚システムにおけるこのような信号の処理は次のようになります。まず、エッジやテクスチャなどの単純な初期形状の特徴が検出され、その後、より複雑な視覚形状が徐々に形成されます。同様に、ディープラーニングは低レベルの特徴を組み合わせて、より抽象的な高レベルの表現、属性カテゴリ、または特徴を形成し、データの階層的な特徴表現を与えます。

ディープラーニングの「深さ」をどう理解すればいいのでしょうか?

ディープラーニングが「ディープ」と呼ばれる理由は、実は従来の機械学習と比較したものです。私たちのモデルはより深くなり、学習プロセス中に、非線形操作のレベルの数が以前よりもはるかに多くなりました。浅い学習は主に人工的な特徴に依存しており、つまり、データの特徴を抽出するために以前の人工的な経験に依存しています。モデル学習後の特徴表現は、階層構造のない単層の特徴です。一方、ディープラーニングは、元の入力データを層ごとに変更することで特徴を抽出し、元のデータ空間内のサンプルデータの特徴表現を新しい特徴空間に変換し(SVMと同様に、線形不可分性の場合、カーネルの考え方を使用して、元のデータの特徴空間をより高い空間に投影して表現できます)、その後、自動的に学習して階層的な特徴表現を取得し、オブジェクトの分類や特徴の視覚化に役立ちます。 ディープラーニング理論のもう 1 つの理論的動機は、関数が K 層構造を使用して簡潔な形式で表現できる場合、K-1 層構造を使用して表現するには指数関数の数のパラメーター (入力信号に対して) が必要になり、一般化機能が不十分になる可能性があるということです。

ディープラーニングの概念は、2006 年に GE Hinton らによって初めて提案されました。これは主に、サンプル データを使用して特定のトレーニング方法を通じて多層ネットワーク構造を取得する機械学習プロセスです。従来のニューラル ネットワークは、ネットワーク内の重みをランダムに初期化するため、ネットワークが局所的最小値に収束しやすくなります。この問題を解決するために、ヒントンは、教師なし事前トレーニング手法を使用してネットワークの重みの初期値を最適化し、その後重みを微調整することを提案し、ディープラーニングへの道を開きました。

実際、ディープラーニングは構造内の多数の単一ニューロンを通じて実現され、各ニューロンは多数の他のニューロンに接続され、接続の強さは重みと呼ばれ、トレーニングと学習のプロセス中に常に変更され、ネットワークの特定の機能を決定します。

ディープ ニューラル ネットワークは、複数の単層非線形ネットワークが重ね合わされて構成されます。一般的な単層ネットワークは、エンコードとデコードの条件によって、エンコーダ部分のみ、デコーダ部分のみ、エンコーダ部分とデコーダ部分の両方の 3 つのカテゴリに分類されます。エンコーダーは入力から潜在特徴空間へのボトムアップ マッピングを提供し、デコーダーは結果を元の入力に可能な限り近いものに再構築することを目的として潜在特徴を入力空間にマッピングします。

畳み込みの単一層の変換プロセス:

2. ディープラーニングの応用

ディープラーニングは多くの分野で活発に開発されており、特に音声、画像、ビデオなどの分野で大きな進歩を遂げ、従来の方法よりも優れています。現在、人気の技術としては、顔検出・認識(顔スキャン)、インテリジェント管理(出勤、ナンバープレート検出、監視)、健康診断・予測(脳波の返信グラフで病気などを予測)などがあります。以下では、処理されるさまざまなデータの種類に基づいたディープラーニングの応用について紹介します。

5.1 音声認識、音声合成、機械翻訳におけるディープラーニングの応用

Microsoft の研究者は、ディープ ビリーフ ネットワークを使用して数千のセノン (音素よりもはるかに小さいモデリング単位) を直接モデル化し、大語彙音声認識システムにうまく適用された最初のコンテキスト依存型ディープ ニューラル ネットワークである隠れマルコフ混合モデル (CD-DNN-HMM) を提案しました。このモデルは、従来の CDGMM-HMM に基づく従来の主要な大語彙音声認識システムと比較して、相対エラー率を 16% 以上削減しました。

次に、CD-DNN-HMM モデルは、300 時間の音声トレーニング データを含む Switchboard 標準データセットで評価されました。 ベースラインの単語誤り率は 18.5% で、従来の主要なシステムと比較して 33% の相対的な減少となりました。

H. Zenらは多層パーセプトロンに基づく音声合成モデルを提案した。このモデルは、まず入力テキストを入力特徴シーケンスに変換します。入力特徴シーケンスの各フレームは、多層パーセプトロンを介して独自の出力特徴にマッピングされます。次に音声パラメータが生成され、最後に声紋合成によって音声が生成されます。トレーニング データには、プロの女性のスピーカーがアメリカ英語で録音した 33,000 の音声クリップが含まれています。合成結果の主観的および客観的な評価は、HMM ベースのモデルよりも優れています。

K. Cho らは、機械翻訳への応用を目的とした、リカレントニューラルネットワーク (RNN) に基づくベクトル化固定長表現モデル (RNNenc モデル) を提案しました。このモデルには 2 つの RNN が含まれています。1 つの RNN は、ソース言語のシンボル シーケンスのセットを固定長ベクトルのセットにエンコードするために使用され、もう 1 つの RNN は、ベクトルをターゲット言語のシンボル シーケンスのセットにデコードします。

このモデルに基づいて、D. Bahdanauらは固定長の欠点(固定長は効果向上のボトルネック)を克服し、RNNsearchモデルを提案しました。モデルは各単語を翻訳するときに、ソース テキスト内の最も関連性の高い情報の位置と翻訳された他の単語に基づいて、その単語に対応するターゲット単語を予測します。このモデルには、単語翻訳用のエンコーダーとデコーダーとして双方向 RNN が含まれています。ターゲット単語の位置を予測する際に、位置合わせに多層パーセプトロン モデルが使用されます。 BLEU 評価指標を使用した場合、ACL2014 機械翻訳ワークショップ (ACL WMT 2014) によって提供された英語/フランス語の二言語並列コーパスに対する RNNsearch モデルの翻訳結果は、RNNenc モデルの結果よりも高く、従来のフレーズベースの翻訳システム Moses (それ自体に 4 億 1,800 万語の多言語コーパスが含まれています) の結果よりもわずかに低くなりました。さらに、未知の語彙を含む文章を含むテスト データベースを削除すると、RNNsearch のスコアは Moses のスコアを上回ります。

5.2 画像分類と認識におけるディープラーニングの応用

5.2.1 大規模画像データセットにおけるディープラーニングの応用

A. Krizhevsky らは、ImageNet 大規模視覚認識チャレンジ (ILSVRC) に初めて畳み込みニューラル ネットワークを適用しました。トレーニングされた深層畳み込みニューラル ネットワークは、ILSVRC-2012 チャレンジの画像分類およびオブジェクト位置特定タスクで 1 位を獲得しました。そのうち、画像分類タスクでは、上位 5 つのオプションのエラー率は 15.3% で、2 位のエラー率 26.2% を大幅に下回っています。また、ターゲット位置決めタスクでは、上位 5 つのオプションのエラー率は 34% で、これも 2 位の 50% を大幅に下回っています。

ILSVRC-2013コンペティションでは、MD Zeilerらが畳み込みニューラルネットワーク法を用いて文献の手法を改良し、各畳み込み層にデコンボリューション層を付加して中間層の特徴を可視化し、画像分類タスクで1位を獲得しました。最初の 5 つのオプションのエラー率は 11.7% です。ILSVRC-2011 データを事前トレーニングに使用すると、エラー率は 11.2% に減少します。ターゲット位置特定タスクでは、P. Sermanet らは、畳み込みニューラル ネットワークとマルチスケール スライディング ウィンドウ法を組み合わせて、画像分類、位置特定、検出を同時に実行しました。彼らは、コンテストですべてのタスクに同時に参加した唯一のチームでした。マルチターゲット検出タスクでは、優勝チームの手法では特徴抽出段階でディープラーニング モデルを使用せず、分類中の再スコアリングに畳み込みネットワーク分類器のみを使用しました。

ILSVRC-2014 コンテストでは、参加チームのほぼすべてが畳み込みニューラル ネットワークとその変形手法を使用しました。 GoogLeNetチームは、ヘブビアン理論が提案したマルチスケールモデルと組み合わせた畳み込みニューラルネットワークを使用し、分類エラー率6.7%でグラフィック分類の「指定データ」グループで1位を獲得しました。CASIAWSチームは、弱教師付き位置決めと畳み込みニューラルネットワークを組み合わせた方法を使用し、分類エラー率11%でグラフィック分類の「追加データ」グループで1位を獲得しました。

ターゲット位置決めタスクでは、VGGチームはディープラーニングフレームワークCaffeをベースに、構造の異なる3つの畳み込みニューラルネットワークを平均評価に使用し、位置決めエラー率26%で「指定データ」グループで1位を獲得しました。Adobeチームは、分類器のトレーニングにImageNetデータの追加2000カテゴリを使用し、分類と位置決めに畳み込みニューラルネットワークアーキテクチャを使用し、「追加データ」グループでエラー率30%で1位を獲得しました。

マルチターゲット検出タスクでは、NUS チームは複数の他の手法と統合された改良畳み込みニューラル ネットワーク (ネットワーク イン ネットワーク、NIN) モデルを使用し、「提供データ」グループで平均精度 (mAP) 37% で 1 位を獲得しました。また、GoogLeNet は「追加データ」グループで平均精度 44% で 1 位を獲得しました。ディープラーニングが初めてILSVRCチャレンジに適用され、優れた結果を達成したときから、参加チームのほぼすべてがディープラーニング手法を採用し、分類エラー率を6.7%にまで削減した2014年のチャレンジまで、ディープラーニング手法は画像認識の分野において従来の手動の特徴抽出方法に比べて大きな利点があることがわかります。

5.2.2 顔認識におけるディープラーニングの応用

香港中文大学のDeepIDプロジェクトとFBのDeepFaceプロジェクトは、畳み込みニューラルネットワークの学習法に基づいて、屋外顔認識(ラベル付き野生の顔、LFW)データベースでそれぞれ97.45%と97.35%の顔認識精度を達成しました。これは、人間の認識精度97.5%をわずかに下回る程度です。 DeepID プロジェクトは 4 層の畳み込みニューラル ネットワーク (入力層と出力層を除く) 構造を使用し、DeepFace は 5 層の畳み込みニューラル ネットワーク (入力層と出力層を除いた、最後の 3 層は重み共有を使用せずに異なるローカル統計特徴を取得する) 構造を使用します。

その後、香港中文大学のDeepID2プロジェクトは、畳み込みニューラルネットワークに基づく学習方法を使用して、認識率を99.15%まで向上させ、LFWデータベースにおける現在のすべての主要なディープラーニングおよび非ディープラーニングアルゴリズムの認識率、およびデータベース上の人間の認識率を上回りました。 DeepID2 プロジェクトは、DeepID プロジェクトと同様の深層構造を使用しており、4 つの畳み込み層で構成されています。3 番目の層は 2×2 近傍のローカル重み共有を使用し、4 番目の層は重み共有を使用しません。出力層は 3 番目と 4 番目の層に完全に接続されています。

5.3 映像分類と行動認識におけるディープラーニングの応用

A. Karpathy らは、大規模なビデオ分類のための畳み込みニューラル ネットワークに基づく実証的評価モデルを提供し、Sports-1M データセット内の 100 万本の YouTube ビデオを 487 のカテゴリに分類しました。このモデルは、単一フレーム、隣接しない 2 つのフレーム (後期融合)、隣接する複数のフレーム (初期融合)、および多段階の隣接する複数のフレーム (低速融合) を含む 4 つの時空間情報融合手法を使用して畳み込みニューラル ネットワークをトレーニングします。さらに、マルチ解像度ネットワーク構造が提案されており、大規模データに適用するとニューラル ネットワークのトレーニング速度が大幅に向上します。このモデルは Sports-1M で 63.9% の分類精度を達成しており、これは人工的な特徴に基づく方法 (55.3%) と比較して大幅な改善となっています。さらに、このモデルは優れた一般化能力を示しています。低速融合法のみを使用して得られたモデルの認識率は、UCF101 アクション認識データセットで 65.4% ですが、データセットのベースライン認識率は 43.9% です。

S. Jiらは、行動認識のための3次元畳み込みニューラルネットワークモデルを提案した。このモデルは、空間と時間における 3 次元畳み込みを使用して特徴を抽出し、複数の隣接するフレーム間の動き情報を取得します。モデルは入力フレームに基づいて複数の特徴マップ チャネルを生成し、すべてのチャネルの情報を組み合わせて最終的な特徴表現を取得します。 3D 畳み込みニューラル ネットワーク モデルは、TRECVID データでは他の方法よりも優れたパフォーマンスを発揮し、この方法が実際の環境データに良い効果をもたらすことを示しています。一方、計算を簡素化するために入力データの解像度が下げられているため、KTH データではこのモデルのパフォーマンスが他の方法よりも劣っています。

M. Baccouche らは、事前の知識なしに人間の行動を分類することを学習できる時間的深層学習モデルを提案しました。モデルの最初のステップは、畳み込みニューラル ネットワークを 3 次元に拡張して、時空間の特徴を自動的に学習することです。次に、RNN メソッドを使用して各シーケンスをトレーニングおよび分類します。 KTH でのモデルのテスト結果は、他の既知のディープ モデルを上回り、KTH1 と KTH2 でそれぞれ 94.39% と 92.17% の精度を達成しました。実際には、ディープラーニングの応用分野はこれよりもはるかに多岐にわたりますが、この記事では、ディープラーニングがもたらす優れたパフォーマンスと、さまざまなデータへの応用能力を強調することを目的として、データの次元(音声テキストは 1 次元、画像は 2 次元、ビデオは 3 次元)からディープラーニングの典型的な応用分野のみを詳細に紹介します。その他のアプリケーションとしては、画像超解像度再構成、テクスチャ認識、歩行者検出、シーンマーキング、ドア番号認識などがあります。

3. ディープラーニングの課題と動向

特に大規模なデータセットにおけるコンピュータービジョン(画像認識、ビデオ認識など)や音声認識へのディープラーニングアルゴリズムの応用は飛躍的な進歩を遂げてきましたが、以下の問題についてはさらなる研究が必要です。

  • ラベルなしデータからの特徴学習

現状では、ラベル付きデータの特徴学習が依然として主流ですが、現実世界には膨大な量のラベルなしデータが存在します。これらのラベルなしデータに人工的なラベルを一つずつ追加することは明らかに非現実的です。そのため、データセットやストレージ技術の発展に伴い、ラベルなしデータの特徴学習や、ラベルなしデータに自動的にラベルを付与する技術の研究がますます注目されるようになるでしょう。

  • モデルサイズ、トレーニング速度、トレーニング精度のトレードオフ

一般的に、同じデータセットでは、モデルのサイズが大きいほどトレーニングの精度は高くなり、トレーニング速度は遅くなります。たとえば、一部のモデル手法では、ReLU 非線形変換と GPU コンピューティングが使用され、精度を確保しながら 5 ~ 7 日間のトレーニングが必要になることがよくあります。オフライントレーニングはトレーニング後のモデルの適用には影響しませんが、トレーニング時間は、モデルスケールの調整、ハイパーパラメータの設定、トレーニング中のデバッグなど、モデル最適化の効率に重大な影響を及ぼします。そのため、一定のトレーニング精度を確保しながらトレーニング速度を向上させる方法は、ディープラーニングの分野における依然として研究課題の 1 つです。

  • 他の方法との統合

上記の応用例から、単一のディープラーニング手法では必ずしも最良の結果が得られないことがわかります。通常、他の手法や複数の手法を統合して平均スコアリングを行うと、精度が向上します。したがって、ディープラーニング手法と他の手法の統合には、一定の研究上の意義があります。

<<:  この記事では、ニューラルネットワークBPアルゴリズムの原理とPythonでの実装について説明します。

>>:  ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

ブログ    
ブログ    

推薦する

マスク氏「高度なAIの開発は非常にリスクが高い。OpenAIはアルトマン氏を解雇した理由を明らかにすべき」

11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...

いくつかの最短経路アルゴリズムの比較

最短経路問題は、グラフ理論研究における古典的なアルゴリズム問題であり、グラフ(ノードとパスで構成され...

人と「人」の対立を実感する: よく使われるAIセキュリティツールのインベントリ

今日、サイバー犯罪者は機械学習や人工知能などの新しいテクノロジーを使用して、標的の行動をより深く理解...

アリの採餌とインターネットアルゴリズム

[[93484]]人間とアリの違いは何でしょうか? Ant にはインターネットがありません。創造的な...

研究者:AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今週10月13日、Cellの姉妹誌Jouleは「人工知能の増大するエネルギーフットプリント」と題する...

...

ハルビン工科大学と快手が共同でCogGPTを提案:大規模モデルにも認知反復が必要

認知科学の分野では、人間が継続的な学習を通じて認知を変化させるプロセスを認知ダイナミクスと呼びます。...

AI時代になっても、あなたのキャリアは存続できるでしょうか?

人工知能(AI)技術はどこまで発展したのでしょうか? [[278665]]将来、AIが社会に本格的に...

iOS の位置決めと座標系アルゴリズム

この話題を始める前に、もう一度皆さんの無知を解明させてください。私が解明したいのは、座標系についての...

2020年、アルゴリズムの話題が主流になる年

[[397576]]システムに閉じ込められた配達員から人々が飽きることのないソーシャルメディアまで、...

...

Word2vec の作者が明かす: seq2seq は私のアイデア、GloVe はスキルを盗用、反撃が迫る

NeurIPS 2023の受賞論文が発表され、10年前の単語埋め込み技術word2vecが当然の「T...

Java でアルゴリズムを実装する場合は、再帰に注意してください。

現象:再帰は、アルゴリズムの原理をうまく説明できる古典的なアルゴリズム実装です。再帰は、アルゴリズム...

フードデリバリー広告向け大規模ディープラーニングモデルのエンジニアリング実践

著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...