ディープラーニングを使用してコンピュータービジョンのすべての作業を完了するにはどうすればよいですか?

ディープラーニングを使用してコンピュータービジョンのすべての作業を完了するにはどうすればよいですか?

コンピュータービジョンをやってみたいですか?

最近では、ディープラーニングが主流となっています。大規模なデータセットと深層畳み込みニューラル ネットワーク (CNN) の表現力により、非常に正確で強力なモデルが実現します。しかし、まだ課題が 1 つ残っています。それは、モデルをどのように設計するかということです。

コンピューター ビジョンのように幅広く複雑な分野では、解決策が必ずしも明確であるとは限りません。コンピューター ビジョンの多くの標準タスクには、分類、検出、セグメンテーション、ポーズ推定、強化と復元、アクション認識など、特別な考慮が必要です。最先端のネットワークは共通のパターンを示していますが、それぞれ独自の設計が必要です。

では、これらすべての異なるタスクのモデルをどのように構築するのでしょうか?

著者は、ディープラーニングを使用してコンピューター ビジョンのすべてを実行する方法を紹介します。

[[323905]]

分類

コンピュータービジョンで最も有名なのは分類です。画像分類ネットワークは、固定サイズの入力から始まります。入力画像には任意の数のチャンネルを含めることができますが、RGB 画像の場合は通常 3 チャンネルになります。ネットワークを設計する場合、解像度は、ネットワーク全体で実行されるダウンサンプリングの量をサポートするのに十分な大きさであれば、技術的には任意のサイズにすることができます。たとえば、ネットワーク内で 4 ピクセルダウンサンプリングする場合、入力サイズは少なくとも 4² = 16 x 16 ピクセルにする必要があります。

ネットワークの奥深くに進むにつれて、すべての情報を圧縮して 1 次元のベクトル表現にしようとするため、空間解像度が低下します。ネットワークが抽出したすべての情報を常に処理できるようにするために、空間解像度の低下に対応するために深度に比例して特徴マップの数を増やします。つまり、ダウンサンプリング プロセス中に空間情報が失われ、この損失を補うために、特徴マップを拡張して意味情報を増やします。

選択した量のダウンサンプリングの後、特徴マップはベクトル化され、一連の完全に接続されたレイヤーに送られます。最後のレイヤーには、データセット内のクラスと同じ数の出力があります。

[[323906]]

物体検出

オブジェクト検出器には、プライマリとセカンダリの 2​​ 種類があります。どちらもアンカーフレームから始まります。これらはデフォルトの境界ボックスです。ボックスを直接予測する代わりに、検出器はこれらのボックスと実際の値との違いを予測します。

2 レベル検出器では、当然、ボックス提案ネットワークと分類ネットワークの 2 つのネットワークが存在します。ボックス提案ネットワークは、オブジェクトが存在する可能性が高いと判断した場合、境界ボックスの座標を提供します。繰り返しますが、これらはアンカー ボックスを基準としています。次に、分類ネットワークは各境界ボックス内の潜在的なオブジェクトを取得して分類します。

1 段階検出器では、提案ネットワークと分類ネットワークが 1 つの段階に統合されます。ネットワークは境界ボックスの座標とそのボックス内のクラスを直接予測します。 2 つのステージが融合されているため、1 ステージ検出器は 2 ステージ検出器よりも高速になる傾向があります。しかし、2 つのタスクが分離されているため、2 レベル検出器の精度は高くなります。

高速RCNN 2レベル物体検出アーキテクチャ

SSD 第一レベルの物体検出アーキテクチャ

[[323907]]

セグメンテーション

セグメンテーションは、ネットワークが低レベル情報と高レベル情報の両方を学習する必要があるため、コンピューター ビジョンにおけるよりユニークなタスクの 1 つです。低レベルの情報は、画像内の各領域とオブジェクトのピクセル精度のセグメンテーションを提供し、高レベルの情報はこれらのピクセルを直接分類します。これにより、ネットワークは、以前のレイヤーと高解像度 (低レベルの空間情報) からの情報と、より深いレイヤーと低解像度 (高レベルの意味情報) を組み合わせるように設計されるようになります。

以下に示すように、まず画像を標準の分類ネットワークに通します。次に、ネットワークの各段階から特徴を抽出し、低範囲から高範囲までの情報を使用します。各レベルの情報は、順番に結合される前に個別に処理されます。これらの情報を組み合わせると、特徴マップをアップサンプリングして、最終的に完全な画像解像度が得られます。

ディープラーニングによるセグメンテーションの仕組みの詳細については、次の記事をご覧ください。

https://towardsdatascience.com/セマンティックセグメンテーション-ディープラーニングガイドとコード-e52fc8958823

GCN セグメンテーション アーキテクチャ

[[323908]]

姿勢推定

姿勢推定モデルは、(1)画像内の各体の部位のキーポイントを検出すること、(2)これらのキーポイントを正しく接続する方法を見つけることという2つのタスクを実行する必要があります。これは 3 つの段階で行われます。

  1. 標準の分類ネットワークを使用して、画像から特徴を抽出します。
  2. これらの特徴を考慮すると、サブネットワークをトレーニングして 2D ヒートマップのセットを予測することができます。各ヒートマップは特定のキーポイントに関連付けられており、キーポイントが存在する可能性があるかどうかに関する各画像ピクセルの信頼値が含まれています。
  3. 分類ネットワークの特徴を再度与えて、サブネットワークをトレーニングし、各ベクトル フィールドがキーポイント間の関連性をエンコードする 2D ベクトル フィールドのセットを予測します。そして、相関が高いキーポイント同士が接続されているとみなされます。

このようにして、サブネットワーク モデルは、キーポイントの検出を共同で最適化し、それらを相互に接続するようにトレーニングされます。

OpenPose 姿勢推定アーキテクチャ

[[323909]]

強化と修復

強化ネットワークと回復ネットワークはそれぞれ独自のものです。私たちが本当に気にしているのは、高いピクセル/空間精度だけなので、これに対してダウンサンプリングは行いません。ダウンサンプリングを行うと、空間精度に必要なピクセル数が減るため、この情報は失われます。代わりに、すべての処理はフル画像解像度で実行されます。

まず、強化/復元したい画像を、変更せずにフル解像度でネットワークに渡します。ネットワークは、多数の畳み込みと活性化関数のみで構成されます。これらのブロックは、残差ブロック、密ブロック、スクイーズ励起ブロックなど、もともと画像分類用に開発されたブロックからインスピレーションを得たり、直接コピーしたりすることがよくあります。最後のレイヤーには、シグモイドやソフトマックスなどの活性化関数はありません。これは、確率やスコアなしで画像ピクセルを直接予測したいためです。

これらはすべて、これらのタイプのネットワークです。他のタスクと同じ畳み込みを使用して、画像のフル解像度で広範な処理が行われ、高い空間精度が実現されます。

EDSR超解像アーキテクチャ

[[323910]]

行動認識

アクション認識は、適切に機能するためにビデオ データを必要とする数少ないアプリケーションの 1 つです。アクションを分類するには、時間の経過とともにシーンがどのように変化するかを理解する必要があるため、当然ビデオが必要になります。私たちのネットワークは、時空間情報、つまり空間と時間の変化を学習するようにトレーニングする必要があります。最も完璧なネットワークは 3D-CNN です。

名前が示すように、3D-CNN は 3D 畳み込みを使用する畳み込みネットワークです。通常の CNN と異なるのは、畳み込みが幅、高さ、時間の 3 次元で適用される点です。したがって、各出力ピクセルは、周囲のピクセルと、同じ位置にある前のフレームと次のフレームのピクセルに基づいて計算によって予測されます。

画像の直接大量転送

ビデオ フレームはいくつかの方法で配信できます。

1. 最初の図のように、大量に直接。フレームのシーケンスを渡すため、空間情報と時間情報の両方が利用可能です。

単一フレーム + オプティカルフロー (左) ビデオ + オプティカルフロー (右)

2. 1 つのストリームで単一の画像フレーム (データの空間情報) と、それに対応するビデオからのオプティカル フロー表現 (データの時間情報) を渡すこともできます。通常の 2D CNN を使用して両方から特徴を抽出し、それらを組み合わせて 3D CNN に渡し、両方のタイプの情報をマージします。

3. フレーム シーケンスを 1 つの 3D CNN に渡し、ビデオのオプティカル フロー表現を別の 3D CNN に渡します。両方のデータ ストリームには、利用可能な空間情報と時間情報があります。ビデオの 2 つの異なる表現 (どちらもすべての情報を含む) に対して特定の処理を実行していることを考えると、これは最も遅いオプションですが、おそらく最も正確でもあります。

これらのネットワークはすべて、ビデオのアクション分類を出力します。

元記事: https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2b442c469928

<<:  業界大混乱! 2020年に人工知能がIT業界にもたらす4つの変化

>>:  あなたのデータは本当に安全ですか?ハッカーが機械学習を使ってデータを盗む7つの方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

日常生活におけるAIの優れた活用例

人工知能は、テクノロジーやビジネスの世界で広く議論されている人気のテクノロジーの 1 つです。 さま...

ヘルスケアにおける6つの新たなテクノロジートレンド

ヘルスケア業界におけるテクノロジーの浸透は、この分野の専門家のほぼすべての業務に影響を及ぼしています...

AI、BI、データ: 2020 年までに勝利するのは誰か?

10 年前、データと分析の市場には大手企業が存在しませんでした。実際、業界では「クラウド」、「ビッ...

電子鼻のウイスキー識別精度は96%にも達する。ネットユーザー:茅台酒にも作ってみよう

国産茅台酒や一部の外国産高級ウイスキーは高価であるが、偽造品の重要なターゲットでもある。ワイン鑑定家...

この AI 商用リストをお見逃しなく: 生産上の問題はアプリケーションで解決できるかもしれません (続き)

[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...

9つの思考フレームワーク:ChatGPTの使用能力を100倍向上させる

1. APEモデル「アクション、目的、期待」(APE) モデルは、アクション、目標、期待を明確にする...

AI を医療業界のあらゆる側面に深く統合するにはどうすればよいでしょうか?

[[319366]]将来的には、医療エコシステムを中心として、人工知能が医療システムのあらゆる側面...

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。写真しかし、瞬く間に...

...

AIoT: IoTと人工知能の完璧な組み合わせ

ビッグデータを備えたモノのインターネットは産業用 IoT を企業の神経系と考えてください。これは、生...

人工知能と伝統的な中国医学が出会うと、青い「箱」は「見て、嗅いで、聞いて、感じることができる」

[[238055]] [[238056]]患者は青い「ボックス」に手首を入れ、赤外線スキャン後に脈...

PythonコードからAPPまで、必要なのは小さなツールだけ:GitHubには3,000以上のスターがある

機械学習開発者にとってアプリを構築するのはどれくらい難しいのでしょうか?実際、Python コードを...

ABCの中でビッグデータが最初に遅れをとる理由

[[211451]]人工知能 (AI)、ビッグデータ、クラウドコンピューティングは、今日のインターネ...

「知的障害ロボット」が解雇に直面

最近、ストレンジという日本のロボットホテルが「ロボット従業員」の半数を解雇した。ロボットに仕事を奪わ...

マイクロソフト、画像やテキスト内のネガティブなコンテンツを削減する Azure AI コンテンツ セーフティを発表

海外メディアの報道によると、マイクロソフトは10月20日、アプリケーションやサービス内の有害な人工知...