新しいディープラーニングモデルがエッジデバイスに画像セグメンテーションをもたらす方法

新しいディープラーニングモデルがエッジデバイスに画像セグメンテーションをもたらす方法

[51CTO.com クイック翻訳]画像セグメンテーションは、画像内のオブジェクトの境界と領域を決定するプロセスです。人間は意識的に画像を分割することはありませんが、機械学習システムにとっては依然として重要な課題となっています。この技術は、現実世界とやりとりして移動する必要がある自律型ロボット、自動運転車、その他の AI システムの能力を強化するために不可欠です。

これまで、画像のセグメンテーションには、そのタスクを実行するために大規模で計算集約的なニューラル ネットワークが必要でした。このため、多くのデバイスでは、クラウド コンピューティング サーバーに接続せずにこれらのディープラーニング モデルを実行することが困難になります。

DarwinAI とウォータールー大学の研究者は、ほぼ最適なセグメンテーション機能を提供し、リソースが限られたデバイスに収まるほど小さいニューラル ネットワークの作成に成功しました。研究者らは、今年のコンピュータービジョンおよびパターン認識会議(CVPR)でのプレゼンテーションで、「AttendSeg」と呼ばれるニューラルネットワークについて詳しく説明しました。

オブジェクトの分類、検出、セグメンテーション

機械学習システムへの関心が高まっている主な理由の 1 つは、コンピューター ビジョンの問題を解決できる可能性です。コンピューター ビジョンにおける機械学習の最も一般的なアプリケーションには、画像分類、オブジェクト検出、画像セグメンテーションなどがあります。

画像分類は、画像内に特定の種類のオブジェクトが存在するかどうかを判断します。オブジェクト検出は画像分類をさらに一歩進め、検出されたオブジェクトが存在する境界を提供します。

セグメンテーションには、セマンティック セグメンテーションとインスタンス セグメンテーションの 2 つの形式があります。セマンティックセグメンテーションでは、入力画像の各ピクセルにオブジェクト カテゴリを割り当てることができます。インスタンス セグメンテーションは、各タイプのオブジェクトの個々のインスタンスを区別します。実際のアプリケーションでは、セグメンテーション ネットワークの出力は通常、ピクセルを色付けすることによって表されます。セグメンテーションは、これまでのところ最も複雑な分類タスクです。

画像分類とオブジェクト検出とセマンティックセグメンテーション

畳み込みニューラル ネットワーク (CNN) は、コンピューター ビジョン タスクで一般的に使用されるディープラーニング アーキテクチャであり、その複雑さは通常、パラメーターの数によって測定されます。ニューラル ネットワークのパラメーターが増えるほど、必要なメモリと計算能力も増加します。

RefineNet は、8,500 万を超えるパラメータを含む人気のセマンティック セグメンテーション ニューラル ネットワークです。各パラメータは 4 バイトです。つまり、RefineNet を使用するアプリケーションでは、ニューラル ネットワークを実行するために少なくとも 340 MB のメモリが必要です。ニューラル ネットワークのパフォーマンスは、高速な行列乗算を実行できるハードウェアに大きく依存するため、計算に使用できるメモリよりもはるかに少ないメモリしかないグラフィック カードまたはその他の並列計算ユニットにモデルをロードする必要があります。

エッジデバイスでの機械学習

ハードウェア要件により、ほとんどの画像セグメンテーション アプリケーションでは、大規模なディープラーニング モデルを実行できるクラウド コンピューティング サーバーに画像を送信するためにインターネット接続が必要です。クラウド プラットフォームに接続すると、画像セグメンテーションを使用できる場所が制限される可能性があります。たとえば、ドローンやロボットがインターネット接続のない環境で動作する場合、画像のセグメンテーションを実行するのは難しい作業になります。他の分野では、AI エージェントは機密性の高い環境で動作し、クラウド プラットフォームに画像を送信するとプライバシーとセキュリティの制約を受けることになります。機械学習モデルからのリアルタイム応答を必要とするアプリケーションでは、クラウド プラットフォームへのラウンドトリップによって発生するネットワーク遅延が大きな問題となる可能性があります。ネットワーク ハードウェア自体が大量の電力を消費し、クラウド プラットフォームに継続的に画像を送信すると、バッテリー駆動のデバイスに負担がかかる可能性があることに注意する必要があります。

このような理由から、エッジ AI と Tiny Machine Learning (TinyML) は、学術界や応用 AI の分野で注目され、研究されるホットなトピックとなっています。 TinyML の目標は、クラウド プラットフォームに接続せずに、メモリと電力が制限されたデバイスで実行できる機械学習モデルを作成することです。

AttendSegデバイス上のセマンティックセグメンテーションニューラルネットワークのアーキテクチャ

DarwinAI とウォータールー大学の研究者は、AttendSeg を使用して、エッジ コンピューティング デバイスにおけるセマンティック セグメンテーションの課題に取り組もうとしました。

「AttendSeg のアイデアは、TinyML の分野を発展させたいという私たちの願いと、DarwinAI が満たしていると思われる市場ニーズから生まれました」と、DarwinAI の共同創設者でウォータールー大学の准教授である Alexander Wong 氏は述べています。「効率的なエッジ セグメンテーション手法には多くの産業用途があり、このフィードバックと市場ニーズが私たちの研究を推進したのだと思います。」

ウォン氏は、AttendSeg は TinyML (TinyML) アプリケーション向けにカスタマイズされた、低精度で非常にコンパクトなディープ セマンティック セグメンテーション ニューラル ネットワークであると述べました。

AttendSeg ディープラーニング モデルは、パラメータの数を 119 万に削減しながら、RefineNet とほぼ同等の精度でセマンティック セグメンテーションを実行します。興味深いことに、研究者らは、パラメータの精度を 32 ビット (4 バイト) から 8 ビット (1 バイト) に下げてもパフォーマンスに大きな低下は見られず、AttendSeg のメモリ フットプリントが 4 分の 1 に削減されることも発見しました。このモデルには 1 MB 強のメモリが必要ですが、これはほとんどのエッジ デバイスには十分な大きさです。

「我々の実験によれば、8 ビット パラメータはネットワークの一般化を制限しないため、このコンテキストでは低精度の表現が非常に有益であることが示唆される」と Alexander Wong 氏は述べています。

実験により、AttendSeg ディープラーニング モデルは、パラメータ数とメモリ フットプリントを削減しながら、最適なセマンティック セグメンテーションを提供することが示されました。

コンピュータビジョンのための自己注意メカニズム

AttendSeg は、実行時のパフォーマンスを損なうことなくモデル サイズを縮小するために、自己注意メカニズムを利用します。自己注意メカニズムは、重要な情報に焦点を当てることでニューラル ネットワークの効率を向上させるメカニズムです。自己注意メカニズムは、自然言語処理の分野に恩恵をもたらしてきました。これらは、Transformer などのディープラーニング アーキテクチャの成功の決定的な要因となっています。リカレント ニューラル ネットワークなどの従来のアーキテクチャでは、長いデータ シーケンスに対する容量が限られていましたが、Transformer では自己注意メカニズムを使用して範囲を拡張します。 GPT-3 などのディープラーニング モデルは、「トランスフォーマー」と自己注意メカニズムを利用して、(少なくとも表面上は)長いスパンにわたって一貫性を保つ長い文字列を生成します。

AI 研究者は、畳み込みニューラル ネットワークのパフォーマンスを向上させるために、自己注意メカニズムも使用しています。昨年、ウォン氏とその同僚は、リソース効率に優れた自己注意メカニズムを導入し、それを画像分類機械学習モデルに適用しました。

「このメカニズムにより、非常にコンパクトなディープニューラルネットワークアーキテクチャが実現し、高いパフォーマンスを実現できるため、エッジコンピューティングやTinyMLアプリケーションに最適です」とウォン氏は述べた。

自己注意メカニズムは、メモリ効率の良い方法で畳み込みニューラルネットワークのパフォーマンスを向上させます。

機械駆動型ニューラルネットワーク設計

TinyML ニューラル ネットワークを設計する際の主な課題の 1 つは、ターゲット デバイスのリソースを超えないように注意しながら、最高のパフォーマンスを発揮するアーキテクチャを見つけることです。

この課題に対処するために、研究者らは、特定の目標と制約に基づいてニューラル ネットワーク アーキテクチャを作成できる機械学習技術である生成合成を使用しました。研究者は、さまざまな構成やアーキテクチャを手動で設定する代わりに、機械学習モデルが最適な組み合わせを発見するための問題領域を提供します。

「ここで使用される機械駆動型設計プロセス(生成合成)では、人間が初期設計プロトタイプとその指定された予想される運用要件(サイズ、精度など)を提供する必要があります。機械駆動型設計プロセスは、そこから学習し、運用上のニーズ、タスク、データに合わせて最適なアーキテクチャ設計を調整します」とウォン氏は述べた。

研究者らは実験で、ロボット工学およびエッジ AI アプリケーション向けのハードウェア パッケージである Nvidia Jetson AttendSeg を適応させるために、マシン駆動設計を使用しました。しかし、AttendSeg は Jetson に限定されません。

「本質的に、AttendSeg ニューラル ネットワークは、文献で提案されている以前のニューラル ネットワークと比較して、ほとんどのエッジ コンピューティング ハードウェアで高速に動作します」と Wong 氏は述べています。「ただし、特定のハードウェアに合わせてカスタマイズされた AttendSeg を生成したい場合は、マシン主導の設計アプローチを使用して、高度にカスタマイズされた新しいネットワークを作成できます。」

AttendSeg は、セマンティック セグメンテーションがナビゲーションを実現するための重要な要件であるドローン、ロボット、自律走行車のアプリケーションに適していますが、デバイス上のセグメンテーションにはさらに多くのアプリケーションがあります。

「この非常にコンパクトでより効率的なセグメンテーション ニューラル ネットワークは、製造アプリケーション (部品検査/品質評価、ロボット制御など)、医療アプリケーション (細胞分析、腫瘍セグメンテーションなど)、衛星リモート センシング アプリケーション (土地被覆セグメンテーションなど)、モバイル デバイス アプリケーション (拡張現実における人間のセグメンテーションなど) など、さまざまなアプリケーションで使用できます」とウォン氏は述べています。

原題: 新しいディープラーニング モデルがエッジ デバイスに画像セグメンテーションをもたらす、著者: Ben Dickson

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  Java プログラミング スキル - データ構造とアルゴリズム「分割統治アルゴリズム」

>>:  「AI+ヘルスケア」はいかにして質的変化を実現するか:人工知能企業は連携して突破口を拓くことができるか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 ...

...

面接でコンシステントハッシュアルゴリズムについて再度質問されました。この答えは面接官を即死させるでしょう!

[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...

テクノロジーの専門家が若者と対談、第1回JD全国大学生アルゴリズム設計・プログラミングエリート競技会セミナーが開催されました

最近、「2021 JD全国大学生アルゴリズム設計・プログラミングエリートコンテスト-コードの無限の想...

「デジタルマン」もリストに載っているので、怖いのかと聞いてみたいのですが

冬季オリンピックが本格的に開幕。新たなトップスター「ビン・ドゥエンドゥエン」のほか、競技場内外を支え...

家主は、あなたに賃貸するかどうかを決める前に、AIを使ってあなたの犯罪歴を審査しているかもしれない。

[[351784]]ビッグデータダイジェスト制作著者: miggyようやく気に入った家が見つかり、...

金融サービス技術インフラに関する意思決定の5つの原則

現在、金融サービス業界にとっての朗報は、フィンテックの戦いがまだ終わっておらず、始まったばかりだとい...

...

...

国境を越えた大企業よ、安易に「自社開発チップ」を主張しないでほしい

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

クラウド コンピューティングの限界: エッジでの機械学習が必要な理由

機械学習には高い処理要件があり、通信コストがかかることから、最終的にはエッジ(スマートフォン)で動作...

...

今後 5 年以内にトラックは自動運転できるようになるでしょうか? 「人工知能の女王」はシノトラックでこの答えを出した

「人工知能の女王」ジャスティン・カッセル氏が済南の中国重汽で「人工知能と世界の未来経済」について講演...