スマートフォンを使用して、物体検出と同等の速度で、画像上にリアルタイムで直線を描くことができます。オンラインデモをご利用いただけます

スマートフォンを使用して、物体検出と同等の速度で、画像上にリアルタイムで直線を描くことができます。オンラインデモをご利用いただけます

[[404434]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

意外にも、携帯電話でリアルタイムの線分検出ができるようになりました。

速度はターゲット検出よりも遅くなく、検出効果は非常に良好です。

線分は、コンピュータが視覚認識を確立するための基本要素です。LSD を使用すると、画像内の直線部分をすばやく検出できるため、画像の幾何学的特徴に基づいてアルゴリズムを設計し、対象領域をすばやく特定できます。

△線分検出モデルによる効果の違い

これまでの線分検出モデルはリアルタイムのパフォーマンスを実現できましたが、多くの場合、優れたコンピューティング パフォーマンスを備えたGPU上でしか実装できませんでした。

ロボットの用途が多様化する中で、ロボットビジョン研究に向けて、モバイル機器(携帯電話など)や組み込み機器(ロボット)にも線分検出モデルを搭載することが期待されています。

これらのニーズを満たすために、 M-LSDと呼ばれるモバイル デバイス用のリアルタイム線分検出モデルが提案されました。

著者らによると、これはモバイルデバイス上で実行でき、現在オープンソースとなっている初の線分検出モデルです。

単一のモジュールを使用して、携帯電話はリアルタイムで線分を予測します

以前は、画像内の線分を予測するために多くのモジュールが必要だったため、線分の検出は複雑でした。

下図に示すように、青い部分がこれまでの主流の線分検出モデルです。これらのモデルは計算量や種類が大きすぎ、構造もResNet50上に構築されたFPNネットワーク、残差U-Netなど大規模なモデルに基づいています...

これらのモデルでは、線分の予測結果を最終的に生成する前に、画像に対して複数のモジュール変換が必要になることがよくあります。

しかし、M-LSD では、中心/変位マップを直接生成するために 1 つのモジュールのみを使用することを決定し、これにより画像内の線分を 1 ステップで予測し、モデル サイズを大幅に削減しました。

実際、このモデルは非常に小さく、レイヤー 1 から 11 はMobileNetから適応されており、レイヤー 12 から 16 はトップダウン構造になっています。

そうです、レイヤーは全部で 16 個しかなく、これは大きな線分検出モデルのボリュームの2.5%にすぎません。

論文によれば、他の大型モデル(円の大きさはモデルのサイズを示す)と比較すると、M-LSD は線分の検出精度をほぼ変えずに、モデルの実行速度を2.3 倍に高めることができるという。

図からわかるように、著者らは M-LSD と M-LSD-tiny という 2 つのモデルを導入しました。どちらも Android および Apple マシンでリアルタイムに実行できます。

その中で、M-LSD-tinyは、最速56.8FPS48.6FPSで携帯電話上でリアルタイムに実行できます。

そうです、AI はあなたよりも速く携帯電話上で家具の直線を描くことができるようになりました。

そして、直線オブジェクトであれば、私たちが素早くスケッチするのと同じように、素早くアウトラインを抽出できます。

今では携帯電話でも試すことができます (記事の最後にあるプロジェクトのアドレスを参照してください)。

ウェブ版のオンラインデモもあります

効果の表示を容易にするために、著者らは Python の Flask フレームワークに基づいて開発されたWeb バージョンのデモも公開しました。

このオンライン デモを開いた後 (リンクは記事の最後にあります)、線分を検出したい画像をオンラインでアップロードできます。

ウェブページ上で実行され、生成されたモデルはM-LSDを使用するため、検出速度は携帯電話でのリアルタイム検出効果に到達できません(M-LSDのモバイルバージョンの検出速度は約12.7〜26FPSです)。

ただし、M-LSD の Web バージョンでは、線検出画像の生成に約2.5 秒しかかかりません。

まずはインテリアデザインの写真をアップロードしてみましょう。

効果は本当に良く、直線構造部分がすべて輪郭線で描かれています。

ただし、線分検出効果にはいくつかの小さなバグがあります。

たとえば、グラフ内の直線が十分に明確でない場合、一部の線分が「ドリフト」することがあります。

チームについて

この調査は、韓国版百度とも呼ばれ、検索エンジン事業を主力とする韓国最大のインターネットサービス企業NAVERによるものだ。

[[404436]]

第一著者の Geonmo Gu 氏は、延世大学電気電子工学部で学士号を取得し、KAIST で修士号を取得しました。研究分野はコンピューター ビジョンです。

[[404437]]

共同筆頭著者のByungSoo Ko氏は、韓国の忠南国立大学とカナダのニューファンドランドメモリアル大学を卒業し、KAISTで修士号を取得しました。現在はNAVERで技術研究エンジニアとして働いています。

[[404438]]

線分検出に興味のある方は、下のアドレスをクリックしてご利用ください〜

オンライン「ライン検出」ウェブページデモ:
https://gradio.app/g/AK391/mlsd

論文の宛先:
https://arxiv.org/abs/2106.00186

プロジェクトアドレス:
https://github.com/navervision/mlsd

<<:  本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか?

>>:  GTA5をプレイしていますか?インテルの新しいモデルは3Dレンダリングをリアルな画像に変換します

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習による物流とサプライチェーン管理の変革

機械学習は、リアルタイムの需要予測、持続可能な物流、高度な予測分析など、大きなメリットをもたらします...

現実世界の AI: 今こそ AI が必要な理由

人類が最も懸念している問題の一つは、人工知能(AI)の将来の発展です。真の AI は、人間の作業のス...

プログラム分析を通じてニューラルネットワーク プログラムのバックドアを見つける方法

1 ニューラルネットワークにはさまざまな問題がある従来のプログラムには、よく知られたエラー、抜け穴、...

自動運転:距離推定にステレオビジョンをどのように活用するのか?

自動化システムでは、ディープラーニングとコンピュータービジョンが広く普及し、あらゆる場所で利用されて...

Nature の最新表紙: 2 つの主要な数学の問題が AI によって解決されました!ディープマインドYYDS

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルゴリズムなしでもTikTokを購入する価値はあるでしょうか?技術専門家:購入者がその魔法を再現するのは難しい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

近年、「人工知能」が私たちの生活に静かに登場している

科学技術と産業技術の継続的な発展により、私たちの生活は大きく向上し、「人工知能」という言葉も徐々に私...

ソフト制約とハード制約の下で軌道を生成する方法、理論とコードの詳細な説明!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

将来の知能社会に向けた人工知能の基礎教育の強化

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

Google VideoPoet の責任者 Jiang Lu が TikTok に参入しました! AIビデオモデル戦争が迫る

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

...

海外メディア:科学者らが深海を探索できる魚のようなソフトロボットを設計

3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...

数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える—— M...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google アシスタントのような AI アシスタントは、追加データや再トレーニングを必要とせずに、...