携帯電話なら何でもコピー&ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

携帯電話なら何でもコピー&ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

見たものを何でもコピーします。これは魔法ですか、それとも孫悟空の魔力ですか?どちらでもない。これが AR の魔法です。

[[324681]]

オブジェクトの画像を Photoshop にインポートするにはどうすればよいですか?まず写真を撮り、インターネットまたはメモリ カード経由で写真をコンピューターに転送し、Photoshop インターフェイスにインポートする必要があります。では、これらのプロセスは 1 つのステップで完了できるのでしょうか?

今、AR はそれを可能にします。

AR Cut & Pasteと呼ばれるツールでは、ユーザーはこのツールを携帯電話に事前にインストールし、対象物の写真を撮り、その画像をコピーしてPhotoshopに貼り付けるだけで済みます。これは「テレキネシス」に少し似ています。

まずは効果を見てみましょう:

[[324682]]

鉢植えの植物。

[[324683]]
衣類。

[[324684]]

本。

上のアニメーション画像のように、鉢植えでも、洋服でも、本でも、見たらすぐにコピーして、ワンクリックでPhotoshopに取り込んで画像素材に変えることができます。グラフィックデザイナーにとってはありがたい存在です。

現在のツールの切断遅延は約 2.5 秒、貼り付け遅延は約 4 秒であると報告されており、プロセスはさらに加速できます。さらに、作者は来週、別の AI + UX プロトタイプをリリースすることも発表しました。

プロジェクト紹介

AR カット&ペースト ツールは、周囲の環境から固定オブジェクトをコピーし、画像編集ソフトウェア (Photoshop) に貼り付けることができる AR+ML プロトタイプです。このツールは Adob​​e Photoshop ソフトウェアでのみ動作し、将来的には異なる出力の処理をサポートする可能性があることに注意してください。

プロジェクトアドレス: https://github.com/cyrildiagne/ar-cutpaste

プロトタイプには、モバイル アプリ、ローカル サーバー、オブジェクト検出および背景除去サービスという 3 つの独立したモジュールがあります。

まず、ユーザーは携帯電話に AR Cut & Paste を事前にインストールする必要があります。

  1. npmインストール

次に、モバイル アプリと Photoshop 間のインターフェイスとして、ユーザーは事前にローカル サーバーを構成する必要があります。

  1. 仮想環境 venvsource venv/bin/activate
  2. pip インストール -r 要件.txt

最後に、顕著なオブジェクトの検出と背景の除去は外部サービスによって実行されます (BASNet テクノロジを適用)。ユーザーは、次のコード内の 123456 を自分の Photoshop リモート接続パスワードに置き換える必要があります。

  1. python src/main.py \
  2. --basnet_service_ip= "http://XXXX" \
  3. --basnet_service_host= "basnet-http.default.example.com" \
  4. --photoshop_パスワード123456  

技術詳細

このツールは、BASNet (Qin et al、CVPR 2019) を使用して、顕著なオブジェクトの検出と背景の除去を実行します。

次に、OpenCV SIFT を使用して、コンピューター画面上で携帯電話が向いている場所を調べます。正確な x、y 画面座標系を取得するには、携帯電話の写真とスクリーンショットだけが必要です。

目立つオブジェクトの検出と背景の除去

プロジェクト作成者は、BASNet を使用して顕著なオブジェクトの検出と背景の除去を実行しました。

BASNet は、境界の顕著性の検出に関する CVPR 2019 論文「BASNet: 境界を考慮した顕著なオブジェクトの検出」に基づいています。その主な革新は、クロスエントロピー、構造類似性損失、および IoU 損失の混合損失を使用する損失関数の設計にあります。これにより、ネットワークは、以前のように地域精度のみに焦点を当てるのではなく、境界品質にさらに注意を払うようになります。単一の GPU で 25 fps で実行でき、6 つのパブリック データセットで SOTA 結果を達成できます。

BASNet のアーキテクチャを下図に示します。

使いやすさを考慮して、プロジェクト作成者は BASNet HTTP サービス ラッパーを作成しました。

GitHub アドレス: https://github.com/cyrildiagne/basnet-http

位置

SIFT (スケール不変特徴変換) は、キーポイント検出に使用されるアルゴリズムです。SIFT アルゴリズムによって検出されたキーポイントは、通常、光や視野角などの変化に対して非常に堅牢であり、視線の遮蔽によっても大きな影響を受けません。 SIFT アルゴリズムのもう 1 つの利点は、計算速度が非常に速く、基本的にリアルタイム計算の要件を満たすことができることです。

[[324685]]

SIFT アルゴリズムの例。画像ソース: Wikipedia URL: https://en.wikipedia.org/wiki/Scale-invariant_feature_transform

このツールは、OpenCV SIFT を使用して、コンピューター画面上で携帯電話が向いている場所を検出します。

[[324686]]

プロジェクト作成者はこれを小さな Python パッケージにパッケージ化しました。以下を参照してください。

GitHub アドレス: https://github.com/cyrildiagne/screenpoint

著者について

このツールの発明者である Cyril Diagne 氏は、現在フランスのパリに住んでいます。彼はアーティストであり、デザイナーであり、プログラマーでもある、まさに中年の兼業労働者です。

[[324687]]

シリル・ディアニュは2008年にパリのレ・ゴブラン・ビデオ学校を卒業した後、他の5人のクラスメートとともにアートエージェンシーLAB212を設立しました。

彼はまた、パリの Google Cultural Research Lab のアーティスト・イン・レジデンスであり、スイスのローザンヌ芸術デザイン大学のメディアおよびインタラクション デザインの責任者でもあります。

Cyril Diagne は 10 年以上にわたり、斬新なデジタル テクノロジーと芸術的なデザインを組み合わせて素晴らしいインタラクティブ体験を生み出すことに魅了されてきました。同時に、この組み合わせによってコンピューター技術がより人間的なものになるだろうと彼は信じている。

例えば、彼はかつて、Tensorflow.js、FaceMesh、Three.js を使って、Web ブラウザ上で AR を使って顔に落書きする顔落書きツールを開発しました。

[[324689]]

Instagram のプロフィール画像に 3D 効果を追加できる Chrome 拡張機能もあります。この効果は Facebook の 3D 写真機能に似ており、2D の写真に複数の角度のビューを表示できます。

[[324690]]

この種のアートやテクニカルデザインに興味がある方は、Cyril Diagne の GitHub ホームページでさらに興味深い作品を見つけることができます。

個人ホームページ: https://github.com/cyrildiagne

<<:  機械学習モデルの仕組み

>>:  張漢松: 大ヒットARゲームのルールを解説

ブログ    
ブログ    

推薦する

...

グラフアルゴリズムシリーズ: 無向グラフのデータ構造

[[393944]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? G...

ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進

[51CTO.comより引用] デジタル時代において、ビッグデータと人工知能は企業のビジネス成長を推...

予測: 2019 年に爆発的に普及する 10 の人工知能テクノロジー!

1. 自然言語生成自然言語生成は、データをテキストに変換し、コンピューターがこれまでにない精度でア...

...

テクノロジー企業史上初:MetaがGPT3パラメータサイズのAIモデルをオープンソース化

テキスト段落の生成、人間の会話のシミュレーション、数学の問題の解決において驚くほど優れたパフォーマン...

JVMの基本的なガベージコレクションアルゴリズムについて

この記事は JavaEye ブログからの引用であり、元のタイトルは「JVM チューニングの概要 (パ...

RPAが企業にもたらすメリットトップ10

この記事では、RPA がビジネスの効率と生産性を向上させる 10 の方法について詳しく説明します。 ...

...

業界の視点: 人工知能がビジネスプロセスに革命をもたらす方法

今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...

初心者必読: 5 つの反復レベルから機械学習を理解する

このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...

AIの計算能力は70年間で6億8000万倍に増加し、3つの歴史的段階でAI技術の指数関数的爆発が目撃されました。

電子コンピュータは 1940 年代に発明され、登場から 10 年以内に人類史上初の AI アプリケー...

...