携帯電話なら何でもコピー＆ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

見たものを何でもコピーします。これは魔法ですか、それとも孫悟空の魔力ですか?どちらでもない。これが AR の魔法です。

[[324681]]

オブジェクトの画像を Photoshop にインポートするにはどうすればよいですか?まず写真を撮り、インターネットまたはメモリカード経由で写真をコンピューターに転送し、Photoshop インターフェイスにインポートする必要があります。では、これらのプロセスは 1 つのステップで完了できるのでしょうか?

今、AR はそれを可能にします。

AR Cut & Pasteと呼ばれるツールでは、ユーザーはこのツールを携帯電話に事前にインストールし、対象物の写真を撮り、その画像をコピーしてPhotoshopに貼り付けるだけで済みます。これは「テレキネシス」に少し似ています。

まずは効果を見てみましょう:

[[324682]]

鉢植えの植物。

[[324683]]
衣類。

[[324684]]

本。

上のアニメーション画像のように、鉢植えでも、洋服でも、本でも、見たらすぐにコピーして、ワンクリックでPhotoshopに取り込んで画像素材に変えることができます。グラフィックデザイナーにとってはありがたい存在です。

現在のツールの切断遅延は約 2.5 秒、貼り付け遅延は約 4 秒であると報告されており、プロセスはさらに加速できます。さらに、作者は来週、別の AI + UX プロトタイプをリリースすることも発表しました。

プロジェクト紹介

AR カット＆ペーストツールは、周囲の環境から固定オブジェクトをコピーし、画像編集ソフトウェア (Photoshop) に貼り付けることができる AR+ML プロトタイプです。このツールは Adobe Photoshop ソフトウェアでのみ動作し、将来的には異なる出力の処理をサポートする可能性があることに注意してください。

プロジェクトアドレス: https://github.com/cyrildiagne/ar-cutpaste

プロトタイプには、モバイルアプリ、ローカルサーバー、オブジェクト検出および背景除去サービスという 3 つの独立したモジュールがあります。

まず、ユーザーは携帯電話に AR Cut & Paste を事前にインストールする必要があります。

 npmインストール

次に、モバイルアプリと Photoshop 間のインターフェイスとして、ユーザーは事前にローカルサーバーを構成する必要があります。

仮想環境 venvsource venv/bin/activate
 pip インストール -r 要件.txt

最後に、顕著なオブジェクトの検出と背景の除去は外部サービスによって実行されます (BASNet テクノロジを適用)。ユーザーは、次のコード内の 123456 を自分の Photoshop リモート接続パスワードに置き換える必要があります。

 python src/main.py \
    --basnet_service_ip= "http://XXXX" \
    --basnet_service_host= "basnet-http.default.example.com" \
    --photoshop_パスワード123456

技術詳細

このツールは、BASNet (Qin et al、CVPR 2019) を使用して、顕著なオブジェクトの検出と背景の除去を実行します。

次に、OpenCV SIFT を使用して、コンピューター画面上で携帯電話が向いている場所を調べます。正確な x、y 画面座標系を取得するには、携帯電話の写真とスクリーンショットだけが必要です。

目立つオブジェクトの検出と背景の除去

プロジェクト作成者は、BASNet を使用して顕著なオブジェクトの検出と背景の除去を実行しました。

BASNet は、境界の顕著性の検出に関する CVPR 2019 論文「BASNet: 境界を考慮した顕著なオブジェクトの検出」に基づいています。その主な革新は、クロスエントロピー、構造類似性損失、および IoU 損失の混合損失を使用する損失関数の設計にあります。これにより、ネットワークは、以前のように地域精度のみに焦点を当てるのではなく、境界品質にさらに注意を払うようになります。単一の GPU で 25 fps で実行でき、6 つのパブリックデータセットで SOTA 結果を達成できます。

BASNet のアーキテクチャを下図に示します。

使いやすさを考慮して、プロジェクト作成者は BASNet HTTP サービスラッパーを作成しました。

GitHub アドレス: https://github.com/cyrildiagne/basnet-http

位置

SIFT (スケール不変特徴変換) は、キーポイント検出に使用されるアルゴリズムです。SIFT アルゴリズムによって検出されたキーポイントは、通常、光や視野角などの変化に対して非常に堅牢であり、視線の遮蔽によっても大きな影響を受けません。 SIFT アルゴリズムのもう 1 つの利点は、計算速度が非常に速く、基本的にリアルタイム計算の要件を満たすことができることです。

[[324685]]

SIFT アルゴリズムの例。画像ソース: Wikipedia URL: https://en.wikipedia.org/wiki/Scale-invariant_feature_transform

このツールは、OpenCV SIFT を使用して、コンピューター画面上で携帯電話が向いている場所を検出します。

[[324686]]

プロジェクト作成者はこれを小さな Python パッケージにパッケージ化しました。以下を参照してください。

GitHub アドレス: https://github.com/cyrildiagne/screenpoint

著者について

このツールの発明者である Cyril Diagne 氏は、現在フランスのパリに住んでいます。彼はアーティストであり、デザイナーであり、プログラマーでもある、まさに中年の兼業労働者です。

[[324687]]

シリル・ディアニュは2008年にパリのレ・ゴブラン・ビデオ学校を卒業した後、他の5人のクラスメートとともにアートエージェンシーLAB212を設立しました。

彼はまた、パリの Google Cultural Research Lab のアーティスト・イン・レジデンスであり、スイスのローザンヌ芸術デザイン大学のメディアおよびインタラクションデザインの責任者でもあります。

Cyril Diagne は 10 年以上にわたり、斬新なデジタルテクノロジーと芸術的なデザインを組み合わせて素晴らしいインタラクティブ体験を生み出すことに魅了されてきました。同時に、この組み合わせによってコンピューター技術がより人間的なものになるだろうと彼は信じている。

例えば、彼はかつて、Tensorflow.js、FaceMesh、Three.js を使って、Web ブラウザ上で AR を使って顔に落書きする顔落書きツールを開発しました。

[[324689]]

Instagram のプロフィール画像に 3D 効果を追加できる Chrome 拡張機能もあります。この効果は Facebook の 3D 写真機能に似ており、2D の写真に複数の角度のビューを表示できます。

[[324690]]

この種のアートやテクニカルデザインに興味がある方は、Cyril Diagne の GitHub ホームページでさらに興味深い作品を見つけることができます。

個人ホームページ: https://github.com/cyrildiagne

<<: 機械学習モデルの仕組み

>>: 張漢松: 大ヒットARゲームのルールを解説

ブログ

ChatGPTに勝つ？ OpenChat が 105.7% のパフォーマンスでスタンフォード AlpacaEval オープンソースリストのトップに

携帯電話なら何でもコピー＆ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

プロジェクト紹介

技術詳細

著者について

ChatGPTに勝つ？ OpenChat が 105.7% のパフォーマンスでスタンフォード AlpacaEval オープンソースリストのトップに

わが国には「人工知能」関連企業が43万社以上あり、2021年上半期には前年比150.8％増加した。

ジェネレーティブAIは企業にとって新たなリスクとなっているが、重要な問題を放置すべきではない

自動運転技術が盛んに進歩していますが、実際に道路上で実用化されるまでにはどれくらい時間がかかるのでしょうか?

Googleは「先進的な天気予報AI」MetNet-3を発表、その予測結果は従来の物理モデルを上回ると主張

機械学習タスクオーケストレーションツールの比較

本当に滑らか: 浙江大学、ETH チューリッヒ、CityU が共同で開発した 3D ヘアモデリングの新しい手法、NeuralHDHair

推薦する

GPT の成熟への道に関する公式メモ | OpenAI Developer Day

中国人民大学高陵人工知能学院のネイチャーサブジャーナル：マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

科学者たちは指紋の水分調節メカニズムを研究しており、これはロボットや義肢の開発に役立つだろう。

市場規模は約16.8億元に達しました！物流と配送がドローンと出会う

ウェブ開発のための機械学習フレームワークトップ 5

GraphSAGEグラフニューラルネットワークアルゴリズムの詳細な説明

Foreign Media Express: 2017 年の機械学習に関する 10 の予測

ショック！自動運転車が人をはねたが、救助活動は失敗し、死亡が確認された。

13,000のスターを獲得したオープンソースコードインタープリターは、GitHubのホットリストでトップとなり、ローカルで実行してインターネットにアクセスできる。

Facebookが削除した10億の顔情報は、インターネット上の単なる「データゴミ」だ