AIが写真を見て場所を推測、その精度は90%以上!スタンフォードの最新のPIGEONモデル:予測誤差の40%は25キロメートル未満

AIが写真を見て場所を推測、その精度は90%以上!スタンフォードの最新のPIGEONモデル:予測誤差の40%は25キロメートル未満

インターネット上に何気なく投稿された写真から、どれほどの情報が漏れてしまうのでしょうか?

外国人ブロガーの @rainbolt さんは、何年も前からこの「写真ゲーム」に挑戦しています。ネットユーザーが写真を提供すると、その写真が撮影された場所を推測します。写真によっては、具体的なフライトの詳細まで推測できるものもあります。

考えてみると恐ろしくないですか?

しかし、「フォトチャレンジ」は多くの人々の心の中の後悔を和らげることにもなった。例えば、父親の幼い頃の写真を持っていたが、それがどこにあるのかわからなかった人は、レインボルトと大多数のネットユーザーの助けを借りて、ついにその願いを叶えることができるのだ。

ファンの父親の写真を探すのに6か月と300時間以上を費やした後、私は見つからずに諦めました。しかし、YouTubeに投稿してから1時間後、写真を見つけました。

考えてみれば、「写真から場所を推測する」という作業がいかに困難で難しいかは想像がつくでしょう。これには、多くの地理と歴史の専門知識が必要であり、道路標識、交通の方向、木の種類、インフラなどの手がかりから常に真実を見つけ出す必要があります。

コンピュータ分野では、このタスクは画像の地理位置情報とも呼ばれます。現在、ほとんどの方法は依然として手動の特徴と検索方法に基づいており、Transformer などのディープラーニング アーキテクチャは使用されていません。

最近、スタンフォード大学の研究チームが協力して、PIGEON と呼ばれる AI ツールを開発しました。このツールは、セマンティック ジオセルの作成とラベルのスムージングを組み合わせ、ストリート ビュー画像で CLIP ビジュアル コンバーターを事前トレーニングし、ProtoNet を使用して候補ジオセルのセットの位置予測を改良します。

論文リンク: https://arxiv.org/abs/2307.05845

PIGEONは「写真から国を推測する」サブタスクで91.96%の精度を達成し、推測の40.36%はターゲットから25キロメートル以内でした。これはまた、過去5年間で軍事的背景から資金提供を受けていない最先端の画像地理位置情報関連の論文としては初めてのものです。

GeoGuessr は、ストリートビュー画像から地理的位置を推測するゲームです。世界中に 5,000 万人のプレイヤーがいます。前述の rainbolt はこのゲームの熱心なファンであり、最強のプレイヤーの 1 人として知られています。

PIGEON モデルは GeoGuessr で人間のプレイヤーを圧倒し、6 ゲームで rainbolt を破り、世界上位 0.01% にランクインしました。

PIGEON の進歩は、開発者たちに別のモデル PIGEOTTO の作成も促しました。このモデルは、Flickr と Wikipedia の 400 万枚の画像を使用してトレーニングされました。ストリートビューのパノラマ画像の代わりに任意の画像を入力することで、画像の位置を特定できるため、さらに強力になります。

このようなタスクのテストでは、PIGEOTTO が最高のパフォーマンスを達成し、中央偏差を 20% ~ 50% 削減し、都市の粒度で最大 7.7 パーセント ポイント、国の粒度で最大 38.8 パーセント ポイント、以前の SOTA を上回りました。

PIGEOTTOのトレーニングに使用された2016 MediaEvalデータセットのサンプル画像

技術的には、この研究の最も重要な成果の 1 つは、事前トレーニング済みの CLIP モデル StreetCLIP のドメイン一般化と分布の変化に対する堅牢性の実証です。StreetCLIP を分布外ベンチマーク データセット IM2GPS および IM2GPS3k にゼロ ショット方式で適用し、400 万枚を超える分布内画像で微調整されたモデルを上回る最先端の結果を達成することができます。

さらに、実験結果から、対照的な事前トレーニングが画像による地理位置情報の有効なメタ学習手法であることが証明されました。StreetCLIP の事前トレーニングで見られなかった国を予測する際の精度は、CLIP よりも 10 パーセントポイント以上高くなっています。

画像地理位置情報データセットは地理的な分布が大きく異なるため、結果は StreetCLIP をあらゆる地理位置情報および関連する問題に適用することの有効性も示しています。

この技術は依然として悪意のある目的で使用される可能性があるため、開発者は当面モデルの重みを公開しないことにしました。

実験データセット

ほとんどの画像地理位置情報取得方法は公開されているデータセットに依存していますが、現在、地球全体を対象とした公開されているストリートビュー データセットはありません。

そこで研究者たちは、オリジナルのデータセットを元に作成することを決定し、Geoguessr の最高技術責任者である Erland Ranvinge 氏に連絡を取り、ゲームの対戦モードで使用される 100 万か所のデータセットを入手しました。次に、データ ポイントの 10% をランダムにサンプリングし、各データ ポイントについて 4 枚の写真をダウンロードして、最終的に 40 万枚の写真を入手しました。

メソッドアーキテクチャ

1. ジオセルの作成

これまでの研究では、入力画像から直接経度と緯度を予測しようとしましたが、その結果、SOTA パフォーマンスを達成できないことが示されました。そのため、現在のほとんどの方法は、ジオセルを生成し、座標回帰問題を離散化し、それを分類問題に変換することに依存しています。したがって、ジオセルの設計は非常に重要です。

この論文の革新性の 1 つは、トレーニング データセット サンプルの地理的分布に自動的に適応できるセマンティック ジオセルです。これは、画像内の視覚的特徴が国 (道路標示)、地域 (インフラストラクチャの品質)、または都市 (道路標識) に関連していることが多く、国境や行政境界が川や山の流れなどの自然の境界に従うことが多く、それが植生の種類、土壌の色などの自然の特徴に影響を与えるためです。

研究者らは、国、管理 1、管理 2 の 3 つのレベルの地理単位を設計しました。アルゴリズムは、最も細かいレベル (管理 2) から始めて、隣接する管理 2 レベルのポリゴンを徐々に結合します。各ジオセルには、少なくとも 30 個のトレーニング サンプルが含まれます。

2. ラベルのスムージング

セマンティック地理単位作成プロセスは、画像の地理位置情報の問題を離散化し、粒度と予測精度のバランスを求めます。地理単位の粒度が大きいほど予測の精度は高くなりますが、カーディナリティが高くなるため分類の問題は難しくなります。

この問題に対処するため、研究者らは、正しい地理単位までの予測距離にペナルティを課す損失関数を設計し、これによりモデルをより効率的にトレーニングできるようになりました。

2 点間のヘイバーサイン距離を使用する利点の 1 つは、地球の球面形状に基づいており、2 点間の距離を正確に推定できることです。

3. ビジョントランスフォーマー(CLIP)

研究者らは、アーキテクチャ ViT-L/14 を備えた事前トレーニング済みのビジュアル Transformer を使用し、予測ヘッダーを微調整して、最後のビジュアル Transformer レイヤーを解凍しました。

複数の画像入力を持つモデルのバージョンでは、4 つの画像の埋め込みが平均化されます。実験では、平均化された埋め込みは、マルチヘッド アテンションまたは追加の Transformer レイヤーを介して埋め込みを組み合わせるよりも優れたパフォーマンスを発揮します。

事前の知識とプロの GeoGuessr プレーヤーの一般的な戦略に基づくと、植生、道路標示、ランドマーク、建物など、画像の位置特定タスクに関連するさまざまな特徴があります。

マルチモーダル モデルには、画像のより深い意味的理解を備えた埋め込み機能があり、これらの特徴を学習できます。実験では、CLIP ビジュアル トランスフォーマーが類似の ImageNet ビジュアル トランスフォーマーよりも大幅に改善されていることも示されており、アテンション マップを使用すると、モデルによって学習された戦略を解釈可能な方法で実証できます。

4. StreetCLIPと事前トレーニング

CLIP の対照事前トレーニングにヒントを得て、研究者らは、ジオセル予測ヘッドを学習する前に CLIP ベースモデルを微調整するためにも使用できる対照事前トレーニングタスクを設計しました。

ストリートビュー データセットには、地理、人口統計、地質の補助データが追加され、ルールベースのシステムを使用して、次のような各画像の説明がランダムに作成されます。

場所: 南アフリカの東ケープ州のストリートビュー写真

場所: 南アフリカの東ケープ州のストリートビュー写真。

気候: この地域は温暖な海洋性気候です。

気候: この場所は温暖な海洋性気候です。

コンパスの方向: この写真は北を向いています。

コンパスの方向: この写真は北を向いています。

季節: この写真は12月に撮影されました。

季節: この写真は12月に撮影されました。

交通: この場所では、道路の左側を走行します。

交通: この場所では、道路の左側を走行します。

これは、ストリートビュー画像の分布を調整し、地理的位置に関連する特徴を学習しながら、モデルが豊富なデータ表現を維持することを保証する暗黙のマルチタスクに相当します。

5. マルチタスク学習

研究者らはまた、補助的な気候変数、人口密度、高度、月(季節)に関するタスク固有の予測ヘッダーを作成することで、マルチタスク設定を明示的にしようと試みました。

6. プロトネットの改良

ジオセル内のモデルの推測をさらに洗練させ、街路および都市レベルでのパフォーマンスを向上させるために、研究者は ProtoNets を使用してジオセルの洗練を実行し、各セルのセル内洗練を個別の数回のショットの分類タスクとして扱いました。

OPTICS クラスタリング アルゴリズムは、minsample パラメータ 3、xi パラメータ 0.15 で再度使用され、ジオセル内のすべてのポイントをクラスタリングして、セル内分類設定で学習したカテゴリを提案します。

各クラスターは少なくとも 3 つのトレーニング サンプルで構成され、プロトタイプを形成します。プロトタイプの表現は、プロトタイプ内のすべての画像の埋め込みを平均化することによって計算されます。

ロサンゼルス大都市圏の ProtoNet クラスターの視覚化

プロトタイプ埋め込みを計算するには、ジオセル予測タスクと同じモデルが使用されますが、予測ヘッダーは削除され、すべての重みが固定されます。

推論中、まず新しい場所の埋め込みが計算され、平均化され、平均画像埋め込みと特定のジオセル内のすべてのプロトタイプ間のユークリッド距離が取得され、最小のユークリッド画像埋め込み距離を持つプロトタイプの場所が最終的なジオロケーション予測として選択されます。

実験結果

最も優れたパフォーマンスを示した PIGEON モデルは、国別精度 (政治的境界に基づく) が 91.96%、推測の 40.36% が正しい場所から 25 km 以内、キロメートル誤差の中央値は 44.35 km、GeoGuessr スコアの平均は 4525 を達成しました。

拡張データセットに対するマルチタスク モデルの結果は、モデルがストリート ビュー画像から地理的、人口統計的、地質学的特徴を推測できることを示しています。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

ロボット工学の未来:人間とロボットのコラボレーション

IoT テクノロジー、ロボット、人間が相互運用されると、高度なロボット機能が実現され、新しいアプリケ...

2022 年の AI 開発とイノベーションのトップ 10 トレンド

イノベーションは終わりがなく、人工知能(AI) などのテクノロジーが静かに世界を変えています。人工知...

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

アマゾンがホームロボット「Vesta」を開発、2019年に販売開始

海外メディアの報道によると、アマゾンのハードウェア研究開発部門Lab126は、「Vesta」(ヴェス...

建設業界はAIとIoTの次の大きなターゲット

建設業界は、革新、破壊、あるいは何と呼ぼうと、何らかの変化が起こりやすい時期にあります。以前にも書い...

...

興味深い微表情とAI技術

イギリスの企業が、人が正直に話しているかどうかを識別できるシステムを発明したと言われています。また、...

生成 AI: サイバーセキュリティにとってのメリットか、それとも危険か?

脅威の状況が絶えず変化する中、高度なサイバー攻撃に対する防御手段として、生成型人工知能 (GAI) ...

北京ユニサウンドオープンデー:フルスタックAIハードコアテクノロジーを公開

3月27日、2019 Unisound AIテクノロジーオープンデーの第一弾が北京で成功裏に開催され...

顔認識のために服を着る必要があるかどうかは激しい議論を巻き起こしたが、専門家は心配しすぎる必要はないと述べている。

[[410356]] 7月9日のニュース:最近、デジタルブロガーの@长安数码君はソーシャルプラット...

テンセントの高性能グラフコンピューティングフレームワークPlatoとそのアルゴリズムの応用

[[318509]]プラトンについてテンセントの高性能グラフコンピューティングフレームワークPlat...

...