AI画像検出器が再び攻撃を受けました! 最近、中東紛争の写真が大量にインターネット上に公開され、極限状況下での生活がいかに脆弱で無力であるかを世界に示しています。 その中には、「焼かれた赤ちゃん」の写真があり、それは信じられないほど残酷なものでした。 そこで、誰かが写真を AI 画像検出器に入れて、それが AI によって生成されたものかどうかを検出しました。 案の定、この写真は AI 検出器 Optic によって「AI 生成」であると識別されました。 4chanには、死体があったはずの場所に実際に犬がいたことを示す「オリジナルの写真」さえあった。 そこでネットユーザーたちは投稿者のツイートの下に怒りのメッセージを残し、AIで生成された写真を使って偽りの終末パニックを広めていると批判した。 この写真がAIによって生成されたことを示唆するこのツイートは、2日足らずで2100万回読まれた。 しかし、ネットユーザーはすぐに、同じ AI 検出器に写真を投入すると、検出結果が AI と人間の両方が関与してほぼランダムであることに気付きました。 同じ写真を切り抜いたり、背景を白黒にしたりすると、検出器は写真を人間が撮影したものと認識することを誰かが発見しました。 検出器が「コインを投げる」ときでも、コインが立ち上がることがあります... それで、この写真はAIによって生成されたのでしょうか? 最後に、公式AI検出器もこの事件についてツイートし、画像がAIによって生成されたかどうかを判断する方法はなく、皆が理性的に議論することを望んでいると述べた。 AI画像検出器はどの程度信頼性が低いのでしょうか?カリフォルニア大学バークレー校の教授であり、デジタル画像処理の世界的権威の一人であるハニー・ファリド氏は、この画像にはAIによって生成されたことを示すものは何もなかったと述べた。 「AI画像ジェネレーターの最大の問題の1つは、高度に構造化された形状と直線です」とファリド氏は言う。 「テーブルの脚やネジなどすべてが完璧に見える場合は、その画像が AI によって生成された可能性はほぼありません。」 たとえば、この有名な「スポンジ・ボブが9/1を創る」という写真では、窓の外のツインタワーの線がまっすぐではなく、飛行機のダッシュボードがねじれていて、とても「Aっぽい」感じがします。 「この写真では、物体の構造が正確で、影も正確で、アーティファクトがないことがわかります。そのため、この写真は完全に本物であるはずだと私は信じています」とファリド氏は語った。 ファリド氏は自身の他のAI画像検出器でもこの画像を特定し、他の4つのAI画像検出ツールもこの画像はAIによって生成されたものではないと結論付けた。 「AI検出器はツールではあるが、ツールキットの一部にすぎない」とファリド氏は言う。「画像全体に対して一連のテストを実行する必要がある。ボタンを押すだけで答えが得られるわけではない」 AI検出ツールOpticは、独自の検出技術の具体的な詳細は明らかにしなかった。 Optic の Web サイトには、「AI 検出器は不正確な結果を生成する可能性があります」とも記載されています。 AI画像検出技術ファリド教授は昨年、AI画像生成ツールによって生成された画像の一貫性を判断する方法を紹介した論文を執筆した。 画像の一貫性を判断することで、その画像が AI によって生成されたものかどうかを判断するのに役立ちます。 論文リンク: https://arxiv.org/abs/2206.14617?ref=404media.co 教授はまず、関連する物理学に基づく 3 つの分析モードの概要を説明します。それぞれの分析モードは、画像形成プロセスに固有の同じ基本的な遠近法の幾何学原理を活用しています。 消失点
図1(a)のタイルの間の線は平行です。画像化すると、これらの線はすべて消失点に収束します。シーン内の平行線がカメラから遠ざかる方向に移動すると、消失点が存在します (消失点は画像の外側に出る場合もあります)。 シーン内の平行線が奥行き方向に後退しない場合、つまり、平行線がレンズ センサーに対して (どの距離でも) 完全に平行である場合、平行線は平行線として画像化され、実用上、消失点は無限遠にあると見なすことができます。この幾何学は透視投影の基本から派生したものです。 透視投影では、シーン内の点 (X、Y、Z) が点 (f X/Z、f Y /Z) に投影されます。ここで、f はレンズの焦点距離です。 画像内の点の位置は距離 Z に反比例するため、投影された点は距離の関数として圧縮され、画像内の線が収束します。 2. 平行平面上の平行線は同じ消失点に収束する 図1(b)では、遠くにある箱が床のタイルと一直線になっており、箱の端がタイルの間の線と平行になっています。平行平面上の平行線は消失点を共有するため、箱の側面とタイル張りの床の消失点は同じになります。 3. 平面上のすべての直線の消失点は消失線上にあります。 平行線のグループは多数あり、各平行線のグループは図 1(c) に示すように異なる消失点に収束します。平行線のセットがシーン内の同じ平面にまたがる場合、それらの消失点は消失線上にあります。消失線の方向は、平行線が張る平面に対するレンズの回転によって決まります。 影少し意外なことに、消失点の背後にある同じ幾何学は影を落とすことにも当てはまります。 上の画像は、ボックス上の点とそれに対応する影上の点を結ぶ 3 本の光線を示しています。画像の境界を拡大すると、シーンを照らす光源の影に対応する点で 3 つの光線が交差していることがわかります。 影、物体、光に関するこの幾何学的制約は、光源が近くにあるか (デスク ランプ)、遠くにあるか (太陽) に関係なく適用され、影が投影される表面の位置と方向に関係なく適用されます。 もちろん、この分析では、オブジェクトごとに 1 つの影しか存在しないことから明らかなように、シーンが 1 つの主要光源によって照らされていると想定しています。 上記の例では、シーンを照らす光源はレンズの前にあるため、光源の投影は画像平面の上半分にあります。 ただし、光がレンズの後ろにある場合、光源の投影は画像平面の下半分に配置されます。この反転のため、オブジェクト制約の影も反転する必要があります。 したがって、画像のキャストシャドウ分析では、次の 3 つの可能性を考慮する必要があります。 (1)光はレンズの前に位置し、光源の投影は画像平面の上半分に位置し、制約は投影された影に固定され、物体を囲みます。 (2)光はレンズの後ろにあり、光源の投影は画像平面の下半分にあり、制約は物体に固定され、投影された影を囲みます。 (3)光線はレンズの中心の真上または真下にあり、光源の投影は無限遠にあり、制約は無限遠で交差する。これらのケースのいずれかがすべての制約の共通の交差をもたらす場合、影を落とすことは物理的に妥当です。 反射下の図 2 に示すシーンは、平面鏡に映った 3 つのボックスです。 図の下部は、実際の箱と仮想の箱の間の幾何学的な関係を示しています。 オレンジ色の線は、2 つのボックス セットの中間にあるミラーを表します。黄色の線は、実際のボックスと仮想ボックス上の対応する点を結びます。これらの線は互いに平行であり、鏡に対して垂直です。 ここで、これらの平行線がシーンに重ね合わされたときにどのように表示されるかを考えてみましょう。鏡面から見たときに平行だった線は、平行ではなくなります。代わりに、透視投影により、これらの平行線は、世界内の平行線が消失点に収束するのと同じように、1 つの点に収束します。 シーン内の対応する点とその反射を結ぶ線は常に平行であるため、物理的に妥当であるためには、これらの線が画像内で共通の交点を持つ必要があります。 分析例上の図 3 は、床とカウンタートップの幾何学的遠近法の一貫性を分析した、AI 合成画像の代表的な例 3 つを示しています。 各画像は、一貫した消失点 (青でレンダリング) によって証明されるように、タイルの床の遠近法の形状を (数ピクセル以内で) 正確に捉えています。ただし、平行メサの消失点 (シアン色で表示) は、メサの消失点と幾何学的に一致していません。 対応する配置タイル。カウンタートップがタイルに平行でない場合でも、シアン色の消失点は、タイルの床の消失点によって定義される消失線 (赤でレンダリング) 上にある必要があります。図 3 の右上の画像では、タイルの床の水平線がほぼ平行であるため、対応する消失点は無限遠にあり、交差しないことに注意してください。 これらの画像内の消失点は局所的には一貫していますが、全体的には一貫していません。 25 枚の複合キッチン画像のそれぞれに同じパターンが見つかりました。 上の画像はプロンプトワードを使用して生成された正方形の画像であり、影の部分で矛盾が明らかです。 上の図 8 は、かなり正確に見える反射を含む AI 生成画像に幾何学的分析を適用した結果を示しています。 これらの反射は視覚的には意味をなしますが、幾何学的には一貫していません。 前のセクションの影やジオメトリとは異なり、DALL·E-2 では、おそらくそのような反射がトレーニング画像データセットではあまり一般的ではないため、妥当な反射を合成することが困難です。 AI 生成画像の限界を理解した上で、画像の一貫性をテストすることは、画像が AI によって合成されたものかどうかを判断するのに非常に役立ちます。 画像認識は難しいが、AIはAIに勝つAI 画像ジェネレーターは常に進化しています。 今年の前半、Midjourney は非常に人気を博し、多くの人を騙すほどリアルな画像を生み出すことができました。 86歳の教皇は、白いメロン型の帽子、裾が広がった白いダウンジャケット、金属製の十字架のネックレスを身に着け、真剣な表情を浮かべていた。 当時、この写真が公開されると、ソーシャルメディア上では皆が騙され、多くのネットユーザーによって熱狂的に転送された。教皇がかっこよすぎると言う人もいた。 誰もがそれを信じていたとき、突然誰かがそれがAIによって生成されたものであると指摘し、多くの人が驚愕しました。 これはほんの一例です。他にもマスク氏の新しい恋人であるGMのCEOバラ氏の写真など、本物と見分けがつかないほどリアルな偽写真もいろいろ出回っています。 この事件は、マスク氏やアップルの共同創業者スティーブン・ウォズニアック氏などのテクノロジーリーダーがAIの研究開発の停止を求める直接的なきっかけとなった。 AI 生成は楽しくて便利ですが、業界全体にリスクをもたらします。 慎重に取り扱わないと、悪意のある人がそれを利用して虚偽の情報を流布したり、知的財産権を侵害したり、「ヌード写真」を作成したりする可能性があります。 今後数か月以内に、Midjourney は最新バージョンの V6 をリリースする予定です。現在のバージョン V5 は、画像生成のリアリティの点で非常に完璧な結果を達成しました。 他の AI 画像ジェネレーターも急速に進化しています。少し前に、OpenAI が DALL·E 3 をリリースしたばかりで、同時に Microsoft Bing の画像生成でも DALL·E 3 が使用されました。 もちろん、研究者たちは画像を識別できるツールの構築にも熱心に取り組んでいますが、鍵となるのは、AI 画像ジェネレーターの継続的なアップグレードのペースにどう追いつくかということです。 AI検出ツールコンペティション現在、画像が AI によって生成されたものかどうかを識別するツールを提供する企業は 10 社以上あります。その名前には、Sensity AI (ディープフェイク検出)、Fictitious.AI (盗作検出)、Originality.AI などがあります。 人工知能の信頼と安全を追求する企業 Optic が、「AI or Not」ウェブサイトを立ち上げました。 このウェブサイトでは、写真をアップロードしたり、画像の URL を貼り付けたりすることができ、その写真が AI によって生成されたものかどうかをウェブサイトが自動的に判断します。アップロードできる画像の数に制限はありません。 あるいは、Optic の Twitter アカウント @optic_xyz から画像を投稿またはリツイートしたり、#aiornot を使用して画像の信頼度パーセンテージを返信で受け取ったりすることもできます。 オプティックのAIツールは、画像の明るさや色の変化など、人間の目には見えないアーティファクトがないか各画像をチェックできると、同社のCEO、アンドレイ・ドロニチェフ氏は語った。 驚くべきことに、このツールの精度は 95% です。 しかし、MidjourneyなどのAI画像生成ツールのアップグレードと反復により、「AI or Not」の精度は88.9%に低下しました。 たとえば、この教皇の写真については、AI はそれが人間によって撮影された可能性が 87% あると考えています。 Optic のアップデート前に、白いダウンジャケットを着た教皇の画像が騙された 実際、一部のネットユーザーは、この画像をよく見ると、明らかにぼやけた細部を含む、人工知能生成の明らかな兆候が見つかるだろうと述べています。 - 側面に汚れがあり、コーヒーカップらしくない何かをつかもうとする不完全な手 - 教皇が身に着けている十字架も直角ではなく、粘土で彫られた座ったイエスの姿が描かれています。 - メガネと顔の影が一致していない これらすべての点は、これが人工知能によって生成されたことを示しています。それは現実の表面だけを理解しており、物理的な物体が互いにどのように相互作用するかを規定する基本的なルールを理解していません。 Optic のツールに加えて、コンテンツにタグを追加する人工知能企業である Hive も、最近、独自の無料の AI 生成コンテンツ検出器を更新しました。 AI ツールは、DALL-E、Stable Diffusion、Midjourney からの何百万もの画像でトレーニングされました。 Hive は、AI が生成した画像、特にオンラインで共有されて広まった画像の約 95% を正確に検出でき、その精度は他の画像認識方法よりも優れていると見積もっています。 CEOのケビン・グオ氏は、人々がAI画像を共有する際、最もリアルな偽画像を選択するため、何が本物か見分けるのが困難になると述べた。 左の画像はAIが生成した画像で、2本の指と奇妙なハイタッチで判別できますが、右には普通のiStockの写真での実際の姿が表示されています。 Optic と同様に、Hive も Bing Image Creator からの画像を検出できませんでした。 しかし、これらの検出ツールは静止しているわけではなく、AI画像統合モデルの反復により、更新およびアップグレードされます。 実際、AI 画像認識は業界の検出ツールだけに頼るだけでは実現できず、モデルのトレーニング中にガードレールを設定する必要があります。 多くの AI 画像ジェネレーターは、特定のコンテンツの生成を制限する「ブラックリスト」の対象にもなります。 たとえば、Bing Image Creator は、著名人の画像を作成するように求めるユーザー プロンプトにフラグを付けてブロックします。 Midjourney には「人間のモデレーター」がおり、ユーザーのリクエストをアルゴリズムでモデレートする方法を展開しています。 DALL·E 3 技術レポートでは、ChatGPT に「フルーツの写真」や黒人と白人の人物が写っている写真を生成するように指示すると、入力プロンプトが直接書き換えられることも紹介されています。 AIに透かしを追加する、大企業が実行中さらに、電子透かしも生成AIのセキュリティを強化する重要な手段の1つです。マイクロソフトやグーグルなどのテクノロジー大手はすでに自社製品に電子透かしを使用しています。 9 月の Surface カンファレンスで、Microsoft は DALL E 3 を活用した Bing の画像生成機能を発表しました。 同時に、画像が悪用されないように、Microsoft チームは暗号化方式を使用して、作成日時を含む目に見えない透かしを各画像に生成します。 誰でも各画像をクリックして、それが AI によって生成されたものかどうかを簡単に識別できます。 Meta は、AI 生成画像にデジタル透かしを直接埋め込むことができる Stable Signature もオープンソース化しました。 論文アドレス: https://arxiv.org/pdf/2303.15435.pdf Stable Signature によって生成されたデジタル透かしは、切り取り、圧縮、色の変更などの破壊的な操作の影響を受けず、画像の元のソースまで遡ることができることは特筆に値します。 拡散、GAN、安定拡散などの他のモデルに適用できます。 Google Cloud Next で、Google は AI 生成画像に透かしを入れたり、検出したり、識別したりできる SynthID もリリースしました。 SynthID は、透かし入れ用と識別用の 2 つのディープラーニング モデルを使用します。異なる画像セットで一緒にトレーニングできます。 統合モデルは、透かし入りコンテンツを正しく識別したり、透かしを元のコンテンツと直感的に一致させることで透かしのステルス性を向上させるなど、さまざまな目的に合わせて最適化されています。 SynthID によって生成されたデジタル透かしは、画像のピクセルに直接埋め込まれ、人間の目には認識されません。しかし、SynthID はそれらを検出し、識別することができます。 SynthIDは、画像がImagenによって作成された可能性を評価するのに役立ちます。 カリフォルニア大学リバーサイド校の電気・コンピュータ工学教授アミット・ロイ・チョウドリー氏は、画像の背景をよく観察することで、偽造画像を自分の目でよりよく見分けることができると語った。 しかし、AI モデルの反復が加速する中、「鷲の目と金の瞳」を持つことは非常に困難です。 |
<<: インターネットで話題! 23歳の中国人医師が22歳の歴史的弱点を治す、ネットユーザー「この話はいいね」
>>: CityDreamer: ワンクリックで境界のない 3D 都市を生成
最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...
7月21日、鄭州市の西40キロにある米河鎮は停電、インターネット、道路が遮断され、完全な情報孤島とな...
最近、一部のネットユーザーは、ファッションブランドSELECTEDがWeChat公式アカウントでMi...
[[220444]]この記事では、TensorFlowの例をいくつか見て、テンソルテンソルまた、テン...
Chen Danqi のチームは、新しい LLMコンテキスト ウィンドウ拡張メソッドをリリースしまし...
7月6日、ChatGPTの人気が衰えの兆しを見せていると報じられた。分析会社Similarwebの...
[[427464]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[421393]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
ディープラーニングの歴史において、ニューラルネットワーク方式が有効になり始めたのは1980~1990...
[[280280]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
[[184562]]企業への人工知能の浸透はまだ始まったばかりですが、すでにビジネスリーダーたちは...
ビッグデータ、クラウド コンピューティング、高度なアルゴリズムという 3 つの主要なトレンドのユニー...