一枚の紙で AI を騙せる。これが OpenAI の最も先進的な視覚モデルでしょうか?

一枚の紙で AI を騙せる。これが OpenAI の最も先進的な視覚モデルでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

今年初め、OpenAI は最新の AI ビジョン モデル CLIP をリリースしました。

まだ印象に残っている方も多いと思いますが、CLIP は膨大なデータセットで学習した結果、画像とテキストの認識や融合において驚くべき表現力を発揮しました。

たとえば、「ショックを受けた」というテキストを入力すると、AI は「見つめている」という主要な特徴を通じてそれを正確に提示し、テキスト、顔、ロゴなどの他のテキスト情報に基づいて新しい画像にマージします。

人間にとっては、キーワード理解を通じて新しいイメージを説明することは難しくないかもしれませんが、AIにとっては、テキスト認識や画像認識など、非常に高い視覚認識・理解能力が必要です。したがって、CLIP モデルは、既存のコンピューター ビジョン研究の最高レベルを表していると言えます。

しかし、画像とテキストの両方の認識機能を備えたこの AI は、「紙」の前では失敗しました。

どうしたの?

AI に騙され、「Apple」が「iPod」に

最近、OpenAIの研究チームがテストを実施し、CLIPは「不快な画像」によって簡単に誤解される可能性があることを発見しました。

テストは次のようなものでした。研究者は CLIP に次の画像 (左) を入力しました。

AIはそれがリンゴであると認識しただけでなく、その品種である「グラニースミス」も表示しました。

しかし、研究者がリンゴの上に「iPod」と書かれた紙を置くと、AIは本当に誤認しました。右の写真に示すように、そのiPod認識率は99.7%に達しました。

研究チームはこのタイプの攻撃を「プリント攻撃」と呼んでいる。彼らは公式ブログにこう書いている。「モデルの強力なテキスト読み取り能力を活用することで、手書きのテキストの写真でもモデルを騙すことができる。『敵対的パッチ』と同様に、この攻撃はワイルドなシナリオでも効果的だ」

ご覧のとおり、この印刷攻撃は実装が簡単で、ペンと紙のみが必要であり、大きな影響を与えます。別のケースを見てみましょう。

左の写真では、AIがプードルの識別に成功しました(認識率39.3%)。

しかし、右の写真のプードルに「$$$」の文字を複数追加したところ、AIはそれを貯金箱として認識しました(認識率52.5%)。

この攻撃が暗黙的である理由について、研究者らは、その鍵は CLIP のマルチモーダルニューロンにあると説明している。このニューロンは、テキスト、シンボル、概念の形で提示された同じ概念に反応することができる。

しかし、このマルチモーダルニューロンは諸刃の剣です。一方では、画像やテキストを高度に制御できます。他方では、テキストや画像全体にニューロンが分散しているため、AI への攻撃も容易になります。

「マルチモーダルニューロン」が根本的な原因

では、CLIP のマルチモーダルニューロンはどのようなものなのでしょうか?

以前、OpenAI の研究者は「人工ニューラル ネットワークにおけるマルチモーダル ニューロン」という新しい論文を発表し、CLIP を有効にしてそのパフォーマンスを観察する方法を説明しました。

OpenAI は、モデルの活性化を理解するために、特徴の視覚化 (入力に対して勾配ベースの最適化を実行してニューロンの活性化を最大化する) とデータセットの例 (データセット内でニューロンの活性化が最大になる画像の分布を観察する) という 2 つのツールを使用します。

OpenAI は、これらの単純な方法を使用して、CLIP RN50x4 (EfficientNet スケーリング ルールを使用して 4 倍にスケールアップされた ResNet-50) のほとんどのニューロンを説明できることを発見しました。これらのニューロンは「多面体ニューロン」の極端な例のように見えます。つまり、より高い抽象レベルでのみさまざまなユースケースに応答します。

さらに、物体の画像だけでなく、スケッチ、漫画、関連するテキストにも反応します。例えば:

CLIP の場合、スパイダーマンの画像を認識するため、ネットワーク内にはスパイダーマンの実際の画像、漫画本の画像、さらに「スパイダー」という単語に反応できる特定の「スパイダーマン」ニューロンがあります。

OpenAI チームは、AI システムも人間と同じようにこの知識を内面化できる可能性があることを示しました。 CLIP モデルは、将来 AI がより複雑な視覚システムを形成し、より複雑なターゲットを識別することを意味します。しかし、これはまだ初期段階です。今では、誰かが「iPod」という言葉が書かれたメモを Apple に貼り付けても、CLIP のようなモデルではそれを正確に識別することはできません。

この場合、CLIP は貯金箱の画像だけでなく、一連のドル記号にも反応しました。上記の例のように、チェーンソーの上に「$$」という文字列を重ねると、CLIP にそれを貯金箱として認識させることができます。

注目すべきは、CLIP のマルチモーダルニューロンの相関バイアスは主にインターネットから取得したデータから学習されたことです。研究者らは、このモデルはインターネットデータの厳選されたサブセットで訓練されたが、それでも制御されていない関連性の多くを学習したと述べた。これらの関連性の多くは良性ですが、悪性のものもあります。

たとえば、テロリズムは「中東」ニューロンと関連付けられ、ラテンアメリカは「移民」ニューロンと関連付けられます。さらに悪いことに、肌の色が黒い人やゴリラに関連付けられているニューロンが 1 つあります (これも米国では人種差別の原因となります)。

これらの偏見や有害な関連付けは、微調整設定とゼロショット設定の両方でシステム内に残る可能性があり、展開中に目に見える形とほとんど目に見えない形の両方で現れます。多くの偏った行動は事前に予測することが難しいため、その測定と修正が困難になります。

商用製品には導入されていない

マシンビジョンモデルは、コンピュータを使用して人間の視覚機能を実現し、コンピュータが客観的な世界の3次元シーンを認識、識別、理解する能力を持つことを目的としています。自動運転、工業製造、セキュリティ、顔認識など、現実世界での幅広い応用シナリオがあることは想像に難くありません。

いくつかのシナリオでは、特に自動運転の分野では、マシンビジョンモデルの精度に対する要件が非常に高くなります。

例えば、イスラエルのベングリオン・ネゲブ大学と米国のジョージア工科大学の研究者らは以前、テスラの自動運転システムのテストを実施した。彼らは道路脇の看板のビデオに「ハンバーガー攻撃画像」を追加し、滞留時間を0.42秒に設定した。

テスラ車がこの地点まで走行したとき、映像は一瞬しか流れなかったものの、テスラは「信号」を捉え、緊急ブレーキをかけた。このテストは、自動運転の視覚認識システムにはまだ明らかな抜け穴があることを意味している。

さらに、研究者らは、道路上に特定のステッカーを貼るだけで、テスラのオートパイロットソフトウェアを騙して警告なしに車線変更させることができることを明らかにした。

こうした攻撃は、医療から軍事まで、幅広い AI アプリケーションにとって深刻な脅威となります。

しかし、現時点では、この特定の攻撃はまだ制御可能な範囲内であり、OpenAI の研究者は、CLIP ビジョン モデルがまだ商用製品に導入されていないことを強調しています。

<<:  Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

>>:  「コーチ」はとても優しくて合格率も高いです!上海に「無人運転訓練」が登場。試してみませんか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020年グローバルNLP業界レポート:NLPテクノロジー予算が30%増加

2020 年は、公衆衛生、職業生活、経済、そして日常生活のほぼすべての側面にとって特別な年となりまし...

1 分以内に GPT アプリケーションを開発しましょう!さまざまな専門家が懸命に取り組んでおり、ネットユーザーは「ChatGPTは新しいiPhoneだ」と言っている

GPT はまだ正式にリリースされていませんが、誰かがすでに「先走って」いるのでしょうか? !ほら、社...

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

人工知能の発展は日々変化しており、特に生成型人工知能はテクノロジー業界で話題になっています。しかし、...

茅面映画の李明輝氏:興行収入予測における機械学習の実用化

[51CTO.comより引用] 近年、わが国の興行収入市場は飛躍的に成長し、2011年には150億ド...

...

マイクロソフト、警察への顔認識サポート提供を禁止される企業リストに加わる

マイクロソフトはIBMとアマゾンに続き、米警察への顔認識ソフトウェアの販売を停止した最新のテクノロジ...

...

...

魔法は魔法に勝る、AIデータにはAIソリューションが必要

Kompprise が委託した「非構造化データ管理の現状」調査によると、人工知能は IT およびビジ...

...

人力資源社会保障省:人工知能人材の不足は500万人を超える

最近、人力資源・社会保障省は、新しい職業である人工知能工学・技術人材の現在の雇用状況に関する分析レポ...

マイクロソフトは、Bingチャットのベテラン向けにエキスパートモードの導入を検討中:より複雑なUIとより豊富な機能

7月26日、マイクロソフト広告およびウェブサービスのCEOであるミハイル・パラキン氏は、ネットユーザ...

AI人材の確保をめぐる秘密の戦い:中国が勝利する可能性は?

[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...

130 の大学が人工知能専攻を追加。次の「陥没穴」専攻になるのでしょうか?

大学の専攻の盛衰は、時代の発展と技術の進歩を最もよく物語る証拠でもあります。今日のいわゆる「落とし穴...