Nature 誌に「なぜディープラーニング システムは騙されやすいのか?」という記事が掲載されました。

Nature 誌に「なぜディープラーニング システムは騙されやすいのか?」という記事が掲載されました。

数枚のステッカーで交通標識の認識結果が「変わる」ことがあり、方向を変えると写真に写っている動物の種類が見えなくなる。今日の人工知能システムには不可解なバグがよくある。 Nature 誌の最新号に掲載されたこの記事では、ディープラーニングがなぜエラーを起こしやすいのか、そしてこれらの問題を解決するための研究の方向性について紹介しています。

自動運転車は一時停止の標識に近づいたときに停止する代わりに、混雑した交差点に加速して進入した。事故調査報告書によると、一時停止標識の表面に4つの小さな長方形が付いていたため、車がこのような判断を下したとのことだ。このように自動運転車は一時停止の標識を「制限速度45」と認識します。

この事件はまだ実際に起こっていませんが、AI システムが意図的に妨害される可能性は現実的です。一時停止標識にラベルを貼ったり、帽子やメガネにステッカーを貼ったりすれば、自動運転システムや顔認識システムを騙すことができる。研究者の中には、ホワイトノイズを使って音声認識システムを騙した人もいる。

これらの事例は、最先端の AI パターン認識システムであるディープ ニューラル ネットワークを騙すのがいかに簡単であるかを示しています。これらのシステムはすでに私たちの生活に浸透していますが、入力にわずかな変更を加えるだけで、最も優れたニューラル ネットワークでも騙される可能性があります。

研究者たちは問題を調査する中で、DNN が失敗する多くの理由を発見しました。 「ディープニューラルネットワークの本質的な脆弱性は修正できない」とグーグルのAIエンジニア、フランソワ・ショレ氏は言う。これらの欠点を克服するには、研究者はパターンマッチングDNNを他の機能で強化する必要があるとChollet氏らは考えています。たとえば、AIが独自に世界を探索し、独自のコードを書き、記憶を保持できるようにするなどです。一部の専門家は、今後 10 年間、このようなシステムが AI 研究の焦点になると考えています。

現実を受け入れよう

2011年、Googleは猫を認識できるシステムを発表し、DNN分類システムの研究ブームを引き起こしました。人々は叫びました。「コンピューターはついに世界を理解できるようになった!」

しかし、AI 研究者は、DNN が実際には世界を理解していないことを知っています。これらは脳の構造を大まかに模倣しており、実際には多くの層に分散されたデジタルニューロンで構成されたソフトウェア構造です。各ニューロンは隣接する層のニューロンに接続されています。

基本的な考え方は、生の入力の特徴 (画像のピクセルなど) が最下層に入り、いくつかのニューロンをトリガーし、その後、単純な数学的ルールに従って上層のニューロンに信号を渡すというものです。 DNN ネットワークをトレーニングするには、ネットワークを多数のサンプルにさらし、そのたびにニューロン間の接続を調整する必要があります。そうすることで、DNN がライオンの写真を見たことがない場合でも、上位層が最終的に目的の回答 (ライオンの画像をライオンとして識別するなど) を取得できるようになります。

DNN の最初の大規模なテストは 2013 年に実施されました。当時、Google の研究者である Christian Szegedy 氏とその同僚は、「ニューラル ネットワークの興味深い特性」と題するプレプリント論文を発表しました。研究チームは、いくつかのピクセルを変更することで、DNN を騙してライオンを図書館などの他の物体として識別できることを示した。彼らは修正された画像を「敵対的サンプル」と呼んでいます。

1年後、クルーン氏らが率いるチームは、波線の中のペンギンなど、そこに存在しない物体をDNNに認識させることが可能であることを示しました。 「機械学習に携わったことのある人なら誰でも、こうしたシステムが愚かなミスを犯すことが多いことを知っています」とベンジオ氏は言う。「しかし、このようなミスは驚きであり、予想外でした。」

新しいタイプのエラーが常に発生します。昨年、グエン氏は、物体を単に回転させるだけで、現在の最も優れた画像分類器の多くを打ち負かすことができることを実証した。今年、ヘンドリックスらは、改変されていない自然画像であっても、現在最も優れた分類器を騙してキノコをクッキーと識別させることができると報告した。

この問題は物体認識に限ったことではありません。強化学習を使用するゲーム AI など、入力を分類するために DNN を使用する AI は騙される可能性があります。強化学習では、画面上にランダムなピクセルをいくつか追加すると、エージェントがゲームに負ける可能性があります。

DNN の脆弱性により、ハッカーが AI システムを乗っ取る機会が生じる可能性があります。昨年、Google のチームは、敵対的サンプルを使用すると、DNN に特定の誤った決定を強制できるだけでなく、プログラムを完全に変更して、トレーニング済みの AI システムを別のタスクに効果的に再利用できることを示しました。

多くのニューラル ネットワークは、理論的には他のコンピュータ プログラムをエンコードするために使用できます。 「理論上は、チャットボットを何にでも変えることができます」とクルーネ氏は言う。彼は、ハッカーがクラウド内のニューラルネットワークを乗っ取り、独自のスパム回避アルゴリズムを実行できるようになる日がそう遠くないだろうと予想している。

カリフォルニア大学バークレー校のコンピューター科学者であるドーン・ソング氏は、DNN は攻撃するのは簡単だが、防御するのは非常に難しいと考えています。

力が大きければ大きいほど、脆弱性も大きくなる

DNN は多くのレイヤーを持つため非常に強力であり、入力内のさまざまな特徴的なパターンを認識できます。トレーニング後、航空機の識別に使用される AI アルゴリズムは、予測されたターゲットに関連するカラー ブロック、テクスチャ、背景などの要素を見つける場合があります。しかし、これは入力内容の小さな変化が AI の認識結果に大きな変化をもたらす可能性があることも意味します。

解決策の 1 つは、エラーを修正するために、AI にさらに多くのデータ、特にエラーが発生するトレーニング ケースをさらに入力することです。この「敵対的トレーニング」シナリオでは、1 つのネットワークがオブジェクトを認識することを学習し、別のネットワークが最初のネットワークの出力を変更してエラーを作成しようとします。このようにして、敵対的サンプルは DNN トレーニング データの一部になります。

Hendrycks などの研究者は、さまざまな敵対的サンプルで DNN のパフォーマンスをテストし、DNN の間違いに対する堅牢性を定量化することを提案しました。彼らは、ニューラル ネットワークを 1 つの攻撃に抵抗するようにトレーニングすると、他の攻撃に対する抵抗力が弱まる可能性がある一方で、堅牢な DNN は入力の小さな変動に応じて出力を変更しないはずであることを示しました。摂動によって最終結果が変化するというこの特性は、数学的なレベルでニューラル ネットワークに導入される可能性があり、DNN の学習方法を制限します。

しかし、当時は、すべての AI が脆弱であるという問題を解決できる人は誰もいませんでした。ベンジオ氏によると、問題の根本は、ディープニューラルネットワークには重要なものを選択するための適切なモデルがないことだ。 AI がライブラリに加工されたライオンの画像を見ると、人間は依然としてライオンとして認識します。なぜなら、人間は、その動物が耳、尾、たてがみなどのより高次の特徴を持っていると認識するメンタルモデルを持っているからです。その他の低レベルの詳細は無視されます。 「事前の知識を学習することで、どのような特徴が重要かが分かります」とベンジオ氏は言う。「そしてそれは、構造化された世界に対する深い理解から生まれます。」

この問題に対処するための 1 つの試みは、DNN とシンボリック AI を組み合わせることです。シンボリック AI は、機械学習以前の人工知能の主な方法でもありました。シンボリック AI を使用すると、マシンは、世界がさまざまな方法で相互に関連する個別のオブジェクトで構成されているなど、世界がどのように機能するかについてのハードコードされたルールを使用して推論できます。ニューヨーク大学の心理学者ゲイリー・マーカス氏など一部の研究者は、ハイブリッド AI モデルこそが今後の方向性であると主張している。 「ディープラーニングは短期的には非常に便利なので、人々は長期的な視点に目を向けていない」と、現在のディープラーニング手法に批判的なマーカス氏は言う。

5月、彼はカリフォルニア州パロアルトでRobust AIというスタートアップ企業を共同設立した。同社はディープラーニングとルールベースのAI技術を組み合わせて、人間と一緒に安全に動作できるロボットを開発することを目指している。同社が行っている業務は機密事項となっている。

たとえルールを DNN に埋め込むことができたとしても、そのルールの良し悪しは学習の良し悪しによって決まります。ベンジオ氏は、AIエージェントはより豊かで探索可能な環境で学習する必要があると述べた。たとえば、ほとんどのコンピューター ビジョン システムは 2D 画像データセットでのみトレーニングされているため、ビール缶が円筒形であることを認識できません。そのため、グエン氏のような研究者は、物体をさまざまな角度から観察することで DNN を騙すことができることを発見しました。

しかし、AI の学習方法も変更する必要があります。 「因果関係を理解するには現実世界でいくつかのタスクを実行する必要があり、エージェントは現実世界で実験し、探索することができる」とベンジオ氏は語った。パターン認識は、アリババ、テンセント、アマゾン、フェイスブック、グーグルなどの企業を世界で最も価値のある企業にするほど強力だと、ディープラーニングのもう一人の先駆者であるユルゲン・シュミットフーバー氏は語った。 「しかし、現実世界を操作し、自らの行動を通じて独自のデータを作成するエージェントの波がさらに大きくなるだろう」と彼は語った。

ある意味、これはすでに強化学習が人工的な環境でコンピュータゲームを解決するために使用されている方法です。試行錯誤を通じて、エージェントはルールで許可されている方法で画面上のピクセルを操作し、ゴールに到達します。しかし、現実の世界は、現在ほとんどの DNN がトレーニングされているシミュレートされた環境やデータセットよりもはるかに複雑です。

即興ロボット

以下に示すように、カリフォルニア大学バークレー校の研究室ではロボットアームが残骸をかき回しています。赤いボウルを手に取り、それを使って青いオーブンミットを数センチ右に押します。ボウルを置き、空のプラスチック製のイジェクターを取り上げ、ペーパーバックの重さと形状を評価しました。数日間のスクリーニングの後、ロボットはこれらの見慣れない物体に対する感覚を発達させ、それが何に使われるかを理解し始めました。

ロボットアームはディープラーニングを使用してツールの使い方を自ら学習します。物体のトレイが与えられると、ロボットは各物体を順番に拾い上げて観察し、物体を動かしたり、ある物体を別の物体にぶつけたりしたときに何が起こるかを観察します。

研究者らは、ほぼ空のトレイの画像を示すなどの目標をロボットに与え、その状態に合わせて物体を配置するようロボットに指示した。これにより、ロボットはこれまで見たことのない物体と対話し、スポンジでテーブルから物体を拭くなどの即興的な動作を行うことができます。ロボットはまた、邪魔になっている物体を直接拾い上げるよりも、プラスチックの水差しを使って取り除く方が速いことも認識します。

バークレー研究所の研究者であるチェルシー・フィン氏は、この種の学習によって AI が物体や世界全般についてより深く理解できるようになると考えている。これまでやかんやスポンジを写真でしか見たことがなかったとしても、他の画像ではそれらを認識できるかもしれません。しかし、それらが何であるか、何に使用されるかを実際に理解することはできません。したがって、実際に彼らと関わることでのみ、彼らをより深く理解することができるとフィン氏は言います。

しかし、この学習プロセスは遅いです。シミュレートされた環境では、AI は非常に迅速に例を処理できます。たとえば、2017 年には、DeepMind の AlphaZero 自己学習型ゲーム プレイ ソフトウェアが、囲碁、チェス、将棋で優位に立つようにトレーニングされました。その時点で、AlphaZero は各トーナメントに向けて 2,000 万回以上のトレーニング ゲームをプレイしていました。

AI ロボットがこの能力を習得するのは遅いです。 AI・ロボット企業アンビデクストラスの共同創業者ジェフ・マーラー氏は、ディープラーニングの分野では、ほぼすべての結果が大量のデータに大きく依存していると語った。 「1 台のロボットで数千万のデータ ポイントを収集するには、何年もかかるでしょう」と彼は言います。さらに、センサーのキャリブレーションは時間の経過とともに変化し、ハードウェアは劣化するため、データは信頼できない可能性があります。

その結果、ディープラーニングを伴うロボット工学の作業のほとんどでは、トレーニングを高速化するために依然としてシミュレートされた環境が使用されています。何を学べるかはシミュレーターの性能次第だと、アトランタのジョージア工科大学でロボット工学の博士課程に在籍するデビッド・ケント氏は言う。シミュレーターは常に改良されており、研究者は仮想世界から学んだ教訓を現実世界へ応用する能力を高めています。しかし、このようなシミュレーションでは現実世界の複雑さにはまだ対応できません。

フィン氏は、ロボットを使った学習は、最終的には人間のデータを使った学習よりも拡張しやすいと考えています。彼女の道具を使うロボットは、広範囲にわたる監視なしに、数日で比較的単純なタスクを学習しました。 「ロボットを動かして、時々チェックするだけです」と彼女は言う。彼女は、世界中のあらゆる場所にロボットがいて、24時間学習する日を想像している。これは可能であるはずです。結局のところ、それが人々が世界を理解する方法なのです。 「子どもはフェイスブックからデータをダウンロードしても学習できない」とシュミットフーバー氏は言う。

少ないデータから学ぶ

子どもはいくつかのデータポイントから新しい物体を認識できることを指摘しておくことが重要です。たとえキリンを一度も見たことがなくても、一度か二度見ればキリンを認識できる可能性があります。識別がこんなに早かった理由の一つは、子供がキリン以外にも多くの生き物を見ており、その特徴をよく知っていたからである。

AI にこれらの機能を与えることを一般的に「転移学習」と呼びます。転移学習とは、以前のトレーニングで得た知識を他のタスクに転移することです。転移を実現する 1 つの方法は、新しいタスクのトレーニング時に、事前トレーニング タスクのすべてまたは一部を開始点として再利用することです。たとえば、すでに 1 種類の動物を認識するようにトレーニングされている DNN の一部 (基本的な体の形を認識するレイヤーなど) を再利用すると、新しいネットワークがキリンを認識することを学習するときに有利になります。

転移学習の極端な形態は、少数の例 (場合によっては 1 つの例だけ) を示すことによって新しいネットワークをトレーニングすることを目的としています。このタイプの既知のワンショット学習または少数ショット学習は、事前にトレーニングされた DNN に大きく依存しています。たとえば、犯罪者データベース内の人物を識別できる顔認識システムを構築する場合、数百万の顔 (必ずしもデータベース内の顔とは限りません) を含む DNN を使用すると、認識システムが鼻やあごの形などの重要な特徴を学習するのに役立ちます。

したがって、このような事前トレーニング済みのメモリを持つことで、AI は多くのパターンを見なくても新しい例を認識できるようになり、ロボットの学習を高速化できます。ただし、このような DNN は、経験外のタスクではパフォーマンスが低下する可能性があります。これらのネットワークがどの程度一般化できるかについても不明です。

たとえば、DeepMind の AlphaZero などの最も成功した AI システムは、専門知識が極めて限られています。 AlphaZero は囲碁とチェスの両方をプレイするようにトレーニングできますが、両方を同時に行うことはできません。

学び方を学ぶ

AlphaZero がゲームプレイの世界で成功したのは、効果的な強化学習だけでなく、AlphaZero が次の選択肢を絞り込むのに役立つアルゴリズム (モンテカルロ ツリー検索手法のバリエーションを使用) のおかげでもあります。言い換えれば、AI は環境から最も効果的に学習する方法を学習します。ショレット氏は、AI の次の大きな進歩は、人間が提供するコードを使用するだけでなく、DNN に独自のアルゴリズムを作成する能力を与えることだと考えています。

ショレット氏はまた、基本的なパターンマッチングに推論機能を補うことで、AIが自分の快適領域外の入力をより適切に処理できるようになると述べた。コンピュータ科学者は長年にわたりプログラム合成を研究しており、コンピュータがコードを自動的に生成できるようにしています。そのため、彼の見解では、この分野をディープラーニングと組み合わせることで、人間が使用する抽象的なメンタルモデルに近い DNN システムを生み出すことができる可能性がある。

たとえばロボット工学では、Facebook AI Research Institute (FAIR) のコンピューター科学者である Kristen Grauman 氏が、ロボット自身に新しい環境を最も効果的に探索する方法を教えています。

この分野の研究者らは、ディープラーニングの欠陥を修正する上である程度の進歩があったと述べているが、DNNの脆弱性を軽減するための新しい技術も研究している。ソン氏は、ディープラーニングの背後には理論はあまり存在しないと考えています。何かが壊れた場合、その理由を突き止めるのが難しい場合があります。この分野全体はまだ大部分が経験的なので、研究者は自分で解明しようとしなければなりません。

現在、科学者たちは DNN の脆弱性とデータへの過度の依存を認識していますが、ほとんどの科学者は DNN テクノロジーは今後も存在し、発展し続けると考えています。約 10 年間にわたり、ニューラル ネットワークは、膨大なコンピューティング リソースと組み合わせることで、トレーニングを受けたときにパターンを認識する能力がかなり向上していることを認識することが重要です。残念ながら、DNN テクノロジーを改善する方法を本当に知っている人は誰もいない、と Clune 氏は考えています。

<<:  専門家は「人工知能+教育」は慎重に扱うべきだと考えている

>>:  KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

ブログ    
ブログ    

推薦する

iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

ビジネスが発展し、テクノロジーが成熟するにつれて、企業はデータの大幅な増加に直面しています。ビッグデ...

推奨アルゴリズムコレクション(パート2) - SVDとCB

[[331259]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事でレコメンデー...

北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

1. 人工知能搭載のアイスクリームセルフサービス機が北京でデビューDairyXmas AI人工知能ア...

Galaxy Water Dropsが中関村フロンティアコンテストの人工知能分野でトップ10入りを果たす

10月21日、2020年全国大衆起業・イノベーション週間の北京会場である2020年中関村国際フロンテ...

6種類の負荷分散アルゴリズムの概要

C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

今後10年間で世界を変える人工知能の4つの主要な発展トレンドの分析61歳のビル・ゲイツ氏は大学卒業生...

マインドコントロールが現実に:話したり手を動かさずに、ただ横たわっているだけでゲームをプレイできる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

機械学習における 5 つの現実的な問題とビジネスへの影響

今日、多くの企業は大量のデータを迅速に処理する必要があります。同時に、競争環境は急速に進化しているた...

一枚の写真で3D顔モデリングを実現!中国科学院の博士課程学生による ECCV に関する新たな研究 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

エッジAIの進歩が次世代ドローンのイノベーションをどう推進するか

ここ数年、ドローンをめぐる革新は数多くありました。 いくつかの企業はすでに、荷物や食品の配達のほか、...

...

...

...