GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

AIの世界はどのようなものになるのでしょうか?研究者たちは何十年もの間、これに困惑してきましたが、近年、機械視覚システムは生活のますます多くの分野で応用されています。しかし、機械の目を通して、歩行者をある道路標識または別の道路標識に分類する理由を理解することは、依然として課題となっています。 Google と OpenAI の新しい研究では、これらのシステムを使用して世界の視覚データを理解することで、AI のブラックボックスをさらに解明することを期待しています。 「アクティベーション・アトラス」と呼ばれるこのアプローチにより、研究者はさまざまなアルゴリズムの仕組みを分析することができ、アルゴリズムが認識する抽象的な形、色、パターンだけでなく、それらの要素がどのように組み合わされて特定の物体、動物、シーンが識別されるかを明らかにすることができる。

この研究は必ずしも大きな進歩というわけではないが、特徴可視化研究のより広い分野における前進だ。ジョージア工科大学の博士課程の学生で、この研究には関わっていないランプラサート・セルヴァラジュ氏は、この研究は魅力的で、多くの既存のアイデアを組み合わせて非常に便利な新しいツールを生み出していると語った。

セルヴァラジュ氏は、将来、このような研究はさまざまな用途に使用され、より効率的で高度なアルゴリズムの構築に役立ち、研究者に内部へのアクセスを提供することでアルゴリズムの安全性を向上させ、偏見を排除するだろうと考えています。ニューラル ネットワークは、その固有の複雑さのために解釈可能性に欠けていますが、将来、このようなネットワークが自動車の運転やロボットの誘導に日常的に使用されるようになると、解釈可能性が必要になります。

「顕微鏡を作るような感じです」と、このプロジェクトに携わったOpenAIのクリス・オラー氏は言う。「少なくとも、それが私たちの目標です。」

下記のアクティベーションアトラスのインタラクティブバージョンは、distill.pub/activation-atlas/ でご覧いただけます。

アクティベーションアトラスは、研究者が視覚データアルゴリズムを適用して世界を理解するのを可能にします

ニューロンの活性化

アクティベーション アトラスやその他の機能視覚化ツールがどのように機能するかを理解するには、まず AI システムがオブジェクトを認識する方法について少し理解しておくと役立ちます。

これを実現する基本的な方法は、ニューラル ネットワークを使用することです。ニューラル ネットワークは、人間の脳とほぼ同様のコンピューティング構造です (ただし、複雑さの点では数年遅れています)。各ニューラル ネットワーク内には、メッシュのように接続された人工ニューロンの層があります。脳の細胞と同様に、これらの細胞は刺激に反応し、活性化と呼ばれるプロセスを実行します。重要なのは、これらを単にオンまたはオフにするのではなく、スペクトルに登録して、各アクティベーションに特定の値または重みを割り当てることです。

ニューラル ネットワークを有用なものにするには、大量のトレーニング データを提供する必要があります。視覚アルゴリズムの場合、これはそれぞれ特定のカテゴリでラベル付けされた数十万、あるいは数百万枚の画像を意味します。 GoogleとOpenAIの研究者がこの研究のためにテストしたニューラルネットワークの場合、それらのカテゴリーはウールからウィンザータイ、シートベルトからスペースヒーターまで多岐にわたりました。

ニューラル ネットワークは、接続された人工ニューロンの複数の層を使用してデータを処理します。異なるニューロンが画像の異なる部分に反応する

このデータを入力すると、ニューラル ネットワーク内のさまざまなニューロンが各画像に反応して点灯します。このパターンは画像のラベルに接続されており、この関連付けにより、ネットワークは物体の外観を学習できます。一度トレーニングすると、ネットワークにこれまで見たことのない画像を見せることができ、ニューロンが発火して、入力を特定のカテゴリに一致させます。

これらすべてが不安に聞こえるとしたら、それは多くの点でその通りだからです。多くの機械学習プログラムと同様に、ビジョンアルゴリズムは本質的には単なるパターンマッチングマシンです。これにより、特定の利点が得られます (必要なデータと計算能力があれば、トレーニングが簡単であるなど)。しかし、これには一定の弱点もあります (これまで見たことのない入力によって簡単に混乱する可能性があります)。

研究者たちは、2010 年代初頭に視覚タスクにおけるニューラル ネットワークの可能性を発見して以来、それがどのように実現されるかを解明しようと努めてきました。

初期の実験の1つは、2015年にリリースされたコンピュータービジョンプログラム「DeepDream」で、あらゆる画像を幻覚バージョンに変えるものでした。 DeepDream のビジュアルは確かに興味深いものでした (ある意味では、AI の美学を定義するものとなりました) が、このプログラムはアルゴリズム的思考の初期の試みでもありました。ある意味、すべては DeepDream から始まりました。

その後の研究では、同じ基本的なアプローチを採用し、それを微調整しました。まず、ネットワーク内の個々のニューロンを対象にして、何がそれらを発火させたかを調べ、次にニューロンのグループ、そしてネットワークの異なる層にあるニューロンの組み合わせを対象にしました。初期の実験が、ニュートンが視覚を理解するために鈍い針で自分の目を突いたように、偶然ではなく集中的なものであったとすれば、最近の研究は、ニュートンがプリズムを光線に向けたのと似ており、つまり、より的を絞ったものとなっている。神経ネットワークの各部分で活性化された視覚要素を何度もマッピングすることで、最終的に脳の視覚的なインデックスであるアトラスが得られます。

アクティブアトラスを拡大・縮小する

マシンビュー

しかし、アクティベーション アトラスはアルゴリズムの内部の仕組みについて具体的に何を教えてくれるのでしょうか?ここでは、有名なニューラル ネットワーク GoogLeNet や InceptionV1 の内部構造を解明するために使用される Google と OpenAI の例から始めることができます。

スクロールすると、ネットワークのさまざまな部分がさまざまな概念にどのように反応するか、またそれらの概念がどのように集まっているかがわかります。たとえば、犬はある場所にいて、鳥は別の場所にいます。また、ネットワークのさまざまなレイヤーがさまざまなタイプの情報をどのように表しているかを確認することもできます。下位レベルではより抽象的で基本的な幾何学的形状に対応しますが、上位レベルではそれらを認識可能な概念に分解します。

個々のカテゴリーを掘り下げてみると、本当に興味深いです。 Google と OpenAI が挙げた例の 1 つは、「シュノーケラー」と「スキューバダイバー」のカテゴリの区別です。

下の図では、ニューラル ネットワークがこれらのラベルを認識するために使用するさまざまなアクティベーションを確認できます。左側は「シュノーケラー」と強く関連付けられるアクティベーションであり、右側は「スキューバダイバー」と強く関連付けられるアクティベーションです。中央のアクティベーションは 2 つのクラス間で共有されますが、ストライプ上のアクティベーションはより差別化されています。

シュノーケラー(左)とスキューバダイバー(右)に関連するアクティベーション

一目見ただけで、明らかな色や模様がわかります。上部には鮮やかな色の魚のような斑点や縞模様があり、下部にはマスクのような形があります。しかし、右側に強調表示されているのは、機関車と密接に関連する珍しいアクティベーションです。研究者たちはこれを発見したとき困惑した。機関車に関するこの視覚情報は、スキューバダイバーを識別するためになぜ重要なのでしょうか?

「それで私たちはテストしてこう言いました。『蒸気機関車の写真を入れたら、分類がシュノーケラーからスキューバダイバーに切り替わるだろうか?』そして実際に切り替わったのです。」

同じ画像を再分類する方法を示す 3 つの画像。左側では、シュノーケラーとして識別されます。中央では、機関車が大きくなるにつれて、スキューバダイバーになります。機関車が十分に大きくなると、分類全体を引き継ぎます。

チームは最終的にその理由を突き止めました。それは、機関車の滑らかな金属の曲線が、視覚的にダイバーの空気タンクに似ているからでした。したがって、ニューラル ネットワークにとって、これはシュノーケラーとスキューバ ダイバーの明確な違いです。 2 つのカテゴリを区別する時間を節約するために、必要な識別用の視覚データを他の場所から借用するだけです。

この種の例は、ニューラル ネットワークがどのように動作するかについての魔法のような事実を明らかにします。懐疑論者にとっては、これはこれらのシステムの限界を示しています。視覚アルゴリズムは効果的かもしれないが、それが学習する情報は実際には人間が世界を理解する方法とは無関係であると彼らは言う。これにより、特定の悪質な行為に対して脆弱になります。たとえば、画像に慎重に選択したピクセルをいくつか追加するだけで、アルゴリズムが画像を誤分類する可能性があります。

しかし研究者にとって、アクティベーションアトラスや類似のツールによって明らかにされた情報は、これらのアルゴリズムの驚くべき深さと柔軟性を示しています。例えば、アルゴリズムがシュノーケリングをする人とスキューバダイバーを区別するために、それぞれのカテゴリーに異なる種類の動物を関連付けることもカーター氏は指摘した。

「カメのように深海に生息する動物はスキューバタンクで呼吸しますが、鳥のように水面に生息する動物はシュノーケルで呼吸します。」これはシステムが直接学習することのない情報だと彼は指摘する。代わりに、それは自分自身でそれを見つけました。それは世界に対するより深い理解のようなものです。

オラー氏も同意し、「高解像度の地図帳を見て、これらのネットワークが表現できる空間の広大さを目の当たりにすると、畏敬の念を抱くほどです」と語った。

彼らは、このようなツールを開発することで、AI 分野全体の進歩に貢献できると期待しています。マシンビジョンシステムが世界をどのように見ているかを理解することで、理論的にはシステムを効率的に構築し、その精度をより徹底的にチェックできるようになります。

<<:  2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

>>:  オープンAI音声アシスタントMycroftでプライバシーを確​​保

ブログ    

推薦する

...

...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

機械学習プロジェクトの完全な構築プロセスとタスクリストが公開されており、収集する価値があります。

機械学習プロジェクトの作成というと、データ、モデリング、テストなどを思い浮かべる人がほとんどですが、...

...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえ...

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

自然言語プログラミングは Jupyter で直接実行できます。 MIT の中国人博士課程の学生によっ...

...

AI時代のセキュリティ情勢にはどのような新たな変化が起こっているのでしょうか?

近年、世界の人工知能産業は急速な発展の勢いを見せており、セキュリティ状況はますます複雑になっています...

IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

市場調査会社IDCは7月25日、近年の人工知能の急速な進化と発展により、ビッグデータモデルはますます...

機械学習が将来の雇用市場にどのような影響を与えるか

機械学習は、あらゆる業界、特に雇用と求人市場に変革をもたらし、エントリーレベルの職からトップレベルの...

人工知能がサイバーセキュリティに及ぼす3つの影響

人工知能 (AI) と機械学習 (ML) は、人々の働き方、話し方、ビジネスのやり方を根本的に変えて...

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

視覚的なプロンプトを使用するとどのような感じでしょうか?写真をランダムにフレームに入れるだけで、同じ...

...