GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

AIの世界はどのようなものになるのでしょうか?研究者たちは何十年もの間、これに困惑してきましたが、近年、機械視覚システムは生活のますます多くの分野で応用されています。しかし、機械の目を通して、歩行者をある道路標識または別の道路標識に分類する理由を理解することは、依然として課題となっています。 Google と OpenAI の新しい研究では、これらのシステムを使用して世界の視覚データを理解することで、AI のブラックボックスをさらに解明することを期待しています。「アクティベーション・アトラス」と呼ばれるこのアプローチにより、研究者はさまざまなアルゴリズムの仕組みを分析することができ、アルゴリズムが認識する抽象的な形、色、パターンだけでなく、それらの要素がどのように組み合わされて特定の物体、動物、シーンが識別されるかを明らかにすることができる。

この研究は必ずしも大きな進歩というわけではないが、特徴可視化研究のより広い分野における前進だ。ジョージア工科大学の博士課程の学生で、この研究には関わっていないランプラサート・セルヴァラジュ氏は、この研究は魅力的で、多くの既存のアイデアを組み合わせて非常に便利な新しいツールを生み出していると語った。

セルヴァラジュ氏は、将来、このような研究はさまざまな用途に使用され、より効率的で高度なアルゴリズムの構築に役立ち、研究者に内部へのアクセスを提供することでアルゴリズムの安全性を向上させ、偏見を排除するだろうと考えています。ニューラルネットワークは、その固有の複雑さのために解釈可能性に欠けていますが、将来、このようなネットワークが自動車の運転やロボットの誘導に日常的に使用されるようになると、解釈可能性が必要になります。

「顕微鏡を作るような感じです」と、このプロジェクトに携わったOpenAIのクリス・オラー氏は言う。「少なくとも、それが私たちの目標です。」

下記のアクティベーションアトラスのインタラクティブバージョンは、distill.pub/activation-atlas/ でご覧いただけます。

アクティベーションアトラスは、研究者が視覚データアルゴリズムを適用して世界を理解するのを可能にします

ニューロンの活性化

アクティベーションアトラスやその他の機能視覚化ツールがどのように機能するかを理解するには、まず AI システムがオブジェクトを認識する方法について少し理解しておくと役立ちます。

これを実現する基本的な方法は、ニューラルネットワークを使用することです。ニューラルネットワークは、人間の脳とほぼ同様のコンピューティング構造です (ただし、複雑さの点では数年遅れています)。各ニューラルネットワーク内には、メッシュのように接続された人工ニューロンの層があります。脳の細胞と同様に、これらの細胞は刺激に反応し、活性化と呼ばれるプロセスを実行します。重要なのは、これらを単にオンまたはオフにするのではなく、スペクトルに登録して、各アクティベーションに特定の値または重みを割り当てることです。

ニューラルネットワークを有用なものにするには、大量のトレーニングデータを提供する必要があります。視覚アルゴリズムの場合、これはそれぞれ特定のカテゴリでラベル付けされた数十万、あるいは数百万枚の画像を意味します。 GoogleとOpenAIの研究者がこの研究のためにテストしたニューラルネットワークの場合、それらのカテゴリーはウールからウィンザータイ、シートベルトからスペースヒーターまで多岐にわたりました。

ニューラルネットワークは、接続された人工ニューロンの複数の層を使用してデータを処理します。異なるニューロンが画像の異なる部分に反応する

このデータを入力すると、ニューラルネットワーク内のさまざまなニューロンが各画像に反応して点灯します。このパターンは画像のラベルに接続されており、この関連付けにより、ネットワークは物体の外観を学習できます。一度トレーニングすると、ネットワークにこれまで見たことのない画像を見せることができ、ニューロンが発火して、入力を特定のカテゴリに一致させます。

これらすべてが不安に聞こえるとしたら、それは多くの点でその通りだからです。多くの機械学習プログラムと同様に、ビジョンアルゴリズムは本質的には単なるパターンマッチングマシンです。これにより、特定の利点が得られます (必要なデータと計算能力があれば、トレーニングが簡単であるなど)。しかし、これには一定の弱点もあります (これまで見たことのない入力によって簡単に混乱する可能性があります)。

研究者たちは、2010 年代初頭に視覚タスクにおけるニューラルネットワークの可能性を発見して以来、それがどのように実現されるかを解明しようと努めてきました。

初期の実験の1つは、2015年にリリースされたコンピュータービジョンプログラム「DeepDream」で、あらゆる画像を幻覚バージョンに変えるものでした。 DeepDream のビジュアルは確かに興味深いものでした (ある意味では、AI の美学を定義するものとなりました) が、このプログラムはアルゴリズム的思考の初期の試みでもありました。ある意味、すべては DeepDream から始まりました。

その後の研究では、同じ基本的なアプローチを採用し、それを微調整しました。まず、ネットワーク内の個々のニューロンを対象にして、何がそれらを発火させたかを調べ、次にニューロンのグループ、そしてネットワークの異なる層にあるニューロンの組み合わせを対象にしました。初期の実験が、ニュートンが視覚を理解するために鈍い針で自分の目を突いたように、偶然ではなく集中的なものであったとすれば、最近の研究は、ニュートンがプリズムを光線に向けたのと似ており、つまり、より的を絞ったものとなっている。神経ネットワークの各部分で活性化された視覚要素を何度もマッピングすることで、最終的に脳の視覚的なインデックスであるアトラスが得られます。

アクティブアトラスを拡大・縮小する

マシンビュー

しかし、アクティベーションアトラスはアルゴリズムの内部の仕組みについて具体的に何を教えてくれるのでしょうか?ここでは、有名なニューラルネットワーク GoogLeNet や InceptionV1 の内部構造を解明するために使用される Google と OpenAI の例から始めることができます。

スクロールすると、ネットワークのさまざまな部分がさまざまな概念にどのように反応するか、またそれらの概念がどのように集まっているかがわかります。たとえば、犬はある場所にいて、鳥は別の場所にいます。また、ネットワークのさまざまなレイヤーがさまざまなタイプの情報をどのように表しているかを確認することもできます。下位レベルではより抽象的で基本的な幾何学的形状に対応しますが、上位レベルではそれらを認識可能な概念に分解します。

個々のカテゴリーを掘り下げてみると、本当に興味深いです。 Google と OpenAI が挙げた例の 1 つは、「シュノーケラー」と「スキューバダイバー」のカテゴリの区別です。

下の図では、ニューラルネットワークがこれらのラベルを認識するために使用するさまざまなアクティベーションを確認できます。左側は「シュノーケラー」と強く関連付けられるアクティベーションであり、右側は「スキューバダイバー」と強く関連付けられるアクティベーションです。中央のアクティベーションは 2 つのクラス間で共有されますが、ストライプ上のアクティベーションはより差別化されています。

シュノーケラー（左）とスキューバダイバー（右）に関連するアクティベーション

一目見ただけで、明らかな色や模様がわかります。上部には鮮やかな色の魚のような斑点や縞模様があり、下部にはマスクのような形があります。しかし、右側に強調表示されているのは、機関車と密接に関連する珍しいアクティベーションです。研究者たちはこれを発見したとき困惑した。機関車に関するこの視覚情報は、スキューバダイバーを識別するためになぜ重要なのでしょうか?

「それで私たちはテストしてこう言いました。『蒸気機関車の写真を入れたら、分類がシュノーケラーからスキューバダイバーに切り替わるだろうか？』そして実際に切り替わったのです。」

同じ画像を再分類する方法を示す 3 つの画像。左側では、シュノーケラーとして識別されます。中央では、機関車が大きくなるにつれて、スキューバダイバーになります。機関車が十分に大きくなると、分類全体を引き継ぎます。

チームは最終的にその理由を突き止めました。それは、機関車の滑らかな金属の曲線が、視覚的にダイバーの空気タンクに似ているからでした。したがって、ニューラルネットワークにとって、これはシュノーケラーとスキューバダイバーの明確な違いです。 2 つのカテゴリを区別する時間を節約するために、必要な識別用の視覚データを他の場所から借用するだけです。

この種の例は、ニューラルネットワークがどのように動作するかについての魔法のような事実を明らかにします。懐疑論者にとっては、これはこれらのシステムの限界を示しています。視覚アルゴリズムは効果的かもしれないが、それが学習する情報は実際には人間が世界を理解する方法とは無関係であると彼らは言う。これにより、特定の悪質な行為に対して脆弱になります。たとえば、画像に慎重に選択したピクセルをいくつか追加するだけで、アルゴリズムが画像を誤分類する可能性があります。

しかし研究者にとって、アクティベーションアトラスや類似のツールによって明らかにされた情報は、これらのアルゴリズムの驚くべき深さと柔軟性を示しています。例えば、アルゴリズムがシュノーケリングをする人とスキューバダイバーを区別するために、それぞれのカテゴリーに異なる種類の動物を関連付けることもカーター氏は指摘した。

「カメのように深海に生息する動物はスキューバタンクで呼吸しますが、鳥のように水面に生息する動物はシュノーケルで呼吸します。」これはシステムが直接学習することのない情報だと彼は指摘する。代わりに、それは自分自身でそれを見つけました。それは世界に対するより深い理解のようなものです。

オラー氏も同意し、「高解像度の地図帳を見て、これらのネットワークが表現できる空間の広大さを目の当たりにすると、畏敬の念を抱くほどです」と語った。

彼らは、このようなツールを開発することで、AI 分野全体の進歩に貢献できると期待しています。マシンビジョンシステムが世界をどのように見ているかを理解することで、理論的にはシステムを効率的に構築し、その精度をより徹底的にチェックできるようになります。

<<: 2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

>>: オープンAI音声アシスタントMycroftでプライバシーを確保

ブログ

シンプルな人工ニューラルネットワークをゼロから構築する: 入力層 1 つと出力層 1 つ

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

人工知能システムにおける不確実性の定量化

歴史上3大AI失敗事例を徹底解説

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニングフレームワーク

任澤平：「新インフラ」は時代の痕跡を刻む

シンプルな人工ニューラルネットワークをゼロから構築する: 入力層 1 つと出力層 1 つ

人工知能の将来の展望と動向は何でしょうか?

冬季オリンピックのテストマッチ、副審はAIだったことが判明

推薦する

Go-OpenAI を使用して ChatGPT を簡単に呼び出し、無限の創造性を解き放ちましょう。

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?練習チェックリストはこちら

オープンソースの自動車機械ソフトウェアであるOpenpilotがアップデートされ、ナビゲーションに基づいて一般の自動車が自動運転できるようになる

マイクロソフトは、人間と同じようにニュースを翻訳できるAIの画期的な進歩を主張している

米国国土安全保障省はマスク着用者の顔認識技術をテストし、精度は96％だった。

人工知能を活用するための5つのベストプラクティス

AI + データサイエンス: スポーツ業界を変える6つの方法

AIがビジネスプロセス管理を根本的に変える方法

Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

LLM は必要ありません。遺伝的プログラミングで Python コードを制御できます。 Google DeepMindらが新しいARZフレームワークを提案

ブロックチェーンと人工知能の関係は何ですか?ブロックチェーンは人工知能に影響を与えることができるか？

TalkingDataはビッグデータとAIについて語ります

論文執筆に必ず使うべき 12 のニューラルネットワーク可視化ツール