ブラックボックスの一角を明らかにしよう！ OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

3か月近く休眠状態にあったOpenAIブログがついに更新されました。今回、AI研究者に届けられた作品は「OpenAI Microscope」で、中国語ではOpenAI顕微鏡と翻訳されています。

これは、実験室の顕微鏡のように機能し、AI 研究者がニューラルネットワークの構造と特性をより深く理解するのに役立つことを意味します。

ブログアドレス: https://openai.com/blog/microscope/

結局のところ、この顕微鏡は、2012 年の ImageNet チャレンジの優勝者である AlexNet、GoogleNet (Inception V1 とも呼ばれる)、2014 年の ImageNet チャレンジの優勝者である ResNet v2 など、歴史的に重要で一般的に研究されているコンピュータービジョンモデルを含むニューロン視覚化ライブラリのようなものです。

OpenAI 顕微鏡

顕微鏡アドレス: https://microscope.openai.com/models

上図に示すように、初期バージョンにはコンピュータービジョン分野のニューラルネットワークモデルが 8 つ含まれています。各ニューラルネットワークは、いくつかの重要なニューロンの内部構造を視覚的に表示します。

OpenAI は研究の中で次のように述べています。「現代のニューラルネットワークモデルの強力な能力は、何千ものニューロンの相互作用から生まれます。」

しかし、ニューロン間の「協力」はこれまでずっと謎だった。OpenAI が公開した顕微鏡は、こうしたニューロンを素早く調査するのに役立つだろう。

たとえば、研究者は、InceptionV1 4c:447 が、車輪検出器 (4b:373) と窓検出器 (4b:237) から構築された車検出器であると推測する場合があります。
InceptionV1 4c:447 は、ホイール検出器 (4b:373) とウィンドウ検出器 (4b:237) で構成される車両検出器です。そして、OpenAI 顕微鏡を使用して、その推測を評価し、新しいものを発見することができます。

たとえば、上のアニメーションに示されているように、OpenAI 顕微鏡による AlexNet の観察は、完全な画像から始まり、ニューラルネットワークによる特徴抽出を経て、最終的に画像がいくつかの色付きの線に「ぼかし」られます。

（Leiphone.com（公式アカウント：Leiphone.com））

その間に何が起こったのですか?明らかに、ニューラルネットワークの途中で何が起こっているかを理解することは非常に重要です。

上図のように、ニューラルネットワークの各層をクリックすると、OpenAI Microscope は画像を処理するプロセスを視覚化し、各ニューロンが処理された画像に対応します。各画像の「進行」プロセスが非常に明確に示されています。

OpenAI によれば、ニューロンを探索するこのプロセスは、別のニューラルネットワークの解釈可能性の研究「ズームイン: 回路入門」に予想外の助けとなったという。

「顕微鏡」技術は、モデル内の位置と技術という 2 つの概念に基づいています。もっとわかりやすく言えば、位置とは顕微鏡をどこに向けるか、技術とは顕微鏡にどのようなレンズを取り付けるかということです。

このモデルは、「エッジ」を介して相互に接続された「ノード」（ニューラルネットワークレイヤー）のグラフで構成されます。各操作は、ニューロンにほぼ類似した数百の「ユニット」で構成されます。

使用されるテクニックのほとんどは、特定の解像度でのみ有効であることに注意してください。たとえば、機能の視覚化では「セル」のみを指すことができ、その親の「ノード」を指すことはできません。
さらに、OpenAI はこのツールを提供しながら、解釈可能性の研究にもいくつかの貢献をしました。
1. すべてのモデルと視覚化はオープンソースであり、「Microscope」のすべての視覚化は lucid ライブラリを使用して生成されます。
2. モデルとニューロンを相互に接続し、ニューロンをすぐに確認してさらに調査できるようにする機能。
3. アクセシビリティ: 視覚的な調査を共有することで、高いアクセシビリティを維持します。
生物学者が少数の「モデル生物」の研究に重点を置くのと同様に、「顕微鏡」も少数のモデルを詳細に調査することに重点を置いています。 OpenAI の最初のリリースには、一般的に使用される 9 つのビジョンモデルが含まれており、今後数か月以内に追加のモデルが追加される予定です。
つまり、現在は DeepDream と関数可視化機能のみが提供されており、カスタマイズされたモデルの可視化探索はまだサポートされていません。

説明可能性研究: DeepDreamより

解釈可能性と決定論は機械学習システムの観点からは幅広いトピックであり、ニューラルネットワークがそれらのレイヤーの機能で正確に何を実行しているかを理解することは困難です。

しかし、初期化パラメータの選択方法などの問題を解決するには、ニューラルネットワークの性質を理解する必要があります。

AI研究者もこの方向に取り組んでいます。顕微鏡によるニューロンの可視化に加えて、近年のいくつかの研究では機械学習モデルの可視化も試みられています。

(Leiphone.com)

たとえば、Facebook が昨年春に立ち上げた Captum は、機械学習モデルによる決定を説明するために視覚化技術を使用する実験を行っています。 Pytorch に基づくモデル解釈ライブラリとして、強力で柔軟性があり、使いやすく、すべての最新アルゴリズムの解釈可能性を提供します。これにより、研究者や開発者は、モデルの予測結果に影響を与える特定の機能、ニューロン、ニューラルネットワークレイヤーをより深く理解できるようになります。

当時、Facebook は Captum をベースに構築され、説明的な視覚化機能を提供する Captum Insight の試用版もリリースしました。

2019 年 3 月には、OpenAI と Google も機械学習アルゴリズムによる決定を視覚化するための Activation Atlases をリリースしました。

(Leiphone.com)

これまでの研究が、視覚的なアルファベットの個々の文字をアルゴリズムに示すようなものであるとすれば、アクティベーションアトラスは辞書全体を提供し、文字がどのように組み合わさって実際の単語を形成するかを示します。

アクティベーションアトラスは、個々のニューロンから、これらのニューロンが集合的に表す空間の視覚化に焦点を移すことによって、機能の視覚化を構築します。

明らかに、今日の「顕微鏡」の作品も、以前の活性化マップ技術を統合し、それに依存しています。

こうした視覚化研究のすべては、2015 年にリリースされたコンピュータービジョンプログラムである DeepDream と呼ばれる初期の実験にそのルーツがあると考えられます。このプログラムは、あらゆる画像をその画像の「幻覚」バージョンに変換することを目的としていました。

DeepDream は、Google のニューラルネットワークモデルが入力画像を理解する様子を「Deep Inception」と同様に示しています。その奇妙なスタイルにより、ある面ではいわゆる人工知能の美学を定義していると考えられています。

おそらく、その頃から AI 研究者たちはニューラルネットワークモデルから見た世界に興味を持ち、説明可能性の探求の道を歩み始めたのでしょう。

OpenAI の Chris OlahOlah 氏はかつてこう言っています。「ある意味で、すべては DeepDream から始まったのです。」

<<: RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

>>: Googleが謝罪：Vision AIが人種差別的な結果を生成

ブラックボックスの一角を明らかにしよう！ OpenAI、ニューラルネットワークの内部構造を視覚化する「顕微鏡」をリリース

OpenAI 顕微鏡

説明可能性研究: DeepDreamより

AIベースの顔認識は工場にとって次の技術的マイルストーンとなる

オープンソース AI が Meta を救い、その価値は一夜にして 1,960 億ドルも急騰。39 歳のザッカーバーグがメタバースの深い穴から這い上がる!ラマのおかげで年間配当金7億元

UniVision: BEV 検出と Occ、デュアル SOTA の統合フレームワーク!

銀行は人工知能を導入し、スマートな顧客サービス以上のものを提供している

心を込めてツイートしましょう！ Synchron 脳コンピューターインターフェースは ALS 患者が自分の考えで携帯電話を閲覧するのを助けます

量子コンピューティングは今後10年間で物流業界を変えるだろう

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

Android マーケットのランキングアルゴリズムとルールの分析

推薦する

海外メディア：GoogleはマーケティングのためにGeminiをリリースしたが、依然としてGPT-4に遅れをとっている

ディープラーニングは錬金術のようなものです。どんな迷信的な習慣がありますか?ユーザー: ランダムシード=42 は良い結果をもたらします

エッジコンピューティングとエッジ AI とは何ですか?この2つの違いは何でしょうか?

米国はチップ供給を遮断、ロシアはリソグラフィー装置の再構築を決定

AIモデルのオープンソースの定義を変える必要がある

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

MIT の新しい研究: ゼロから設計? AIにより誰もが服をデザインできるようになる

最大65万ドル！ 2021年の米国大手企業のプログラマーの収入をみる

エッジ AI IoT ソリューションはビジネスパフォーマンスをどのように向上できるのでしょうか?

データサイエンス技術の未来

自分でゴミを分別できるスマートゴミ箱が登場するまで、どれくらい時間がかかるのでしょうか?