画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI チップで他に何ができるでしょうか? Nature に掲載された研究は新たなインスピレーションをもたらします。

これまで、画像分類はいくつかのステップに分かれていました。まずセンサーを使用して画像のアナログ信号を収集し、次にそれをデジタル信号に変換し、最後にコンピューターに渡して処理していました。このプロセス全体は、目が画像を脳に送信するのと同じように、エネルギーを大量に消費し、時間がかかります。

想像してみてください。もし人間の目が脳を煩わせることなく画像を直接処理できたら、視覚画像情報の処理速度は大幅に向上するのではないでしょうか。

今日、ネイチャー誌に掲載されたこの新しい研究は、「目」が画像を直接処理できるようにするという点で画期的です。そして、そのフィードバックは非常に衝撃的なものでした。

新しい感光素子を使用することで、画像の分類はわずか40 ナノ秒で完了します。これは、コンピューターに渡して処理するよりも数十万倍高速です。

信じられないですね。

フォトダイオードネットワーク

研究チームは、その核となるチップ上にフォトダイオード ネットワークを構築し、感光性材料として 2D 半導体の二セレン化タングステン (WSe2) を選択しました。

単一タングステン二セレンフォトダイオードの概略図

フォトダイオード アレイは、均一性、調整性、直線性に優れた 27 個の検出器で構成され、ピクセル サイズが約 17×17μm の 3×3 イメージング アレイに配置されています。各ピクセルは 3 つのタングステン ジセレン化フォトダイオード (サブピクセル) で構成され、ゲート電圧によって光に対する応答性を調整できます。

つまり、印加電圧を変化させることで半導体の光に対する反応を調整し、各ダイオードの感度を調整することができます。

実際には、これにより光電子センサー ネットワークがニューラル ネットワークに変換され、光センシングとニューロモルフィック コンピューティングが組み合わされて、単純な計算タスクを実行できるようになります。

ダイオードの感度を変更することは、ニューラル ネットワークの重みを変更することと同じです。

センサーに重量をかける

他のニューラル ネットワークとは異なり、このシステムの重みはコンピューターのメモリやハード ドライブに保存されるのではなく、イメージ センサーに直接統合されます。

実験では、タングステンセレンフォトダイオードで作られた特殊なゲート回路を使用しました。その特別な機能は、ニューラル ネットワークのトレーニングに相当する変調が可能であることです。

外部バイアス電圧が変化すると、ダイオードの光に対する感度も変化します。これは、ネットワークのトレーニング結果をセンサー側に直接配置することと同じです。

従来のニューラル ネットワークでは、トレーニングの重みを外部メモリに保存し、回路を通じて各検出装置に送信していました。

コンピュータのメモリと同様に、電源を切ると保存された情報は失われます。

この装置セットは、停電後でも重量情報を保存できるハードドライブのようなものです。

研究者らは、変調電極、つまりフローティングゲートを窒化ホウ素絶縁層に埋め込みました。まず、酸化アルミニウム絶縁層のゲートに電圧を印加し、その後外部電圧を除去しました。

フローティング ゲートは、外部バイアス電圧が変更されるまで、次の 2300 秒間、フォトダイオードの変調を維持できます。

研究者たちはこのアプローチを使用して、分類器とオートエンコーダの 2 種類のニューラル ネットワークを実装しました。

分類器では、フォトダイオード アレイがオンチップ センサーおよびオフチップの非線形活性化関数と連携して動作します。このタイプのニューラル ネットワークは、入力画像 P をさまざまな出力カテゴリ y に分類できる教師あり学習アルゴリズムを表します。

実際の効果はどうですか?彼らは、3×3 ピクセルの「シンプルな」文字のセット、つまり n、v、z を作成しました。

画像センサーがトレーニングされた後は、対応する回路の電流が 0 であるかどうかを測定するだけで、それがどの文字であるかがわかります。

時間の経過に伴う電圧変化のグラフから、センサーが画像を受信して​​から 40ns 後に、n 入力と v 入力によって生成される電圧が大きく異なり始め、約 100ns 後にその差が最大に達することがわかります。

2 番目のタイプのニューラル ネットワークは、教師なしトレーニング プロセスで入力画像 P の効率的な表現を学習できるオートエンコーダです。これはデコーダーと組み合わせて使用​​され、一度トレーニングされると、出力で画像を再現できるようになります。

エンコーダはフォトダイオードアレイ自体によって形成され、デコーダは外部の電子機器によって形成されます。

この過程で画像伝送データが圧縮されます。

大きな可能性を秘めているが、さらなる研究がまだ必要である

2つの異なる画像を区別するのにかかる時間はわずか40ナノ秒であり、AI視覚は人間の脳の効率に一歩近づいているようです。

しかし、この画期的な新技術が実用化されるまでには、まだ長い道のりがあることに留意すべきです。

まず、フォトダイオードアレイは 27 個の検出器のみで構成されているため、最大 3×3 の画像しか処理できません。

第二に、自律運転やロボット工学に真に適用するには、ビジョン システムが広い視野で 3 次元の動画像やビデオをキャプチャする必要があります。現在、この技術は 3D 視覚情報を 2D に変換して処理するため、動きの情報と奥行きが失われます。

画像センサーアレイの平らな形状も、広角カメラの機能を制限する要因となります。

さらに、Nature によると、論文で説明されている装置は薄暗い場所での撮影が難しいという。さらに、生物学的ニューラル ネットワークでの操作ごとに消費されるエネルギーが 10-15 ~ 10-13 ジュールであるのに対し、その設計には高電圧と高電力が必要です。

技術的な観点から見ると、チップに使用される薄い半導体は、現時点では大規模に生産および処理することが困難です。

さらに、イメージセンサーは取得機能と計算機能を組み合わせ、アナログからデジタルへの変換を削減しますが、外部回路には依然として固有の遅延問題があり、システム全体の待機時間に影響を与えます。

しかし、まだ研究の余地は大きいものの、センサー内のコンピューティングに関する関連研究は、AI ハードウェアのさらなる発展を促進してきました。この研究のアイデアはコンピュータービジョンに限定されず、聴覚や触覚などの他の物理的入力にも拡張できます。

その他の試み

画像情報の高速処理に対する要求はますます高まっており、多くの科学者が入力側で画像を処理する方法を研究しています。

最近、オランダとアメリカの学者たちは、センサー側で直接画像を処理する方法も発明しました。

ただし、これらは画像の分類を出力するのではなく、ターゲット検出とセマンティックセグメンテーションに重要な出力画像のエッジを出力します。

彼らはセンサーの前に「メタサーフェス」を追加しました。これは、厚さ 0.5 ミリメートル未満の薄いサファイアのシートで、厚さ 206 ナノメートル、高さ 142 ナノメートル、間隔 300 ナノメートルの長いシリコンのストリップでコーティングされています。

CCD 感光チップの表面に配置すると、メタサーフェスはレンズのように機能し、光が急角度でのみ当たるようにし、入射角が非常に小さい光は遮断します。

この画像は、さまざまな光波の組み合わせを特徴としており、光波によって運ばれる他の詳細を除去し、モノクロの背景ではなく、人物の顔のエッジなどのより鮮明な要素のみを残します。

全体の処理にはわずか 150 ナノ秒しかかかりませんが、コンピューターで処理するには数ミリ秒かかります。この差は 4 桁にもなります。

研究チーム

最後に、オーストリアのウィーン工科大学の研究チーム、Unterrainerグループを紹介したいと思います。

[[317562]]

論文の第一著者であるルーカス・メネル氏は、電気工学とフォトニクスの博士課程の学生であり、MIT で客員研究員として学び、量子フォトニクスを研究しています。

[[317563]]
ルーカス・メネル

論文のもう一人の責任著者は、ウィーン工科大学の准教授であるトムス・ミュラー氏です。トーマス・ミュラー氏がサッカーの腕前が優れているかどうかは不明ですが、2D材料科学の分野では、ミュラー教授の研究は基礎研究、光電子デバイス、電子集積回路、光子集積回路などに及び、目覚ましい業績も残しています。

[[317564]]
トムス・ミューラー

論文アドレス: https://www.nature.com/articles/s41586-020-2038-x

<<:  ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

>>:  近い将来、人工知能によって劇的に変化する11の業界

ブログ    
ブログ    
ブログ    

推薦する

2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...

Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する

Zhongcheng が翻訳した記事にはタグが付けられています。ユーザーはタグに基づいて興味のある記...

...

Yunqi CapitalのChen Yu氏:AI投資家を惹きつけてターゲットにする方法

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

CBインサイトがAI業界の25大トレンドを発表:中国では顔認識や無人店舗が急速に発展

[[260147]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

劉強東:人工知能の時代が来ています。このチャンスをつかめば、あなたは豊かになれます。

劉強東は言った。「この世で働かずに得られる唯一のものは貧困であり、無から創造できる唯一のものは夢であ...

推奨される自動化およびオーケストレーションツール10選

自動化およびオーケストレーション ネットワーク ツールは、人間のオペレーターよりも高速かつ正確にタス...

...

AI批判: GPT-3は何を話しているのか分かっていない

【51CTO.com クイック翻訳】 [[341305]] 【はじめに】 GPT-3は1750億個の...

分散型ディープラーニングの新たな進歩:「分散」と「ディープラーニング」の真の統合

近年、急速に発展している人工知能の分野のひとつであるディープラーニングは、NLP、画像認識、音声認識...

人工知能対神: インダストリー4.0におけるグローバル社会の微妙なつながり

[[423479]]はい、タイトルの読み方は正しいです。特にインダストリー 4.0 では、AI と神...

ポスト絵読み時代、人工知能は絵の社会的ジレンマを解決できるのか?

ここ数年、国内の写真アプリが次々と登場しており、先頭にはDuitang、Huaban、Digu、Yo...

GitHub Copilotが3回アップデート:コード行で直接質問できるようになり、コンテキスト範囲がターミナルまで拡張される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米国でレベル4自動運転システムの一部がリコールされた。Pony.aiはどんなミスを犯したのか?

自動運転車が交通事故に巻き込まれるのは今回が初めてではない。しかし、今回のPony.aiによるL4...