画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI チップで他に何ができるでしょうか? Nature に掲載された研究は新たなインスピレーションをもたらします。

これまで、画像分類はいくつかのステップに分かれていました。まずセンサーを使用して画像のアナログ信号を収集し、次にそれをデジタル信号に変換し、最後にコンピューターに渡して処理していました。このプロセス全体は、目が画像を脳に送信するのと同じように、エネルギーを大量に消費し、時間がかかります。

想像してみてください。もし人間の目が脳を煩わせることなく画像を直接処理できたら、視覚画像情報の処理速度は大幅に向上するのではないでしょうか。

今日、ネイチャー誌に掲載されたこの新しい研究は、「目」が画像を直接処理できるようにするという点で画期的です。そして、そのフィードバックは非常に衝撃的なものでした。

新しい感光素子を使用することで、画像の分類はわずか40 ナノ秒で完了します。これは、コンピューターに渡して処理するよりも数十万倍高速です。

信じられないですね。

フォトダイオードネットワーク

研究チームは、その核となるチップ上にフォトダイオード ネットワークを構築し、感光性材料として 2D 半導体の二セレン化タングステン (WSe2) を選択しました。

単一タングステン二セレンフォトダイオードの概略図

フォトダイオード アレイは、均一性、調整性、直線性に優れた 27 個の検出器で構成され、ピクセル サイズが約 17×17μm の 3×3 イメージング アレイに配置されています。各ピクセルは 3 つのタングステン ジセレン化フォトダイオード (サブピクセル) で構成され、ゲート電圧によって光に対する応答性を調整できます。

つまり、印加電圧を変化させることで半導体の光に対する反応を調整し、各ダイオードの感度を調整することができます。

実際には、これにより光電子センサー ネットワークがニューラル ネットワークに変換され、光センシングとニューロモルフィック コンピューティングが組み合わされて、単純な計算タスクを実行できるようになります。

ダイオードの感度を変更することは、ニューラル ネットワークの重みを変更することと同じです。

センサーに重量をかける

他のニューラル ネットワークとは異なり、このシステムの重みはコンピューターのメモリやハード ドライブに保存されるのではなく、イメージ センサーに直接統合されます。

実験では、タングステンセレンフォトダイオードで作られた特殊なゲート回路を使用しました。その特別な機能は、ニューラル ネットワークのトレーニングに相当する変調が可能であることです。

外部バイアス電圧が変化すると、ダイオードの光に対する感度も変化します。これは、ネットワークのトレーニング結果をセンサー側に直接配置することと同じです。

従来のニューラル ネットワークでは、トレーニングの重みを外部メモリに保存し、回路を通じて各検出装置に送信していました。

コンピュータのメモリと同様に、電源を切ると保存された情報は失われます。

この装置セットは、停電後でも重量情報を保存できるハードドライブのようなものです。

研究者らは、変調電極、つまりフローティングゲートを窒化ホウ素絶縁層に埋め込みました。まず、酸化アルミニウム絶縁層のゲートに電圧を印加し、その後外部電圧を除去しました。

フローティング ゲートは、外部バイアス電圧が変更されるまで、次の 2300 秒間、フォトダイオードの変調を維持できます。

研究者たちはこのアプローチを使用して、分類器とオートエンコーダの 2 種類のニューラル ネットワークを実装しました。

分類器では、フォトダイオード アレイがオンチップ センサーおよびオフチップの非線形活性化関数と連携して動作します。このタイプのニューラル ネットワークは、入力画像 P をさまざまな出力カテゴリ y に分類できる教師あり学習アルゴリズムを表します。

実際の効果はどうですか?彼らは、3×3 ピクセルの「シンプルな」文字のセット、つまり n、v、z を作成しました。

画像センサーがトレーニングされた後は、対応する回路の電流が 0 であるかどうかを測定するだけで、それがどの文字であるかがわかります。

時間の経過に伴う電圧変化のグラフから、センサーが画像を受信して​​から 40ns 後に、n 入力と v 入力によって生成される電圧が大きく異なり始め、約 100ns 後にその差が最大に達することがわかります。

2 番目のタイプのニューラル ネットワークは、教師なしトレーニング プロセスで入力画像 P の効率的な表現を学習できるオートエンコーダです。これはデコーダーと組み合わせて使用​​され、一度トレーニングされると、出力で画像を再現できるようになります。

エンコーダはフォトダイオードアレイ自体によって形成され、デコーダは外部の電子機器によって形成されます。

この過程で画像伝送データが圧縮されます。

大きな可能性を秘めているが、さらなる研究がまだ必要である

2つの異なる画像を区別するのにかかる時間はわずか40ナノ秒であり、AI視覚は人間の脳の効率に一歩近づいているようです。

しかし、この画期的な新技術が実用化されるまでには、まだ長い道のりがあることに留意すべきです。

まず、フォトダイオードアレイは 27 個の検出器のみで構成されているため、最大 3×3 の画像しか処理できません。

第二に、自律運転やロボット工学に真に適用するには、ビジョン システムが広い視野で 3 次元の動画像やビデオをキャプチャする必要があります。現在、この技術は 3D 視覚情報を 2D に変換して処理するため、動きの情報と奥行きが失われます。

画像センサーアレイの平らな形状も、広角カメラの機能を制限する要因となります。

さらに、Nature によると、論文で説明されている装置は薄暗い場所での撮影が難しいという。さらに、生物学的ニューラル ネットワークでの操作ごとに消費されるエネルギーが 10-15 ~ 10-13 ジュールであるのに対し、その設計には高電圧と高電力が必要です。

技術的な観点から見ると、チップに使用される薄い半導体は、現時点では大規模に生産および処理することが困難です。

さらに、イメージセンサーは取得機能と計算機能を組み合わせ、アナログからデジタルへの変換を削減しますが、外部回路には依然として固有の遅延問題があり、システム全体の待機時間に影響を与えます。

しかし、まだ研究の余地は大きいものの、センサー内のコンピューティングに関する関連研究は、AI ハードウェアのさらなる発展を促進してきました。この研究のアイデアはコンピュータービジョンに限定されず、聴覚や触覚などの他の物理的入力にも拡張できます。

その他の試み

画像情報の高速処理に対する要求はますます高まっており、多くの科学者が入力側で画像を処理する方法を研究しています。

最近、オランダとアメリカの学者たちは、センサー側で直接画像を処理する方法も発明しました。

ただし、これらは画像の分類を出力するのではなく、ターゲット検出とセマンティックセグメンテーションに重要な出力画像のエッジを出力します。

彼らはセンサーの前に「メタサーフェス」を追加しました。これは、厚さ 0.5 ミリメートル未満の薄いサファイアのシートで、厚さ 206 ナノメートル、高さ 142 ナノメートル、間隔 300 ナノメートルの長いシリコンのストリップでコーティングされています。

CCD 感光チップの表面に配置すると、メタサーフェスはレンズのように機能し、光が急角度でのみ当たるようにし、入射角が非常に小さい光は遮断します。

この画像は、さまざまな光波の組み合わせを特徴としており、光波によって運ばれる他の詳細を除去し、モノクロの背景ではなく、人物の顔のエッジなどのより鮮明な要素のみを残します。

全体の処理にはわずか 150 ナノ秒しかかかりませんが、コンピューターで処理するには数ミリ秒かかります。この差は 4 桁にもなります。

研究チーム

最後に、オーストリアのウィーン工科大学の研究チーム、Unterrainerグループを紹介したいと思います。

[[317562]]

論文の第一著者であるルーカス・メネル氏は、電気工学とフォトニクスの博士課程の学生であり、MIT で客員研究員として学び、量子フォトニクスを研究しています。

[[317563]]
ルーカス・メネル

論文のもう一人の責任著者は、ウィーン工科大学の准教授であるトムス・ミュラー氏です。トーマス・ミュラー氏がサッカーの腕前が優れているかどうかは不明ですが、2D材料科学の分野では、ミュラー教授の研究は基礎研究、光電子デバイス、電子集積回路、光子集積回路などに及び、目覚ましい業績も残しています。

[[317564]]
トムス・ミューラー

論文アドレス: https://www.nature.com/articles/s41586-020-2038-x

<<:  ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

>>:  近い将来、人工知能によって劇的に変化する11の業界

ブログ    

推薦する

マスク氏:ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...

人工知能を使って人間の労働を監督すると、技術的でない困難に直面する

リモートワークの標準化により、クラウド監視ソフトウェア市場が生まれました。最近、Enaible とい...

...

AIが人間社会に与える影響

今後 25 年間は、既存の制御可能かつプログラム可能ないわゆる「人工知能」を活用して、人類が生物学の...

マルチモーダル大規模モデル機能評価: Bard は必要なものですか?

ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...

...

...

医療における会話型 AI の 5 つの応用

パンデミックの影響で、医療業界は世界中で医師、看護師、その他の医療スタッフの深刻な不足に直面していま...

...

デジタルコンテンツ制作のためのDIY AI

背景今年、chatgpt に代表される大型モデルの驚異的なパフォーマンスは、AICG の分野に完全に...

...

自動運転車がコーナーを「見通し」できるようにする

自動運転車がその名に恥じない性能を発揮するには、満たすべき要件が数多くありますが、環境の認識と理解が...

ボストン・ダイナミクスの二輪ロボット「ハンドル」がデビューします!物流ロボットOTTOと連携して商品を配送

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

C# の敏感な単語フィルタリング アルゴリズムの実装

この記事はWeChatの公開アカウント「UP Technology Control」から転載したもの...

電子鼻のウイスキー識別精度は96%にも達する。ネットユーザー:茅台酒にも作ってみよう

国産茅台酒や一部の外国産高級ウイスキーは高価であるが、偽造品の重要なターゲットでもある。ワイン鑑定家...