画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI チップで他に何ができるでしょうか? Nature に掲載された研究は新たなインスピレーションをもたらします。

これまで、画像分類はいくつかのステップに分かれていました。まずセンサーを使用して画像のアナログ信号を収集し、次にそれをデジタル信号に変換し、最後にコンピューターに渡して処理していました。このプロセス全体は、目が画像を脳に送信するのと同じように、エネルギーを大量に消費し、時間がかかります。

想像してみてください。もし人間の目が脳を煩わせることなく画像を直接処理できたら、視覚画像情報の処理速度は大幅に向上するのではないでしょうか。

今日、ネイチャー誌に掲載されたこの新しい研究は、「目」が画像を直接処理できるようにするという点で画期的です。そして、そのフィードバックは非常に衝撃的なものでした。

新しい感光素子を使用することで、画像の分類はわずか40 ナノ秒で完了します。これは、コンピューターに渡して処理するよりも数十万倍高速です。

信じられないですね。

フォトダイオードネットワーク

研究チームは、その核となるチップ上にフォトダイオードネットワークを構築し、感光性材料として 2D 半導体の二セレン化タングステン (WSe2) を選択しました。

△単一タングステン二セレンフォトダイオードの概略図

フォトダイオードアレイは、均一性、調整性、直線性に優れた 27 個の検出器で構成され、ピクセルサイズが約 17×17μm の 3×3 イメージングアレイに配置されています。各ピクセルは 3 つのタングステンジセレン化フォトダイオード (サブピクセル) で構成され、ゲート電圧によって光に対する応答性を調整できます。

つまり、印加電圧を変化させることで半導体の光に対する反応を調整し、各ダイオードの感度を調整することができます。

実際には、これにより光電子センサーネットワークがニューラルネットワークに変換され、光センシングとニューロモルフィックコンピューティングが組み合わされて、単純な計算タスクを実行できるようになります。

ダイオードの感度を変更することは、ニューラルネットワークの重みを変更することと同じです。

センサーに重量をかける

他のニューラルネットワークとは異なり、このシステムの重みはコンピューターのメモリやハードドライブに保存されるのではなく、イメージセンサーに直接統合されます。

実験では、タングステンセレンフォトダイオードで作られた特殊なゲート回路を使用しました。その特別な機能は、ニューラルネットワークのトレーニングに相当する変調が可能であることです。

外部バイアス電圧が変化すると、ダイオードの光に対する感度も変化します。これは、ネットワークのトレーニング結果をセンサー側に直接配置することと同じです。

従来のニューラルネットワークでは、トレーニングの重みを外部メモリに保存し、回路を通じて各検出装置に送信していました。

コンピュータのメモリと同様に、電源を切ると保存された情報は失われます。

この装置セットは、停電後でも重量情報を保存できるハードドライブのようなものです。

研究者らは、変調電極、つまりフローティングゲートを窒化ホウ素絶縁層に埋め込みました。まず、酸化アルミニウム絶縁層のゲートに電圧を印加し、その後外部電圧を除去しました。

フローティングゲートは、外部バイアス電圧が変更されるまで、次の 2300 秒間、フォトダイオードの変調を維持できます。

研究者たちはこのアプローチを使用して、分類器とオートエンコーダの 2 種類のニューラルネットワークを実装しました。

分類器では、フォトダイオードアレイがオンチップセンサーおよびオフチップの非線形活性化関数と連携して動作します。このタイプのニューラルネットワークは、入力画像 P をさまざまな出力カテゴリ y に分類できる教師あり学習アルゴリズムを表します。

実際の効果はどうですか?彼らは、3×3 ピクセルの「シンプルな」文字のセット、つまり n、v、z を作成しました。

画像センサーがトレーニングされた後は、対応する回路の電流が 0 であるかどうかを測定するだけで、それがどの文字であるかがわかります。

時間の経過に伴う電圧変化のグラフから、センサーが画像を受信してから 40ns 後に、n 入力と v 入力によって生成される電圧が大きく異なり始め、約 100ns 後にその差が最大に達することがわかります。

2 番目のタイプのニューラルネットワークは、教師なしトレーニングプロセスで入力画像 P の効率的な表現を学習できるオートエンコーダです。これはデコーダーと組み合わせて使用され、一度トレーニングされると、出力で画像を再現できるようになります。

エンコーダはフォトダイオードアレイ自体によって形成され、デコーダは外部の電子機器によって形成されます。

この過程で画像伝送データが圧縮されます。

大きな可能性を秘めているが、さらなる研究がまだ必要である

2つの異なる画像を区別するのにかかる時間はわずか40ナノ秒であり、AI視覚は人間の脳の効率に一歩近づいているようです。

しかし、この画期的な新技術が実用化されるまでには、まだ長い道のりがあることに留意すべきです。

まず、フォトダイオードアレイは 27 個の検出器のみで構成されているため、最大 3×3 の画像しか処理できません。

第二に、自律運転やロボット工学に真に適用するには、ビジョンシステムが広い視野で 3 次元の動画像やビデオをキャプチャする必要があります。現在、この技術は 3D 視覚情報を 2D に変換して処理するため、動きの情報と奥行きが失われます。

画像センサーアレイの平らな形状も、広角カメラの機能を制限する要因となります。

さらに、Nature によると、論文で説明されている装置は薄暗い場所での撮影が難しいという。さらに、生物学的ニューラルネットワークでの操作ごとに消費されるエネルギーが 10-15 ～ 10-13 ジュールであるのに対し、その設計には高電圧と高電力が必要です。

技術的な観点から見ると、チップに使用される薄い半導体は、現時点では大規模に生産および処理することが困難です。

さらに、イメージセンサーは取得機能と計算機能を組み合わせ、アナログからデジタルへの変換を削減しますが、外部回路には依然として固有の遅延問題があり、システム全体の待機時間に影響を与えます。

しかし、まだ研究の余地は大きいものの、センサー内のコンピューティングに関する関連研究は、AI ハードウェアのさらなる発展を促進してきました。この研究のアイデアはコンピュータービジョンに限定されず、聴覚や触覚などの他の物理的入力にも拡張できます。

その他の試み

画像情報の高速処理に対する要求はますます高まっており、多くの科学者が入力側で画像を処理する方法を研究しています。

最近、オランダとアメリカの学者たちは、センサー側で直接画像を処理する方法も発明しました。

ただし、これらは画像の分類を出力するのではなく、ターゲット検出とセマンティックセグメンテーションに重要な出力画像のエッジを出力します。

彼らはセンサーの前に「メタサーフェス」を追加しました。これは、厚さ 0.5 ミリメートル未満の薄いサファイアのシートで、厚さ 206 ナノメートル、高さ 142 ナノメートル、間隔 300 ナノメートルの長いシリコンのストリップでコーティングされています。

CCD 感光チップの表面に配置すると、メタサーフェスはレンズのように機能し、光が急角度でのみ当たるようにし、入射角が非常に小さい光は遮断します。

この画像は、さまざまな光波の組み合わせを特徴としており、光波によって運ばれる他の詳細を除去し、モノクロの背景ではなく、人物の顔のエッジなどのより鮮明な要素のみを残します。

全体の処理にはわずか 150 ナノ秒しかかかりませんが、コンピューターで処理するには数ミリ秒かかります。この差は 4 桁にもなります。

研究チーム

最後に、オーストリアのウィーン工科大学の研究チーム、Unterrainerグループを紹介したいと思います。

論文の第一著者であるルーカス・メネル氏は、電気工学とフォトニクスの博士課程の学生であり、MIT で客員研究員として学び、量子フォトニクスを研究しています。

△ルーカス・メネル

論文のもう一人の責任著者は、ウィーン工科大学の准教授であるトムス・ミュラー氏です。トーマス・ミュラー氏がサッカーの腕前が優れているかどうかは不明ですが、2D材料科学の分野では、ミュラー教授の研究は基礎研究、光電子デバイス、電子集積回路、光子集積回路などに及び、目覚ましい業績も残しています。

△トムス・ミューラー

論文アドレス: https://www.nature.com/articles/s41586-020-2038-x

<<: ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

>>: 近い将来、人工知能によって劇的に変化する11の業界

毎日 12 時に出勤し、ガールフレンドと過ごすために定時に退勤するプログラマーである私が、なぜいつも残業するのでしょうか。！

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

フォトダイオードネットワーク

△単一タングステン二セレンフォトダイオードの概略図

センサーに重量をかける

大きな可能性を秘めているが、さらなる研究がまだ必要である

その他の試み

研究チーム

△ルーカス・メネル

△トムス・ミューラー

毎日 12 時に出勤し、ガールフレンドと過ごすために定時に退勤するプログラマーである私が、なぜいつも残業するのでしょうか。！

子どもたちが将来のスタートラインで勝てるようにするには：人工知能の思考を学ぶ

AI導入を成功させるために最も重要なスキル

AIoTは自律時代を推進します。人工知能はIoTインフラに新たな競争上の優位性をもたらします。

AIは人間の雇用を脅かすものではなく、成長と革新の触媒である

人工知能による大量失業の懸念は根拠がない

アリババDAMOアカデミーがAIの人間の言語理解の向上を支援する論文でSemEval最優秀賞を受賞

QTNet: 最新のタイミング融合ソリューション!ポイントクラウド、画像、マルチモーダル検出器はすべて適用可能 (NeurIPS 2023)

「顔認証」は大人気だけど、知らないことも多い

推薦する

マスク氏：ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

人工知能を使って人間の労働を監督すると、技術的でない困難に直面する

AIが人間社会に与える影響

マルチモーダル大規模モデル機能評価: Bard は必要なものですか?

医療における会話型 AI の 5 つの応用

デジタルコンテンツ制作のためのDIY AI

自動運転車がコーナーを「見通し」できるようにする

ボストン・ダイナミクスの二輪ロボット「ハンドル」がデビューします！物流ロボットOTTOと連携して商品を配送

C# の敏感な単語フィルタリングアルゴリズムの実装

電子鼻のウイスキー識別精度は96％にも達する。ネットユーザー：茅台酒にも作ってみよう