生物学的視覚とコンピュータビジョンの違いを理解する方法

生物学的視覚とコンピュータビジョンの違いを理解する方法

[51CTO.com クイック翻訳]人工知能技術の開発初期から、科学者たちは外の世界を「見る」ことができるコンピューターを作ることを夢見てきました。視覚は人々の仕事や生活において重要な役割を果たしているため、コンピュータービジョンのコードを解読することが、汎用人工知能の開発における主要なステップの 1 つとなっています。

しかし、人工知能の多くの事柄と同様に、コンピュータービジョンは言うほど簡単ではありません。 1966 年の夏、MIT の科学者たちは、画像内の物体と背景領域を認識できるコンピュータ システムの開発を目的とした「サマー ビジョン プロジェクト」を立ち上げました。当初の計画では 2 か月で完成する予定でしたが、目標を達成するには 2 か月よりもはるかに長い時間がかかりました。実際、画像分類器と物体検出器が主流のアプリケーションで使用できるほど柔軟で信頼できるものになったのは、2010 年以降になってからでした。

過去数十年にわたり、機械学習と神経科学の進歩により、コンピューター ビジョンは大きく進歩しました。しかし、人間と同じように世界を見る AI システムを構築するには、まだ長い道のりが残っています。

ハーバード大学医学部のガブリエル・クライマン教授は、著書『生物学とコンピュータービジョン』の中で、人間と動物が視覚データを処理する仕組みと、それらの機能をコンピューターで再現する技術の進歩について説明しています。

Kreiman によるこの本は、生物学とコンピューター ビジョンの違いを理解するのに役立ちます。この本では、数十億年にわたる進化によって人間や動物が複雑な視覚処理システムを獲得した経緯と、それを研究してより優れたコンピューター ビジョン アルゴリズムを開発する方法について詳しく説明しています。さらに、現代のコンピューター ビジョン システムと生物学的ビジョン システムの違いについても説明します。

この本の主な内容の一部を簡単に紹介します。

ハードウェアの違い

[[400237]]

生物学的視覚は有機ニューロンと皮質細胞で動作しますが、コンピューター ビジョンはトランジスタと電子回路で動作します。

生物とコンピューターの視覚の序文で、クライマンは次のように書いています。「私は、生物学的ニューロンと計算回路のつながりに特に興味を持っています。生物学的視覚は、何百万年もの進化の産物です。研究者が計算モデルを開発するにつれて、生物学から学び、視覚の問題がどのように解決されるかを理解できるようになり、それらの解決策をインスピレーションとして、より優れたアルゴリズムを構築することができます。」

実際、視覚皮質の研究は長い間、コンピュータービジョンや人工知能のインスピレーションの源となってきました。しかし、視覚のデジタル機能を実現する前に、科学者は生物学的視覚とコンピューター視覚の間の巨大なハードウェアギャップを克服しなければなりません。生物学的視覚は、皮質細胞と有機ニューロンの相互接続されたネットワーク上で機能します。一方、コンピューター ビジョンは、トランジスタで構成された電子チップ上で動作します。

したがって、視覚理論の定義は、生物学レベルと同様の方法でコンピューターに実装可能でなければなりません。クライマン氏はこれを「ゴルディロックス解決策」と呼んでいます。これは詳細化も単純化もされていない抽象的なアイデアです。

たとえば、コンピューター ビジョンの初期の試みでは、人間や動物の脳が視覚パターンを認識する方法を無視した非常に抽象的な方法でアプローチしようとしました。これらのアプローチは非常に脆弱で非効率的であることが証明されています。一方、分子レベルで脳を研究し、シミュレーションすることは、計算効率が悪いことも証明されています。

「私はいわゆる『コピー生物学』の大ファンではありません」とクライマン氏は言う。「生物学の多くの側面は抽象化できるし、そうすべきです。20,000 個のタンパク質、細胞質、複雑な樹状突起形状を持つ細胞を開発する必要はおそらくないでしょう。生物学的な詳細が多すぎるからです。一方で、十分な詳細なしに行動を研究することはできません。」

クライマン氏は著書『生物学とコンピュータービジョン』の中で、神経科学と医療技術の進歩により、個々のニューロンのミリ秒単位の活動を研究することが可能になったと指摘している。

これらの研究の結果は、哺乳類の大脳皮質領域の働きを簡単にシミュレートできる人工知能アルゴリズムである、さまざまな種類の人工ニューラル ネットワークの開発に役立っています。近年、ニューラル ネットワークは視覚データのパターン認識に最も効果的なアルゴリズムであることが証明され、多くのコンピューター ビジョン アプリケーションの重要なコンポーネントとなっています。

アーキテクチャの違い

ここ数十年、ディープラーニングの分野では多くの革新的な取り組みが行われており、コンピューターが生物の視覚機能の一部を模倣するのに役立っています。動物の視覚皮質の研究にヒントを得た畳み込み層は、視覚データ内のパターンを見つけるのに非常に効果的です。プーリング層は畳み込み層の出力を一般化し、視覚パターンの変位に対する感度を低下させるのに役立ちます。畳み込み層とプーリング層を積み重ねて、小さなパターン (物体の角度やエッジ) から複雑な物体 (顔、椅子、車など) まであらゆるものを検出します。

しかし、人工ニューラル ネットワークの高レベル アーキテクチャと哺乳類の視覚皮質について知られていることの間には不一致が残っています。

「残念ながら、レイヤーという用語は少し曖昧です」とクライマン氏は言う。「コンピューターサイエンスでは、レイヤーは処理のさまざまな段階を表すために使用されます (レイヤーは主に脳の領域に類似しています)。生物学では、各脳領域には 6 つの皮質層が含まれます。接続がマイクロ回路に類似している 6 層構造が鍵だと思います。この回路のどの側面をニューラル ネットワークに含めるべきかは明確ではありません。」

さらに、クライマン氏が著書『生物学とコンピュータービジョン』で強調しているように、脳内の情報はさまざまな方向に動きます。光信号は網膜から下側頭皮質に移動し、次に V1、V2、および視覚皮質の他の層に移動します。ただし、各レイヤーは上位のレイヤーにフィードバックも提供します。各層では、ニューロンが相互に作用し、情報を渡します。すべての相互作用と相互接続は、脳が視覚入力のギャップを埋め、情報が不完全な場合に推論を行うのに役立ちます。

対照的に、人工ニューラル ネットワークでは、データは通常一方向に移動します。畳み込みニューラル ネットワークは「フィードフォワード ネットワーク」であり、情報は入力層から上位層と出力層にのみ渡されます。

また、エラーを修正し、ニューラル ネットワークのパラメータを調整するのに役立つ、「バックプロパゲーション」と呼ばれるフィードバック メカニズムもあります。ただし、バックプロパゲーション アルゴリズムは計算量が多く、ニューラル ネットワークのトレーニングにのみ使用されます。バックプロパゲーションが皮質層のフィードバック機構に直接対応するかどうかはまだ不明です。

一方、上位層の出力と前の層の入力を組み合わせるリカレント ニューラル ネットワークは、コンピューター ビジョンでの応用が限られています。

[[400238]]

視覚皮質(右)では、情報はさまざまな方向に移動します。ニューラル ネットワーク (左) では、情報は一方向にしか移動できません。

クライマン氏は、人工ニューラルネットワークを生物学的なネットワークに近づけるには、横方向の動きとトップダウンの情報の流れが重要だと指摘した。

「水平方向の接続(つまり、同じ層内のユニット間の接続)は、特定の計算にとって非常に重要になることがあります」と彼は言う。「トップダウンの接続(つまり、ある層のユニットから下の層のユニットへの接続)は、予測を行う、注意を引く、文脈情報を組み込むなど、非常に重要になることがあります。」

彼はまた、ニューロンには現在のニューラルネットワークには欠けている複雑な時間統合特性があることを指摘した。

ターゲットの差異

人間の機能の進化により、多くのタスクを達成できる神経アーキテクチャがうまく開発されました。いくつかの研究により、私たちの視覚システムは、達成したい目標に応じて感度を動的に調整できることがわかっています。しかし、このような柔軟性を備えたコンピューター ビジョン システムを作成したいと考えている人にとっては、依然として大きな課題となっています。

現在のコンピューター ビジョン システムは、単一のタスクを実行するように設計されています。たとえば、オブジェクトを分類したり、オブジェクトの位置を特定したり、画像をさまざまなオブジェクトに分割したり、画像を記述したり、画像を生成したりできるニューラル ネットワークがあります。しかし、各ニューラル ネットワークは 1 つのタスクしか単独で完了できません。

生物学とコンピュータービジョン ガブリエル・クライマン著

「核となる問題は、『視覚的慣習』を理解すること、つまり、人間がタスクに関連した方法で視覚情報を柔軟に伝達できる方法を理解することです」とクライマン氏は語った。「基本的には、画像に関するより多くの質問に答えられるようになることです。物体にラベルを付けるだけでなく、物体を数えたり、その色、相互作用、サイズなどを記述したりします。これらのことを行うニューラル ネットワークを構築することはできますが、これらすべてのことを同時に行うニューラル ネットワークを構築することはできません。質問応答システムでこれを実現する興味深いアプローチがいくつかありますが、これらのアルゴリズムは刺激的ではありますが、特に人間のパフォーマンスと比較すると、まだかなり原始的です。」

違いを統合する

人間や動物にとって、視覚は嗅覚、触覚、聴覚と密接に関係しています。視覚野、聴覚野、体性感覚野、嗅覚野は相互に作用し、互いからヒントを得て世界についての推論を調整します。一方、AI システムでは、すべてが独立して存在します。

では、科学者は、より優れたコンピューター ビジョン システムを作るために、このような統合を必要とするのでしょうか。「科学者として、私たちは問題を細分化して、少しずつ解決するのが好きです」と、クライマン氏は言います。「個人的には、これが妥当な出発点だと思います。嗅覚や聴覚がなくても、よりよく見ることができます。無声のチャーリー チャップリン映画 (音やテキストなし) を見るようなものですが、そこから多くのことを学ぶことができます。生まれつき耳が聞こえない人でも、非常によく見えます。さまざまなモダリティ間の興味深い相互作用を伴う例は、確かに他にもたくさんありますが、この単純化によって大きな進歩が見込めると思います。」

しかし、より複雑な問題は、視覚を脳のより複雑な領域に統合することです。人間の視覚は、論理、推論、言語、常識などの他の脳機能と密接に統合されています。

「視覚の問題によっては、解決に『はるかに長い時間』がかかる可能性があり、視覚的な入力と世界に関する既存の知識を組み合わせる必要がある」とクライマン氏は述べた。

彼はバラク・オバマ前米国大統領の写真を例に挙げた。この写真で何が起こっているかを理解するには、ある程度の世界的知識、社会的知識、そして常識が必要です。

[[400240]]

たとえば、AI システムは、体重計に乗っている人が何をしているのか、オバマ大統領は何をしているのか、誰が笑っているのか、なぜ笑っているのかなどの詳細を知る必要があります。これらの質問に答えるには、生活に関する知識(体重計は体重を測る)、物理学に関する知識(オバマ大統領の足は力を発揮する)、心理学に関する知識(多くの人が自分の体重を自分なりに推定しており、通常よりも大幅に体重が増えていたら驚くだろう)、社会的理解(冗談だと思う人もいれば、そう思わない人もいる)など、多くの情報を処理する必要がある。

「現在の AI アーキテクチャではこれができません」とクライマン氏は言う。「これらすべてには、ダイナミクス (人間はこれらすべてをすぐには認識せず、画像を理解するためにさらに多くの機能を使用することが多い) とトップダウン信号の統合が必要になります。」

言語や常識などの分野は、AI コミュニティにとって大きな課題となります。しかし、これらの問題が個別に解決され、ビジョンと統合されるのか、あるいは統合自体がすべての問題を解決する鍵となるのかはまだ分からない。

「ある時点で、認知の他の側面に踏み込む必要がありますが、言語と論理を介さずに認知を統合する方法を想像するのは難しいです」とクライマン氏は語った。「今後数年間で、視覚モデルにさらに多くの言語と論理を組み込む(またはその逆)という刺激的な進歩が見られると期待しています。」

原題: 生物学的視覚とコンピューター視覚の違いを理解する、著者: Ben Dickson

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  IBMは5億行のコードデータセットをオープンソース化したが、最も人気のあるプログラミング言語はPythonではない

>>:  2021 年に注目すべき最新テクノロジー トレンド トップ 10

ブログ    

推薦する

ビル・ゲイツ:ロボットへの課税は人間の雇用創出のために推進される

[[248841]]マイクロソフトの創業者で、現在は自身の財団を通じて慈善事業にも取り組んでいるビル...

...

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...

2020年末総括:国際AI技術研究と政府と企業の協力の進捗状況の概要

2020年、「人工知能」は産業発展における高頻度のホットワードとなり、市場展望は業界全体で広く認知さ...

スマートシティの未来: AI、データ、都市変革

2008 年の金融危機後、都市化とサービス提供に対する新たなアプローチが世界中で定着し始めました。テ...

プリンストン・インフィニゲン・マトリックスが始動! AI Creatorが爆発するほどリアルな100%自然を創造

ネオは、自分が住んでいる世界が現実ではなく、綿密に設計されたシミュレーションであることを発見します。...

SOA におけるソフトウェア アーキテクチャ設計とソフトウェアとハ​​ードウェアの分離方法論

次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...

研究は、人工知能が手術後のオピオイド使用を減らすのにどのように役立つかを示している

ペンシルベニア大学医学部が最近実施した研究では、人工知能がオピオイド乱用と戦うためにどのように使用で...

USPTO レポート: 人工知能を使わないと取り残される!

米国特許商標庁(USPTO)が10月27日に発表した新しい報告書によると、2018年のすべての新しい...

5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!

新しい AI プロジェクトに取り組んでいて、プログラミングに使用する言語をまだ決めていない場合は、今...

...

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。し...

人工知能は神経技術をどのように進歩させるのでしょうか?

ニューロテクノロジーは人間の神経系の原理に基づいており、人間の脳の極めて複雑なモデル構造を研究するこ...

...

...