AIは脳の信号をリアルタイムで解釈し、画像の主要な視覚的特徴を7倍の速度で復元するとルカン氏は述べた。

AIは脳の信号をリアルタイムで解釈し、画像の主要な視覚的特徴を7倍の速度で復元するとルカン氏は述べた。

AIが脳の信号をリアルタイムで解釈できるようになりました!

これはセンセーショナルなことではありませんが、Meta による新しい研究では、脳信号に基づいて 0.5 秒以内に見た画像を推測し、AI を使用してリアルタイムで復元できるようになっています。

これまで、AI は脳信号から比較的正確に画像を復元することができましたが、速度が十分でないというバグが残っていました。

この目的のために、Meta は AI 画像検索の速度を 7 倍向上させる新しいデコード モデルを開発しました。このモデルは、人が見ているものをほぼ「瞬時に」読み取り、大まかな推測を行うことができます。

立っている男性のように見えます。何度か試行した後、AI は実際に「立っている男性」と解釈しました。

写真

LeCun 氏はリツイートし、MEG 脳信号から視覚やその他の入力を再構築する研究は実に素晴らしいと述べた。

写真

では、Meta はどのようにして AI が「脳を素早く読み取る」ことを可能にするのでしょうか?

脳活動のデコードをどのように解釈するか?

現在、AIが脳信号を読み取り、画像を復元する方法は主に2つあります。

1 つは、脳の特定の部分への血流を画像化できる fMRI (機能的磁気共鳴画像法) であり、もう 1 つは、脳内の神経電流によって放出される極めて微弱な生体磁場信号を測定できる MEG (脳磁図法) です。

しかし、fMRI 神経画像処理は多くの場合非常に遅く、平均して 2 秒ごとに 1 つの画像が生成されます (≈0.5 Hz)。対照的に、MEG は 1 秒あたり数千の脳活動画像を記録することもできます (≈5000 Hz)。

では、fMRI の代わりに MEG データを使用して「人間が見る画像」を再現してみてはどうでしょうか?

この考えに基づいて、著者らは 3 つの部分からなる MEG デコード モデルを設計しました。

最初の部分は、画像から埋め込みを取得する役割を果たす事前トレーニング済みモデルです。

2 番目の部分は、MEG データを画像埋め込みと調整する役割を果たす、エンドツーエンドのトレーニング済みモデルです。

3 番目の部分は、事前トレーニング済みの画像ジェネレーターであり、最終画像を復元する役割を果たします。

写真

研究者らはトレーニングに、THINGS-MEGと呼ばれるデータセットを使用しました。このデータセットには、4人の若者(男性2人、女性2人、平均年齢23.25歳)が画像を見た際に記録されたMEGデータが含まれています。

若者たちは合計22,448枚の画像(1,854種類)を視聴し、各画像は0.5秒間表示され、0.8~1.2秒の間隔が空けられ、そのうち200枚の画像が繰り返し視聴された。

さらに、参加者には提示されなかったが、画像検索に使用された画像が 3659 枚あります。

では、このように訓練されたAIの効果はどのようなものなのでしょうか?

画像検索速度が7倍に向上

全体として、本研究で設計された MEG デコード モデルは、線形デコーダーの画像検索速度よりも 7 倍高速です。

その中で、Meta が開発したビジュアル Transformer アーキテクチャ DINOv2 は、CLIP などのモデルと比較して、画像の特徴の抽出に優れており、MEG データと画像の埋め込みをより適切に調整できます。

写真

著者らは、生成された画像全体を、最も一致度が高いもの、中程度の一致度が高いもの、最も一致度が低いものの 3 つのカテゴリに分類しました。

写真

しかし、生成された例から判断すると、この AI によって復元された画像効果は確かにあまり良くありません。

最も修復された画像でさえ、一部のネットユーザーから疑問の声が上がっている。「なぜこのパンダはパンダに全く見えないのか?」

写真

作者曰く「少なくともモノクマっぽいですね」 (パンダは激怒!)

写真

もちろん、研究者らは、MEG データから復元された画像効果が現時点ではそれほど優れているわけではなく、主な利点は依然として速度にあることも認めています。

例えば、ミネソタ大学などの研究機関による7T fMRIと呼ばれる以前の研究では、fMRIデータから人間の目で見た画像を高い復元度で復元することができました。

写真

サーフィンをしている人、飛行機の形、シマウマの色、電車の背景など、fMRI データでトレーニングされた AI は、画像をより正確に復元できます。

写真

著者らはまた、この理由として、MEGに基づくAIによって復元された視覚的特徴が比較的高度であるためだと説明している。

しかし比較すると、7T fMRI は画像内の低レベルの視覚的特徴を抽出して復元できるため、生成される画像の全体的な復元度は高くなります。

この種の研究はどこで活用できると思いますか?

論文の宛先:
https://ai.meta.com/static-resource/image-decoding

<<: 

>>: 

ブログ    
ブログ    

推薦する

アメリカのショッピングプラットフォームStitch Fixの王建強氏:データ主導の意思決定サポートと製品インテリジェンス

[51CTO.comより] 最近、51CTOが主催するWOTAグローバルアーキテクチャと運用技術サミ...

Linux サーバー管理のヒント: 効率とセキュリティを向上させる

Linux サーバー管理は、サーバーの安全、安定、効率的な運用を確保するための重要なタスクです。以下...

Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

[[318598]] Google は最近、24 個の合理化された BERT モデルをダウンロード...

ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか?

スマート コンストラクションは、最適化されたプロセス、モデリング、仮想現実、3D レンダリング、監視...

スマート端末AxPOS A8Sは単なるハードウェアのフラッシュではありません

AxPOS A8Sは、LianDi Commercialが2020年に構築に注力した新世代のスマート...

COVID-19パンデミックにより非接触型生体認証の利用が拡大

[[403477]]調査会社ファクトMRの最新情報によると、新型コロナウイルス感染症のパンデミックに...

新世代の人工知能標準システムを構築するには?ガイドが来ます →

国家標準化局中央サイバースペース委員会 国家発展改革委員会 科学技術省 工業情報化省 「 国家新世...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

顔認識の「レッドライン」と「ボトムライン」を理解していますか?

顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...

「自然言語処理」とは何ですか? 具体的に何を「処理」するのですか?

[51CTO.com からのオリジナル記事] 「自然言語処理」(NLP) は、近年テクノロジー コ...

...

あなたの写真を「秘密裏に」使用した顔認識システムはいくつありますか?ツールを使って確認する時が来た

テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...

超人工知能は人類を滅ぼすのか?

[[410355]]北京時間7月9日、ジョージ・ドヴォルスキー氏のスーパー人工知能に関する意見は次...

ElevenLabs、元の話し手の声と感情を維持するAI翻訳吹き替え機能を発表

AIテキスト読み上げ会社ElevenLabsは10月11日、火曜日にAI Dubbingを発表した。...