脳内の画像を高解像度で復元できるようになりました

脳内の画像を高解像度で復元できるようになりました

近年、画像生成、特にテキストから画像への生成の分野で大きな進歩が遂げられており、アイデアをテキストで記述するだけで、AI が斬新かつリアルな画像を生成できるようになります。

しかし、実際にはさらに一歩進んで、頭の中にあるアイデアをテキストに変換するステップを省略し、脳の活動(EEG(脳波)記録など)を通じて画像の生成と作成を直接制御することができます。

この「思考からイメージへ」生成法は、幅広い応用が期待できます。たとえば、芸術的創作の効率を大幅に向上させ、人々がつかの間のインスピレーションを捉えるのに役立ちます。また、夜間の人々の夢を視覚化することも可能になるかもしれません。自閉症の子供や言語障害の患者を助けるための心理療法にも使用される可能性があります。

最近、清華大学深圳国際大学院、テンセントAIラボ、彭城研究所の研究者らが共同で「思考から画像へ」と題した研究論文を発表しました。この論文では、事前トレーニング済みのテキストから画像へのモデル(Stable Diffusionなど)の強力な生成機能を使用して、EEG信号から直接高品質の画像を生成しました。

写真

論文アドレス: https://arxiv.org/pdf/2306.16934.pdf

プロジェクトアドレス: https://github.com/bbaaii/DreamDiffusion

方法の概要

最近の関連研究(MinD-Vis など)では、fMRI(機能的磁気共鳴画像信号)に基づいて視覚情報を再構築する試みがなされています。彼らは、脳の活動を利用して高品質の結果を再構築することが可能であることを実証しました。しかし、これらの方法は、主に次の 2 つの理由から、脳信号を使用して迅速かつ効率的に作成するという理想からは程遠いものとなっています。

まず、fMRI 装置は持ち運びができず、専門家による操作が必要であるため、fMRI 信号をキャプチャすることが困難です。

第二に、fMRI データの取得コストが高く、実際の芸術作品の創作にこの手法を使用することを大いに妨げています。

対照的に、EEG は脳の電気的活動を記録するための非侵襲的で低コストの方法であり、EEG 信号を取得できるポータブルな市販製品が現在市販されています。

しかし、「思考をイメージ化」する生成を実現するには、まだ 2 つの大きな課題が残っています。

1) EEG 信号は非侵襲的に取得されるため、本質的にノイズが混じります。さらに、EEG データには限りがあり、個人差を無視することはできません。では、多くの制約の下で、EEG 信号から効果的かつ堅牢な意味表現をどのように取得するのでしょうか?

2) CLIP を使用し、多数のテキストと画像のペアをトレーニングすることで、Stable Diffusion のテキスト空間と画像空間は適切に整列します。しかし、EEG 信号には独自の特性があり、その空間はテキストや画像とはまったく異なります。制限がありノイズの多い EEG 画像のペアで EEG、テキスト、画像のスペースをどのように揃えるのでしょうか?

最初の課題に対処するために、この研究では、まれな EEG 画像ペアだけでなく、大量の EEG データを使用して EEG 表現をトレーニングすることを提案しています。この研究では、文脈上の手がかりに基づいて欠落したトークンを予測するために、マスク信号モデリング法を採用しています。

入力を2次元画像とみなして空間情報をマスクするMAEやMinD-Visとは異なり、本研究ではEEG信号の時間的特性を考慮し、人間の脳の時間的変化の背後にある意味を深く探究します。この研究では、トークンの一部をランダムにブロックし、ブロックされたトークンを時間領域で再構築しました。このようにして、事前トレーニング済みのエンコーダーは、さまざまな個人やさまざまな脳活動からの EEG データを深く理解することができます。

2 番目の課題については、従来のソリューションでは通常、安定拡散モデルを直接微調整し、少量のノイズの多いデータ ペアを使用してトレーニングします。しかし、最終的な画像再構成損失を使用して SD をエンドツーエンドで微調整するだけでは、脳信号 (EEG や fMRI など) とテキスト空間間の正確な位置合わせを学習することは困難です。そのため、研究チームは、EEG、テキスト、および画像空間の整合を実現するために、追加の CLIP 監視を使用することを提案しました。

具体的には、SD 自体は CLIP のテキスト エンコーダーを使用してテキスト埋め込みを生成しますが、これは前の段階でマスクされた事前トレーニング済みの EEG 埋め込みとは大きく異なります。 CLIP の画像エンコーダーは、CLIP のテキスト埋め込みとよく一致する豊富な画像埋め込みを抽出するために使用されます。これらの CLIP 画像の埋め込みは、EEG 埋め込み表現をさらに改良するために使用されます。したがって、改善された EEG 特徴埋め込みは、CLIP の画像およびテキスト埋め込みと適切に調整され、SD 画像生成に適したものとなり、生成される画像の品質が向上します。

上記の 2 つの慎重に設計されたスキームに基づいて、この研究では新しい方法 DreamDiffusion を提案しました。 DreamDiffusion は、脳波 (EEG) 信号から高品質でリアルな画像を生成できます。

写真

具体的には、DreamDiffusion は次の 3 つの主要部分で構成されています。

1) 効果的で堅牢な EEG エンコーダを実現するためのマスク信号の事前トレーニング。

2) 事前にトレーニングされた安定拡散と限定された EEG 画像ペアを使用した微調整。

3) CLIP エンコーダーを使用して、EEG、テキスト、および画像のスペースを揃えます。

まず、研究者らはノイズの多い EEG データを使用し、マスク信号モデリングを採用して EEG エンコーダーをトレーニングし、文脈的知識を抽出しました。結果として得られる EEG エンコーダーは、交差注意メカニズムを介して安定拡散の条件付き機能を提供するために使用されます。

写真

EEG 機能と Stable Diffusion の互換性を高めるために、研究者らは、微調整中に EEG 埋め込みと CLIP 画像埋め込み間の距離を短縮することで、EEG、テキスト、画像の埋め込み空間をさらに調整しました。

実験と分析

Brain2Imageとの比較

研究者たちは自分たちのアプローチをBrain2Imageと比較した。 Brain2Image は、変分オートエンコーダ (VAE) と生成的敵対的ネットワーク (GAN) という従来の生成モデルを使用して、EEG から画像への変換を実現します。ただし、Brain2Image はいくつかのカテゴリの結果のみを提供し、リファレンス実装は提供していません。

これを踏まえて、本研究では、Brain2Image の論文で提示されたいくつかのカテゴリー (飛行機、ジャック・オー・ランタン、パンダ) について定性的な比較を実施しました。公平な比較を確実にするために、研究者は Brain2Image の論文に記載されているのと同じ評価戦略を使用し、さまざまな方法によって生成された結果を下の図 5 に示します。

下の図の最初の行は Brain2Image によって生成された結果を示しており、最後の行は研究者によって提案された DreamDiffusion 手法によって生成されたものです。 DreamDiffusion によって生成された画像の品質は Brain2Image によって生成された画像よりも大幅に高いことがわかり、提案された方法の有効性も検証されています。

写真

アブレーション実験

事前トレーニングの役割: 大規模な EEG データの事前トレーニングの有効性を実証するために、この研究では、トレーニングされていないエンコーダーを使用して、検証用の複数のモデルをトレーニングしました。モデルの 1 つは完全なモデルと同一でしたが、もう 1 つはデータの過剰適合を避けるために EEG エンコーディング レイヤーが 2 つしかありませんでした。トレーニングプロセス中、2 つのモデルは CLIP の監督の有無にかかわらずトレーニングされ、結果は表 1 のモデル列の 1 ~ 4 に示されています。ご覧のとおり、事前トレーニングなしのモデルの精度は低下しています。

マスク比: この論文では、MSM 事前トレーニングに最適なマスク比を決定するために EEG データを使用する方法についても研究しています。表 1 のモデル列の 5 ~ 7 に示されているように、マスク比率が高すぎるか低すぎると、モデルのパフォーマンスに悪影響を及ぼします。マスク比が 0.75 の場合に、全体的な精度が最も高くなります。この発見は、低いマスキング率が一般的に使用される自然言語処理とは異なり、EEG で MSM を実行する場合は高いマスキング率がより良い選択であることを示唆しているため、非常に重要です。

CLIP アライメント: この方法の鍵の 1 つは、CLIP エンコーダーを介して EEG 表現を画像と位置合わせすることです。本研究ではこの方法の有効性を検証するための実験を行い、その結果を表1に示す。 CLIP 監視を使用しない場合、モデルのパフォーマンスが大幅に低下することが観察されます。実際、図 6 の右下隅に示すように、事前トレーニングを行わなくても、CLIP を使用して EEG 機能をアライメントすると妥当な結果が得られます。これは、この方法での CLIP 監視の重要性を強調しています。

写真

<<:  今後5年間の15の主要なテクノロジートレンド

>>:  GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

ブログ    
ブログ    

推薦する

新しい5文字描画言語が人気で、ChatGPTはそれを学習しました

たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

将来のサプライチェーンにおける 3D プリント技術の潜在的な役割を判断するために、米国陸軍は UH-...

人工知能と機械学習でよく使われるアルゴリズムの概要と、よく使われる各アルゴリズムの精度の比較

[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...

人工知能時代の雇用問題と解決策

人工知能(AI)は現在、頻繁に使われる言葉であり、一般的には、もう一つの総合的な技術革命、つまり「第...

マッキンゼーのレポート:これらの業界が人工知能に転換しなければ、ますます取り残されることになる

最近、マッキンゼーは「人工知能:次のデジタルフロンティア?」と題した80ページのレポートを発表し、人...

英国のサイバーセキュリティ機関がAIにおける大規模言語モデルのリスクを警告

英国の国家サイバーセキュリティセンター(NCSC)は、AIを活用した大規模言語モデル(LLM)を企業...

人工知能の65年の簡単な歴史:マッカーシーからヒントンまで、人類はどのようなAIを追求しているのでしょうか?

人工知能の発展は65年の歴史があり、厳しい冬も栄光も経験してきました。シンボリックエキスパートシステ...

...

PG&E、AIを活用して山火事のリスクを軽減

2018年、パシフィック・ガス・アンド・エレクトリック(PG&E)の送電線の故障により発生し...

AI: いつも HD ビデオが欲しいなら、ここにあります

Magnific の画像超解像度および強化ツールはまだテスト中ですが、その強力な画像アップスケーリン...

AIチップの過去と未来、この記事を読んでください

[[248236]]皆さんは、イ・セドルと柯潔を破った Google の「Alpha Go」をまだ覚...

KMPアルゴリズムを最初から最後まで徹底的に理解できるように指導します

[[121931]]この記事の参考文献: Li Yunqing 他著「データ構造 (C 言語版)」、...

...

デジタル変革の3つの大きな落とし穴に注意: インテルがPing An Healthcare Technologyに「エンドツーエンド」のAI機能を提供

[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...

マイクロソフトはソフトからハードへの変革に向けてカスタム AI チップを開発中。その計画とは?

噂は本当で、Microsoft は大規模な言語モデルのトレーニングに使用できるカスタム AI チップ...