脳コンピューターインターフェースツール:脳波からテキストまで、必要なのは機械翻訳モデルだけ

脳コンピューターインターフェースツール:脳波からテキストまで、必要なのは機械翻訳モデルだけ

[[320655]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

機械翻訳はまさに万能です。詩や連句を書いたり、微分方程式を導いたりできるだけでなく、脳波情報を読み取ることもできます。

昨日、カリフォルニア大学サンフランシスコ校のジョセフ・マキン氏らは、「エンコーダー・デコーダー・フレームワークによる皮質活動のテキストへの機械翻訳」と題する論文を Nature Neuroscience に発表しました。

この論文の基本的な考え方は極めてシンプルです。彼らは、脳波をテキストに変換することを、脳波を入力シーケンス、テキストを出力シーケンスとする機械翻訳のプロセスとみなしました。

被験者にテキストを声に出して読んでもらうことで、対応する脳領域の電気波が収集され、トレーニングデータセットが形成され、エンドツーエンドの機械翻訳モデルがトレーニングされます。

このようにして、研究者たちは、被験者の脳波をわずか 3% のエラー率で「正確」かつ「リアルタイム」に文章に変換できるモデルを獲得しました。

この革新は間違いなく革命的です。

脳制御タイピングに使用されている現在の脳コンピューターインターフェース技術の一部は、主に頭や目の残留運動に依存しています。ホーキング博士を例に挙げてみましょう。彼は指の動きで仮想キーボードを制御し、表現したい言葉を入力することができます。しかし、この方法では 1 分間に最大 8 語しか入力できません。

話し言葉(または話し言葉の試み)をテキストにデコードする試みはいくつか行われてきましたが、これまでのところ、単一の音素または単一の音節のデコードに限られており、中程度のテキスト(100語程度)ではエラー率が60%を超えることがよくあります。

ジョセフらの研究は、ほとんど遅延なく脳波を直接テキストに変換するものであり、麻痺患者にとって大きな恩恵となることは間違いありません。

全体的なアイデア

前述のように、著者は自然言語処理の分野から概念を借用しました。自然言語機械翻訳では、テキストは 1 つの言語から別の言語に翻訳されます。脳波をテキストに変換することは、実際には同様の「翻訳」プロセスです。

概念的には、両方のシナリオの目標は、2 つの異なる表現間のマッピング関係を確立することです。より具体的には、どちらの場合も、任意の長さのシーケンスを別の任意の長さのシーケンスに変換することが目標です。

ここで「任意」という言葉を強調することが重要です。入力シーケンスと出力シーケンスの長さは変化し、それらの間に必ずしも決定論的な 1 対 1 の対応が存在する必要はないからです。ジョセフらによるこの研究では、一度に 1 つの文をデコードしようとしましたが、これはディープラーニングに基づく現在のエンドツーエンドの機械翻訳アルゴリズムに似ています。 2 つの類似点は、同じ種類の出力、つまり文中の単語のシーケンスにマッピングされることです。違いは、機械翻訳の入力はテキストであるのに対し、ジョセフらの研究の入力は神経信号であるという点です。被験者は文章を声に出して読み、実験者は高密度脳波(ECoGグリッド)を使用して参加者の大脳皮質から信号を収集しました。

したがって、神経信号をわずかに処理した後、seq2seq 機械翻訳モデルをほとんど変更せずにエンドツーエンドのトレーニングに直接使用できます。この作業で最も難しいのは、十分なトレーニング データ セットをどのように取得するかです。機械翻訳のデータセットは数百万に達する可能性があることはわかっていますが、この実験では各被験者が提供できるデータはせいぜい数千個です。トレーニング データが乏しい状況で、エンドツーエンド学習の利点を最大限に活用するために、著者らは 30 ~ 50 個の独立した文のみで構成される制限された「言語」を使用しました。

モデル

この研究では、入力データを収集するために、参加者に文章を声に出して読んでもらい、脳波の活動を観察しました。読み上げる必要のあるデータの 1 セットは、約 30 の文と 125 語からなる絵の説明です。もう 1 セットは、MOCHA-TIMIT コーパス データベースのデータを使用しており、1 つのグループに 50 の文があり、最後のグループには 60 の文が含まれています。

合計 4 人の参加者が音読を行い、研究者は 3 回音読された文章セットのみを検討し、1 回はテストに、2 回はトレーニングに使用しました。参加者は声に出して読むときに脳波を出した。研究者らは参加者に電極を​​挿入した後、高密度のECoGグリッドを使用して参加者の大脳皮質から信号を収集した。

収集された脳波信号とそれに対応する読み上げられた文章は、「エンコード-デコード」アーキテクチャを備えた人工ニューラルネットワークにデータとして入力されます。

上の図に示すように、人工ニューラル ネットワークは入力データを 3 つの段階で処理します。

1. 時間的畳み込み: EEG 信号データ シーケンスのさまざまなポイントで、いくつかの類似した特徴が繰り返される場合がありますが、これは完全に接続したフィードフォワード ニューラル ネットワークでは明らかに処理できません。このパターンを効果的に学習するために、ネットワークは特定のステップ サイズを間隔として使用し、各間隔に同じ時間フィルターを適用します。

2. エンコーダー再帰型ニューラルネットワーク: 時間畳み込み処理の後、特徴シーケンスが生成されます。特徴シーケンスはエンコーダー再帰型ニューラルネットワークに入力されます。次に、ニューラルネットワークの隠れ層が、長さに依存しないシーケンス全体の高次元エンコードを提供します。

3. デコーダー再帰型ニューラル ネットワーク: デコード段階では、高次元シーケンスを単語に「翻訳」することに重点が置かれます。このとき、リカレントニューラルネットワークが初期化され、各ステップで単語を予測します。予測結果がシーケンス終了トークンである場合、デコードは停止します。著者が使用したニューラル ネットワーク フレームワークを次の図に示します。

ネットワーク全体をトレーニングする目的は、ニューラル ネットワークが適切なシーケンス デコードを生成できるように導く MFCC (メル ケプストラム係数特徴) に近づくことです。

ただし、モデル テスト フェーズでは MFCC は放棄され、デコードはデコーダー ニューラル ネットワークの出力に完全に依存します。モデルのトレーニングでは、トレーニングプロセス全体を通じて確率的勾配降下法が使用され、すべてのネットワーク層にドロップアウトが適用されます。

モデルの評価は、単語誤り率(WER)によって定量化されます。WERの基本的な考え方は、正解と機械の認識結果を単語ごとに組み合わせ、余分な単語、欠落した単語、誤って認識された単語を合計してエラーとしてカウントし、実際の単語の総数に対する誤った単語の割合を計算することです。

検証後、参加者全員の平均 WER は 33% となり、これは現在最も先進的な音声デコードの 60% WER よりも優れています。

実験結果

著者らは論文の中で合計 2 つの実験を行った。1 つは「制御変数」に似た方法を使用して、モデルのパフォーマンスが非常に優れている理由を調べること、もう 1 つは転移学習を通じて他の参加者のモデル パフォーマンスを向上させることである。

「コントロールバリアント」実験では、著者らはネットワークを再トレーニングし、上図の 2 番目のボックスは、低密度の ECoG グリッドとダウンサンプリングを使用したパフォーマンスを示しています。さらに、著者はチャネルの 1/4 のみを残しました。つまり、256 チャネルではなく 64 チャネルのみを使用しました。このときのエラー率は、以前の 4 倍になりました。

つまり、高密度 EEG グリッドに加えて、アルゴリズムも非常に重要なのです。 3 番目のボックスは、追加の MFCC がない場合のパフォーマンスです。エラー率は低密度 EEG グリッドと同様ですが、以前の音声デコードの試みよりも優れています。 4 番目のボックスは、完全接続ネットワークを使用した結果です。畳み込みネットワークの場合、完全接続ネットワークのワード エラー率は以前よりも 8 倍高くなります。しかし、実験では、高γ信号を送信する前にダウンサンプリングすることで、完全接続ネットワークの使用によって発生する単語誤り率を解決できることが発見されました。

最後に、著者らは実験を繰り返すことで単語誤り率に影響があるかどうかを定量化した。研究では、少なくとも 15 回の繰り返しトレーニングを行うと、エラー率を 25% 未満に低減できることが分かりました。上図に示すように、トレーニング回数が少ない場合、参加者AとBのデコード性能は非常に悪いです。この問題を解決するために、著者は転移学習を試みました。

上の図 a の最初のボックスは MOCHA-1 データでトレーニングされており、エラー率は 53% です。参加者 B のより豊富なデータセットで最初に事前トレーニングされたときのネットワークのパフォーマンスを考慮すると、この転移学習により単語エラー率が約 17% 削減されます (上の図 a の最初のボックスから 2 番目のボックスまで表示)。

著者らは、エンコーダー-デコーダー ネットワークを参加者 b のすべての MOCHA-TIMIT データで事前トレーニングし、次に参加者 a のすべての MOCHA-TIMIT データでトレーニングして、通常どおり参加者 a の MOCHA-1 ブロックでテストするという、転移学習の組み合わせ形式も検討しました。この「二重転移学習」(図 a、4 番目のボックス)により、ベースラインと比較して単語エラー率が 36% 減少し、タスク転移学習よりも改善されました。

したがって、改善が逆方向、つまり参加者 a から参加者 b に伝達されるかどうかは、上の図 b に示すように、明らかに可能です。

MOCHA-TIMIT データで最悪の成績を収めた参加者 d の場合、残りの MOCHAT 文をトレーニング セットに追加しても結果は改善されませんでした (図 c を参照)。

話し合う

明らかに、この研究の最大の欠点は、データセットが 250 語と 30 ~ 50 文と小さすぎることです。

この技術を一般的な自然言語に拡張したい場合は、どのくらいのデータがあれば十分なのか、また十分なデータを取得するにはどうすればよいのかを検討する必要があります。実際、長期間にわたって被験者の脳に脳波 (ECoG) グリッドを挿入することが可能であれば、利用可能なトレーニング データの量は、30 分間のデータしか収集されなかったこの実験よりも数桁多くなります。

実際のアプリケーションでは、話す能力を失った人がいる状況がありますが、パフォーマンスはわずかに低下しますが、この方法は適用できます。

ここで、AI Technology Review は、機械翻訳の本質は、ある情報シーケンスを別の情報シーケンスにマッピングすることにあることを強調したいと思います。特に現在のエンドツーエンドのテクノロジーでは、問題の表現方法を変えて、シーケンス間のマッピング問題に変換し、十分なトレーニングデータを収集できれば、既存の機械翻訳テクノロジーを使用して大きな変化をもたらすことができます。

<<:  清華大学の学生が強化学習プラットフォーム「TianShou」を開発:数千行のコードが完成、オープンソース化

>>:  工場に産業用 IoT テクノロジーを導入する 5 つの理由

ブログ    

推薦する

ビッグスリー:ディープラーニングの未来

【51CTO.com 速訳】ディープラーニングの課題過去数年間で、ディープラーニング モデルの主要構...

次世代のサイバー脅威はAIから生まれる

ボストン コンサルティング グループ (BCG) によると、米国と日本のサイバーセキュリティ専門家の...

北京ソフトウェア協会が「人工知能委員会」の設立準備を進め、アジアインフォテクノロジーズの欧陽葉博士が委員長に選出される

10月26日、中国科学技術協会社会サービスセンターの支援を受けて、北京ソフトウェア情報サービス協会(...

ジェネレーティブAIの力を最大限に引き出す方法

生成 AI により、機械はコンテンツを作成し、人間の行動を模倣し、創造的な仕事に貢献できるようになり...

ハッシュアルゴリズムに基づくMySQLテーブルパーティション

以下に紹介する Mysql テーブルのパーティショニング プロセスは、ハッシュ アルゴリズムに基づい...

AIによる顔の変形がトレンドになり、人工知能の世界があなたの探索を待っています

昔、携帯電話がなかった頃は、写真を撮りたい人は写真館に行かなければなりませんでした。写真を撮る機会は...

ソーシャルメディア向け AI ツール トップ 10

AI テクノロジーの台頭により、ソーシャル メディアは人間や人間のグループでは得られない洞察を提供...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...

2021年に理解すべき5つのAIコンセプト

人間の知能は、生物学を模倣することで模倣されるべきでしょうか? それとも、鳥類の生物学が航空宇宙工学...

...

産業規模は500億に迫る。産業用ロボット業界は今後何をすべきか?

近年、ロボット技術は急速に発展しており、食品配送ロボットや掃除ロボットなど、さまざまなサービスロボッ...

なぜ今でもMocha DHT-PHEVのような電源ソリューションが必要なのでしょうか?

2021年、国内の新エネルギー乗用車市場はチップ不足や電池原材料価格の高騰など予想外の事態に見舞わ...