脳コンピューターインターフェースツール：脳波からテキストまで、必要なのは機械翻訳モデルだけ

[[320655]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

機械翻訳はまさに万能です。詩や連句を書いたり、微分方程式を導いたりできるだけでなく、脳波情報を読み取ることもできます。

昨日、カリフォルニア大学サンフランシスコ校のジョセフ・マキン氏らは、「エンコーダー・デコーダー・フレームワークによる皮質活動のテキストへの機械翻訳」と題する論文を Nature Neuroscience に発表しました。

この論文の基本的な考え方は極めてシンプルです。彼らは、脳波をテキストに変換することを、脳波を入力シーケンス、テキストを出力シーケンスとする機械翻訳のプロセスとみなしました。

被験者にテキストを声に出して読んでもらうことで、対応する脳領域の電気波が収集され、トレーニングデータセットが形成され、エンドツーエンドの機械翻訳モデルがトレーニングされます。

このようにして、研究者たちは、被験者の脳波をわずか 3% のエラー率で「正確」かつ「リアルタイム」に文章に変換できるモデルを獲得しました。

この革新は間違いなく革命的です。

脳制御タイピングに使用されている現在の脳コンピューターインターフェース技術の一部は、主に頭や目の残留運動に依存しています。ホーキング博士を例に挙げてみましょう。彼は指の動きで仮想キーボードを制御し、表現したい言葉を入力することができます。しかし、この方法では 1 分間に最大 8 語しか入力できません。

話し言葉（または話し言葉の試み）をテキストにデコードする試みはいくつか行われてきましたが、これまでのところ、単一の音素または単一の音節のデコードに限られており、中程度のテキスト（100語程度）ではエラー率が60%を超えることがよくあります。

ジョセフらの研究は、ほとんど遅延なく脳波を直接テキストに変換するものであり、麻痺患者にとって大きな恩恵となることは間違いありません。

全体的なアイデア

前述のように、著者は自然言語処理の分野から概念を借用しました。自然言語機械翻訳では、テキストは 1 つの言語から別の言語に翻訳されます。脳波をテキストに変換することは、実際には同様の「翻訳」プロセスです。

概念的には、両方のシナリオの目標は、2 つの異なる表現間のマッピング関係を確立することです。より具体的には、どちらの場合も、任意の長さのシーケンスを別の任意の長さのシーケンスに変換することが目標です。

ここで「任意」という言葉を強調することが重要です。入力シーケンスと出力シーケンスの長さは変化し、それらの間に必ずしも決定論的な 1 対 1 の対応が存在する必要はないからです。ジョセフらによるこの研究では、一度に 1 つの文をデコードしようとしましたが、これはディープラーニングに基づく現在のエンドツーエンドの機械翻訳アルゴリズムに似ています。 2 つの類似点は、同じ種類の出力、つまり文中の単語のシーケンスにマッピングされることです。違いは、機械翻訳の入力はテキストであるのに対し、ジョセフらの研究の入力は神経信号であるという点です。被験者は文章を声に出して読み、実験者は高密度脳波（ECoGグリッド）を使用して参加者の大脳皮質から信号を収集しました。

したがって、神経信号をわずかに処理した後、seq2seq 機械翻訳モデルをほとんど変更せずにエンドツーエンドのトレーニングに直接使用できます。この作業で最も難しいのは、十分なトレーニングデータセットをどのように取得するかです。機械翻訳のデータセットは数百万に達する可能性があることはわかっていますが、この実験では各被験者が提供できるデータはせいぜい数千個です。トレーニングデータが乏しい状況で、エンドツーエンド学習の利点を最大限に活用するために、著者らは 30 ～ 50 個の独立した文のみで構成される制限された「言語」を使用しました。

モデル

この研究では、入力データを収集するために、参加者に文章を声に出して読んでもらい、脳波の活動を観察しました。読み上げる必要のあるデータの 1 セットは、約 30 の文と 125 語からなる絵の説明です。もう 1 セットは、MOCHA-TIMIT コーパスデータベースのデータを使用しており、1 つのグループに 50 の文があり、最後のグループには 60 の文が含まれています。

合計 4 人の参加者が音読を行い、研究者は 3 回音読された文章セットのみを検討し、1 回はテストに、2 回はトレーニングに使用しました。参加者は声に出して読むときに脳波を出した。研究者らは参加者に電極を挿入した後、高密度のECoGグリッドを使用して参加者の大脳皮質から信号を収集した。

収集された脳波信号とそれに対応する読み上げられた文章は、「エンコード-デコード」アーキテクチャを備えた人工ニューラルネットワークにデータとして入力されます。

上の図に示すように、人工ニューラルネットワークは入力データを 3 つの段階で処理します。

1. 時間的畳み込み: EEG 信号データシーケンスのさまざまなポイントで、いくつかの類似した特徴が繰り返される場合がありますが、これは完全に接続したフィードフォワードニューラルネットワークでは明らかに処理できません。このパターンを効果的に学習するために、ネットワークは特定のステップサイズを間隔として使用し、各間隔に同じ時間フィルターを適用します。

2. エンコーダー再帰型ニューラルネットワーク: 時間畳み込み処理の後、特徴シーケンスが生成されます。特徴シーケンスはエンコーダー再帰型ニューラルネットワークに入力されます。次に、ニューラルネットワークの隠れ層が、長さに依存しないシーケンス全体の高次元エンコードを提供します。

3. デコーダー再帰型ニューラルネットワーク: デコード段階では、高次元シーケンスを単語に「翻訳」することに重点が置かれます。このとき、リカレントニューラルネットワークが初期化され、各ステップで単語を予測します。予測結果がシーケンス終了トークンである場合、デコードは停止します。著者が使用したニューラルネットワークフレームワークを次の図に示します。

ネットワーク全体をトレーニングする目的は、ニューラルネットワークが適切なシーケンスデコードを生成できるように導く MFCC (メルケプストラム係数特徴) に近づくことです。

ただし、モデルテストフェーズでは MFCC は放棄され、デコードはデコーダーニューラルネットワークの出力に完全に依存します。モデルのトレーニングでは、トレーニングプロセス全体を通じて確率的勾配降下法が使用され、すべてのネットワーク層にドロップアウトが適用されます。

モデルの評価は、単語誤り率（WER）によって定量化されます。WERの基本的な考え方は、正解と機械の認識結果を単語ごとに組み合わせ、余分な単語、欠落した単語、誤って認識された単語を合計してエラーとしてカウントし、実際の単語の総数に対する誤った単語の割合を計算することです。

検証後、参加者全員の平均 WER は 33% となり、これは現在最も先進的な音声デコードの 60% WER よりも優れています。

実験結果

著者らは論文の中で合計 2 つの実験を行った。1 つは「制御変数」に似た方法を使用して、モデルのパフォーマンスが非常に優れている理由を調べること、もう 1 つは転移学習を通じて他の参加者のモデルパフォーマンスを向上させることである。

「コントロールバリアント」実験では、著者らはネットワークを再トレーニングし、上図の 2 番目のボックスは、低密度の ECoG グリッドとダウンサンプリングを使用したパフォーマンスを示しています。さらに、著者はチャネルの 1/4 のみを残しました。つまり、256 チャネルではなく 64 チャネルのみを使用しました。このときのエラー率は、以前の 4 倍になりました。

つまり、高密度 EEG グリッドに加えて、アルゴリズムも非常に重要なのです。 3 番目のボックスは、追加の MFCC がない場合のパフォーマンスです。エラー率は低密度 EEG グリッドと同様ですが、以前の音声デコードの試みよりも優れています。 4 番目のボックスは、完全接続ネットワークを使用した結果です。畳み込みネットワークの場合、完全接続ネットワークのワードエラー率は以前よりも 8 倍高くなります。しかし、実験では、高γ信号を送信する前にダウンサンプリングすることで、完全接続ネットワークの使用によって発生する単語誤り率を解決できることが発見されました。

最後に、著者らは実験を繰り返すことで単語誤り率に影響があるかどうかを定量化した。研究では、少なくとも 15 回の繰り返しトレーニングを行うと、エラー率を 25% 未満に低減できることが分かりました。上図に示すように、トレーニング回数が少ない場合、参加者AとBのデコード性能は非常に悪いです。この問題を解決するために、著者は転移学習を試みました。

上の図 a の最初のボックスは MOCHA-1 データでトレーニングされており、エラー率は 53% です。参加者 B のより豊富なデータセットで最初に事前トレーニングされたときのネットワークのパフォーマンスを考慮すると、この転移学習により単語エラー率が約 17% 削減されます (上の図 a の最初のボックスから 2 番目のボックスまで表示)。

著者らは、エンコーダー-デコーダーネットワークを参加者 b のすべての MOCHA-TIMIT データで事前トレーニングし、次に参加者 a のすべての MOCHA-TIMIT データでトレーニングして、通常どおり参加者 a の MOCHA-1 ブロックでテストするという、転移学習の組み合わせ形式も検討しました。この「二重転移学習」（図 a、4 番目のボックス）により、ベースラインと比較して単語エラー率が 36% 減少し、タスク転移学習よりも改善されました。

したがって、改善が逆方向、つまり参加者 a から参加者 b に伝達されるかどうかは、上の図 b に示すように、明らかに可能です。

MOCHA-TIMIT データで最悪の成績を収めた参加者 d の場合、残りの MOCHAT 文をトレーニングセットに追加しても結果は改善されませんでした (図 c を参照)。

話し合う

明らかに、この研究の最大の欠点は、データセットが 250 語と 30 ～ 50 文と小さすぎることです。

この技術を一般的な自然言語に拡張したい場合は、どのくらいのデータがあれば十分なのか、また十分なデータを取得するにはどうすればよいのかを検討する必要があります。実際、長期間にわたって被験者の脳に脳波 (ECoG) グリッドを挿入することが可能であれば、利用可能なトレーニングデータの量は、30 分間のデータしか収集されなかったこの実験よりも数桁多くなります。

実際のアプリケーションでは、話す能力を失った人がいる状況がありますが、パフォーマンスはわずかに低下しますが、この方法は適用できます。

ここで、AI Technology Review は、機械翻訳の本質は、ある情報シーケンスを別の情報シーケンスにマッピングすることにあることを強調したいと思います。特に現在のエンドツーエンドのテクノロジーでは、問題の表現方法を変えて、シーケンス間のマッピング問題に変換し、十分なトレーニングデータを収集できれば、既存の機械翻訳テクノロジーを使用して大きな変化をもたらすことができます。

<<: 清華大学の学生が強化学習プラットフォーム「TianShou」を開発：数千行のコードが完成、オープンソース化

>>: 工場に産業用 IoT テクノロジーを導入する 5 つの理由