Natureサブジャーナル：言語だけでなく、機械翻訳は脳波をテキストに「翻訳」することもできる

人間の脳の神経信号も言語であると考えられるなら、機械翻訳アーキテクチャを神経信号の解釈に適用する実現可能性は驚くべきことではないようです。『ネイチャー・ニューロサイエンス』誌に掲載された論文の中で、カリフォルニア大学サンフランシスコ校の研究者らがこのアイデアを実践した。彼らはエンコーダー/デコーダーフレームワークを使用して脳の神経信号をテキストに変換し、250語のクローズドセンテンスのセットでエラー率を3%に削減しました。

論文リンク: https://www.nature.com/articles/s41593-020-0608-8

過去 10 年間で、脳コンピューターインターフェイス (BMI) は動物実験から人間実験へと移行し、代表的な結果では、四肢麻痺患者が特定の運動能力を取り戻し、空間次元で 2 自由度の連続動作を実現できるようになりました。このタイプのコントロールは、仮想キーボードと組み合わせて使用してテキストを生成することもできますが、理想的なカーソルコントロール (現在は不可能) を使用した場合でも、入力速度は依然として 1 本の指による入力に制限されます。もう一つの選択肢は、話し言葉を直接デコードすることですが、これまでのところ、そのような BMI は、孤立した音素または単一の音節をデコードすること、または中程度に大きい語彙 (約 100 語) からの連続した音声の 40% 未満の語を正しくデコードすることに限られています。

より高い精度を実現するために、カリフォルニア大学サンフランシスコ校の研究者らは、「神経活動から音声を解読する」というタスクと「機械翻訳」というタスクの概念的な類似性を活用した。両方のタスクの目標は、同じ基礎となる分析単位の 2 つの異なる表現間のマッピングを確立することです。より正確には、どちらも任意の長さのシーケンスを別の任意の長さのシーケンスに変換します (任意とは、入力シーケンスと出力シーケンスの長さが異なり、それらの間に決定論的な接続がないことを意味します)。

この研究では、研究者らは、現在のほとんどの機械翻訳アルゴリズムと同様に、一度に 1 つの文をデコードしようとしたため、両方のタスクは実際には同じタイプの出力、つまり文に対応する単語のシーケンスにマッピングされます。一方、これら 2 つのタスクの入力は、それぞれ神経信号とテキストと非常に異なります。しかし、現在の機械翻訳アーキテクチャは、人工ニューラルネットワークを使用してデータから直接機能を学習できるため、機械翻訳のエンドツーエンドの学習アルゴリズムを音声デコードにほぼ直接適用できると考えられます。

この仮説を検証するために、研究者らは音声生成中に、脳波 (ECoG) から取得した神経信号と対応する音声言語の転写を使用して、シーケンスツーシーケンスアーキテクチャをトレーニングしました。さらに、このタスクと機械翻訳の決定的な違いは、後者のデータセットには 100 万を超える文を含めることができるのに対し、この研究の基礎となった EEG 研究の個々の参加者が提供しているのは通常、数千の文だけであるということです。

比較的少ないトレーニングデータでエンドツーエンドの学習の利点を活用するために、研究者は30〜50の異なる文章のみで構成される制限された「言語」を使用し、場合によっては他の参加者や他の音声タスクのデータからの転移学習を採用しました。

この研究の参加者は、通常 1 回のセッションで説明される一連の絵の説明 (30 文、約 125 の異なる単語) と、研究者が MOCHA-1、MOCHA-2 などと呼んでいる 50 文のセッションにグループ化された (最終セットは 60 文) MOCHATIMIT14 (460 文、約 1,800 の異なる単語) の 2 つのデータセットのいずれかから文章を音読しました。時間の許す限りグループセッションを繰り返します。テストでは、少なくとも 3 回繰り返される文のセット (つまり、テスト用に 1 セット、トレーニング用に少なくとも 2 セット) のみを考慮しました。これにより、実際には MOCHA-TIMIT セットは MOCHA-1 (50 文、約 250 個の異なる単語) に制限されます。

方法

ここではまず、次の図に示すように、デコードプロセスについて簡単に説明します。

研究者らは、参加者に文章を声に出して読むよう依頼し、高密度ECoGグリッドを使用してシルビウス周囲皮質の神経活動を記録しました。

各電極では、ECoG 信号の高周波成分 (70～150 Hz、つまり「高 γ」) のエンベロープ (つまり、この範囲での分析信号の振幅) が約 200 Hz で抽出されました。結果として得られたシーケンス（それぞれが文に対応）は、入力データとして「エンコーダー-デコーダー」スタイルの人工ニューラルネットワークに渡されます。

ネットワークはシーケンスを 3 つの段階で処理します。

時間的畳み込み: ECoG データシーケンスのさまざまなポイントで同様の特徴が繰り返される可能性が高く、これは完全に接続されたフィードフォワードネットワークでは利用できません。
エンコーダー RNN: ダウンサンプリングされたシーケンスは、RNN によって順番に処理されます。各タイムステップで、エンコーダー RNN への入力は、ダウンサンプリングされた各シーケンスの現在のサンプルとその前の状態で構成されます。最終的な隠し状態 (上図の黄色のバー) は、シーケンスの長さに関係なく、シーケンス全体の単一の高次元エンコーディングを提供します。トレーニング中にエンコーダーが有用な解決策を見つけられるようにするために、研究者らはエンコーダーに、各タイムステップでの音声オーディオ信号の表現、つまりメル周波数ケプストラム係数 (MFCC) のシーケンスを予測するように依頼しました。
デコーダー RNN: 最後に、高次元の状態を別のシーケンス、つまり単語のシーケンスに変換する必要があります。したがって、2 番目の RNN を初期化し、各タイムステップで単語またはシーケンス終了トークンのいずれかをデコードするようにトレーニングします (その時点でデコードを終了します)。出力シーケンスの各ステップで、デコーダーは、自身の以前の隠し状態に加えて、参加者が実際に話した文の前の単語 (モデルトレーニングフェーズ中) または前のステップでデコーダー自身が予測した単語 (テストフェーズ中) を入力として受け取ります。音声デコードのために音声音素をターゲットとするこれまでのアプローチとは対照的に、このアプローチは単語をターゲットとします。

ネットワークアーキテクチャ

ネットワーク全体が同時にトレーニングされるため、エンコーダーはターゲット MFCC に近い値を生成し、デコーダーは各ターゲット単語に高い確率を割り当てます。 MFCC の目的は「補助損失」を提供することに留意してください。これは、語順デコード問題に対する十分な解決策を見つけるためにネットワークを導くことを目的とする、マルチタスク学習の一形態です。テスト中、MFCC 予測は破棄され、デコーダー RNN の出力のみに基づいてデコードが行われます。すべてのトレーニングは、バックプロパゲーションによる確率的勾配降下法によって実行され、ドロップアウトがすべてのレイヤーに適用されます。

実験結果

実験全体を通して、研究者は平均単語誤り率（WER、すべてのテスト文で計算）を使用してパフォーマンスを定量化し、完璧なデコードでは WER が 0% になるようにしました。参考までに、音声文字起こしでは、5% WER はプロフェッショナルレベルと見なされ、20～25% は許容できるパフォーマンスと見なされます。これは、参照語彙がはるかに大きいにもかかわらず、音声認識テクノロジで広く採用されている標準でもあります。

まず、MOCHA-1 から 50 の文 (約 250 の異なる単語) を話す参加者の例に対するエンコーダー/デコーダーフレームワークのパフォーマンスを検討します (下の図を参照)。下の図の参加者の平均 WER は約 3% です。これまでの最先端の方法では、音声デコード WER が 60% に達し、実験にはより小さな語彙サイズ (100 語) が使用されました。

デコードされた文章の WER。

エンコーダー/デコーダーネットワークの優れたパフォーマンスの理由は何ですか?さまざまな要因の寄与を定量化するために、研究者らはそれらを体系的に削除または弱め、ネットワークを最初からトレーニングしました。上の図の 2 番目のボックスは、データを空間的にダウンサンプリングして、より低密度の ECoG グリッドをシミュレートするパフォーマンスを示しています。具体的には、グリッドの両方の次元のチャネルの 4 分の 1 のみが残ります (つまり、実際には 256 チャネルではなく 64 チャネル)。 WER は約 4 倍高くなっていますが、これはまだ使用可能な範囲内であり、アルゴリズムにとって高密度グリッド以外の要素が重要であることを示しています。

3 番目のボックスは、トレーニング中に MFCC がロックされていない場合のパフォーマンスを示しています。WER は低密度グリッドデータを使用してトレーニングされたモデルの WER に近いですが、それでも以前の音声デコード方法よりも大幅に優れています。

次に研究者らは、入力層が畳み込みではなく完全に接続されたネットワーク（4 番目のボックス）を検討したところ、WER は元のネットワークよりも 8 倍高くなりました。

次に、高いパフォーマンスを実現するために必要なデータの量を検討します。下の図は、ニューラルネットワークトレーニングの繰り返し回数の関数として 4 人の参加者の WER を示しています。合計で 40 分を超えるトレーニングデータを持つ参加者はおらず、トレーニングの繰り返しが 15 回以上ある場合、WER は 25% を下回ることがあります。

下の図には、MOCHA 文のトレーニングをほとんど行わなかった 2 人の参加者 (参加者 A/緑の実線、参加者 D/茶色の実線) がおり、そのためデコードパフォーマンスが低かったです。

<<: AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート

>>: 売上を予測するための 5 つの機械学習テクニック