Natureサブジャーナル:言語だけでなく、機械翻訳は脳波をテキストに「翻訳」することもできる

Natureサブジャーナル:言語だけでなく、機械翻訳は脳波をテキストに「翻訳」することもできる

人間の脳の神経信号も言語であると考えられるなら、機械翻訳アーキテクチャを神経信号の解釈に適用する実現可能性は驚くべきことではないようです。 『ネイ​​チャー・ニューロサイエンス』誌に掲載された論文の中で、カリフォルニア大学サンフランシスコ校の研究者らがこのアイデアを実践した。彼らはエンコーダー/デコーダーフレームワークを使用して脳の神経信号をテキストに変換し、250語のクローズドセンテンスのセットでエラー率を3%に削減しました。

論文リンク: https://www.nature.com/articles/s41593-020-0608-8

過去 10 年間で、脳コンピューター インターフェイス (BMI) は動物実験から人間実験へと移行し、代表的な結果では、四肢麻痺患者が特定の運動能力を取り戻し、空間次元で 2 自由度の連続動作を実現できるようになりました。このタイプのコントロールは、仮想キーボードと組み合わせて使用​​してテキストを生成することもできますが、理想的なカーソル コントロール (現在は不可能) を使用した場合でも、入力速度は依然として 1 本の指による入力に制限されます。もう一つの選択肢は、話し言葉を直接デコードすることですが、これまでのところ、そのような BMI は、孤立した音素または単一の音節をデコードすること、または中程度に大きい語彙 (約 100 語) からの連続した音声の 40% 未満の語を正しくデコードすることに限られています。

より高い精度を実現するために、カリフォルニア大学サンフランシスコ校の研究者らは、「神経活動から音声を解読する」というタスクと「機械翻訳」というタスクの概念的な類似性を活用した。両方のタスクの目標は、同じ基礎となる分析単位の 2 つの異なる表現間のマッピングを確立することです。より正確には、どちらも任意の長さのシーケンスを別の任意の長さのシーケンスに変換します (任意とは、入力シーケンスと出力シーケンスの長さが異なり、それらの間に決定論的な接続がないことを意味します)。

この研究では、研究者らは、現在のほとんどの機械翻訳アルゴリズムと同様に、一度に 1 つの文をデコードしようとしたため、両方のタスクは実際には同じタイプの出力、つまり文に対応する単語のシーケンスにマッピングされます。一方、これら 2 つのタスクの入力は、それぞれ神経信号とテキストと非常に異なります。しかし、現在の機械翻訳アーキテクチャは、人工ニューラル ネットワークを使用してデータから直接機能を学習できるため、機械翻訳のエンドツーエンドの学習アルゴリズムを音声デコードにほぼ直接適用できると考えられます。

この仮説を検証するために、研究者らは音声生成中に、脳波 (ECoG) から取得した神経信号と対応する音声言語の転写を使用して、シーケンスツーシーケンス アーキテクチャをトレーニングしました。さらに、このタスクと機械翻訳の決定的な違いは、後者のデータセットには 100 万を超える文を含めることができるのに対し、この研究の基礎となった EEG 研究の個々の参加者が提供しているのは通常、数千の文だけであるということです。

比較的少ないトレーニングデータでエンドツーエンドの学習の利点を活用するために、研究者は30〜50の異なる文章のみで構成される制限された「言語」を使用し、場合によっては他の参加者や他の音声タスクのデータからの転移学習を採用しました。

この研究の参加者は、通常 1 回のセッションで説明される一連の絵の説明 (30 文、約 125 の異なる単語) と、研究者が MOCHA-1、MOCHA-2 などと呼んでいる 50 文のセッションにグループ化された (最終セットは 60 文) MOCHATIMIT14 (460 文、約 1,800 の異なる単語) の 2 つのデータセットのいずれかから文章を音読しました。時間の許す限りグループセッションを繰り返します。テストでは、少なくとも 3 回繰り返される文のセット (つまり、テスト用に 1 セット、トレーニング用に少なくとも 2 セット) のみを考慮しました。これにより、実際には MOCHA-TIMIT セットは MOCHA-1 (50 文、約 250 個の異なる単語) に制限されます。

方法

ここではまず、次の図に示すように、デコード プロセスについて簡単に説明します。

研究者らは、参加者に文章を声に出して読むよう依頼し、高密度ECoGグリッドを使用してシルビウス周囲皮質の神経活動を記録しました。

各電極では、ECoG 信号の高周波成分 (70~150 Hz、つまり「高 γ」) のエンベロープ (つまり、この範囲での分析信号の振幅) が約 200 Hz で抽出されました。結果として得られたシーケンス(それぞれが文に対応)は、入力データとして「エンコーダー-デコーダー」スタイルの人工ニューラル ネットワークに渡されます。

ネットワークはシーケンスを 3 つの段階で処理します。

  1. 時間的畳み込み: ECoG データ シーケンスのさまざまなポイントで同様の特徴が繰り返される可能性が高く、これは完全に接続されたフィードフォワード ネットワークでは利用できません。
  2. エンコーダー RNN: ダウンサンプリングされたシーケンスは、RNN によって順番に処理されます。各タイムステップで、エンコーダー RNN への入力は、ダウンサンプリングされた各シーケンスの現在のサンプルとその前の状態で構成されます。最終的な隠し状態 (上図の黄色のバー) は、シーケンスの長さに関係なく、シーケンス全体の単一の高次元エンコーディングを提供します。トレーニング中にエンコーダーが有用な解決策を見つけられるようにするために、研究者らはエンコーダーに、各タイムステップでの音声オーディオ信号の表現、つまりメル周波数ケプストラム係数 (MFCC) のシーケンスを予測するように依頼しました。
  3. デコーダー RNN: 最後に、高次元の状態を別のシーケンス、つまり単語のシーケンスに変換する必要があります。したがって、2 番目の RNN を初期化し、各タイム ステップで単語またはシーケンス終了トークンのいずれかをデコードするようにトレーニングします (その時点でデコードを終了します)。出力シーケンスの各ステップで、デコーダーは、自身の以前の隠し状態に加えて、参加者が実際に話した文の前の単語 (モデル トレーニング フェーズ中) または前のステップでデコーダー自身が予測した単語 (テスト フェーズ中) を入力として受け取ります。音声デコードのために音声音素をターゲットとするこれまでのアプローチとは対照的に、このアプローチは単語をターゲットとします。

ネットワークアーキテクチャ

ネットワーク全体が同時にトレーニングされるため、エンコーダーはターゲット MFCC に近い値を生成し、デコーダーは各ターゲット単語に高い確率を割り当てます。 MFCC の目的は「補助損失」を提供することに留意してください。これは、語順デコード問題に対する十分な解決策を見つけるためにネットワークを導くことを目的とする、マルチタスク学習の一形態です。テスト中、MFCC 予測は破棄され、デコーダー RNN の出力のみに基づいてデコードが行われます。すべてのトレーニングは、バックプロパゲーションによる確率的勾配降下法によって実行され、ドロップアウトがすべてのレイヤーに適用されます。

実験結果

実験全体を通して、研究者は平均単語誤り率(WER、すべてのテスト文で計算)を使用してパフォーマンスを定量化し、完璧なデコードでは WER が 0% になるようにしました。参考までに、音声文字起こしでは、5% WER はプロフェッショナルレベルと見なされ、20~25% は許容できるパフォーマンスと見なされます。これは、参照語彙がはるかに大きいにもかかわらず、音声認識テクノロジで広く採用されている標準でもあります。

まず、MOCHA-1 から 50 の文 (約 250 の異なる単語) を話す参加者の例に対するエンコーダー/デコーダー フレームワークのパフォーマンスを検討します (下の図を参照)。下の図の参加者の平均 WER は約 3% です。これまでの最先端の方法では、音声デコード WER が 60% に達し、実験にはより小さな語彙サイズ (100 語) が使用されました。

デコードされた文章の WER。

エンコーダー/デコーダー ネットワークの優れたパフォーマンスの理由は何ですか?さまざまな要因の寄与を定量化するために、研究者らはそれらを体系的に削除または弱め、ネットワークを最初からトレーニングしました。上の図の 2 番目のボックスは、データを空間的にダウンサンプリングして、より低密度の ECoG グリッドをシミュレートするパフォーマンスを示しています。具体的には、グリッドの両方の次元のチャネルの 4 分の 1 のみが残ります (つまり、実際には 256 チャネルではなく 64 チャネル)。 WER は約 4 倍高くなっていますが、これはまだ使用可能な範囲内であり、アルゴリズムにとって高密度グリッド以外の要素が重要であることを示しています。

3 番目のボックスは、トレーニング中に MFCC がロックされていない場合のパフォーマンスを示しています。WER は低密度グリッド データを使用してトレーニングされたモデルの WER に近いですが、それでも以前の音声デコード方法よりも大幅に優れています。

次に研究者らは、入力層が畳み込みではなく完全に接続されたネットワーク(4 番目のボックス)を検討したところ、WER は元のネットワークよりも 8 倍高くなりました。

次に、高いパフォーマンスを実現するために必要なデータの量を検討します。下の図は、ニューラル ネットワーク トレーニングの繰り返し回数の関数として 4 人の参加者の WER を示しています。合計で 40 分を超えるトレーニング データを持つ参加者はおらず、トレーニングの繰り返しが 15 回以上ある場合、WER は 25% を下回ることがあります。

下の図には、MOCHA 文のトレーニングをほとんど行わなかった 2 人の参加者 (参加者 A/緑の実線、参加者 D/茶色の実線) がおり、そのためデコード パフォーマンスが低かったです。

<<:  AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート

>>:  売上を予測するための 5 つの機械学習テクニック

ブログ    

推薦する

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

AIスタートアップで2年間働いて学んだ7つのこと

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能があなたの生活を変える10の方法

人類は歴史の中で長い道のりを歩んできましたが、現在の技術の進歩は人類の進歩のペースを加速させ、すべて...

Google Loon の AI が開発者を驚かせる理由

北京時間3月5日、人工知能を使ったアルゴリズムが予想外のトリックで問題を解決しようとしており、開発者...

将来のデジタル環境を一変させる 5 つのテクノロジートレンド

テクノロジーが世界を変えたというのは議論の余地のない事実です。古代の鋤から今日の印刷機やパソコンまで...

チューリングマシン: コンピューターが存在しないときに計算についてどのように話せばいいのでしょうか?

1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...

50%-70%スリムダウン、Ctrip Taroミニプログラムサイズ削減計画

著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...

OpenCV を使用した画像の二値化とグレースケール変換

関連概念バイナリ画像とは、2 つの色 (通常は黒と白) のみを含む画像です。バイナリ画像では、各ピク...

機械翻訳の3つのコア技術原則 | AI知識の普及

機械翻訳技術は 80 年以上にわたって開発されてきました。バベルの塔の伝説は過去のものとなりました。...

無人運転は地方で大きな発展の可能性を秘めている

農業人口の高齢化と低所得化により、牛による耕作、手作業による移植、手作業による収穫といった伝統的な農...

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

春の耕作シーズンとなり、全国各地で春耕作が行われています。農業農村部の最新データによると、国内の春穀...

TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...

たった今、アリババが重大な技術的爆弾を発表しました!

人類史上のスーパープロジェクトとは何でしょうか?ピラミッド、万里の長城、ドバイワールドアイランド、三...

未来を待つ必要はありません。分析と AI の災害はすでに起こっています。

データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...