現在の最先端の音声変換システムは、「考える」から「話す」へと進む人間の自然なプロセスと比較すると遅いです。 現在の最先端の NLP システムは、依然として人間の思考のスピードに追いつくのに苦労しています。 たとえば、Google アシスタントや Alexa 仮想アシスタントと対話する場合、一時停止が予想よりも長くなることが多く、実際の人間と話すときのような流暢さを実現できません。
AI が音声を処理し、各単語の意味を判断し、それが AI の能力の範囲内であるかどうかを判断し、どのソフトウェア パッケージまたはプログラムがそれにアクセスして展開できるかを調べ、最終的に理解結果を出力するには時間がかかります。 マクロ的な観点から見ると、これらのクラウドベースのシステムは十分に高速ですが、非言語の人々にとってシームレスなインターフェースを作成し、思考の速度で「話す」ことを可能にするには、まだ十分ではありません。 鳥の鳴き声の研究から始めましょう鳴鳥(鳥の一種)は、複雑な発声行動を研究するための魅力的なモデルです。 鳥の鳴き声は人間の言語と多くの独特な類似点があり、その研究により、発声運動技能の学習、実行、維持の基盤となる複数のメカニズムと回路が全般的に理解されるようになりました。 さらに、鳥の鳴き声を生み出す生体力学は、人間や一部の非人間霊長類と類似点があります。 新たな研究のために、研究チームは12羽のキンカチョウの脳に電極を埋め込み、鳴き声を録音し始めた。 しかし、鳥の鳴き声の神経活動を認識できるように AI を訓練するだけでは十分ではありません。鳥の脳でさえ、ニューロン同士がどのように通信するかを完全に特徴付けるには複雑すぎるのです。 そこで研究者たちは、ライブの歌をAIが認識できるパターンに減らすように別のシステムを訓練した。 この研究では、研究者らは、リアルタイムで実装できる単純な計算手法を使用して、運動前核HVCに埋め込まれた電極アレイから記録された神経集団活動を鳥の鳴き声の低次元圧縮表現にマッピングすることにより、鳥の鳴き声の音声合成装置を実証しました。 これらのマッピングの低次元ターゲットとして鳥の発声器官(鳴管)の生成的生体力学モデルを使用すると、鳥自身の歌声に一致する音を合成することが可能になります。 これらの結果は概念実証を提供します。つまり、高次元で複雑な自然な動作を、進行中の神経活動から「直接」合成できるということです。これは、末梢システムとその出力の時間的構造に関する知識を活用して、他の種が同様の補綴アプローチを実装するきっかけとなる可能性があります。 実験の説明この研究では、キンカチョウ(Taeniopygia guttata)の運動前核から記録された神経活動からリアルな発声信号を合成する 2 つの方法について説明します。それぞれの方法は、発声運動プロセスの異なる特徴を活用します。 まず、研究者らは鳥の鳴き声生成の生体力学に関する知識を活用し、低次元パラメータ空間で鳴き声のスペクトル時間的複雑さの多くを捉える発声器官の生体力学モデルを採用した。 曲の完全な時間周波数表現と比較して、この次元削減により、浅いフィードフォワード ニューラル ネットワーク (FFN) をトレーニングして、ニューラル活動をモデル パラメータにマッピングできるようになります。 2 番目の合成アプローチとして、研究者らは、神経活動と歌の間の時間的共分散における予測コンポーネントを利用しました。これは、音声出力の周波数領域表現 (スペクトログラム) で直接トレーニングされた再帰型長期短期記憶ニューラル ネットワーク (LSTM) によって学習できます。 合成された各ニューロンは感覚運動核 HVC から入力を受け取り、そこでニューロンは学習した歌の生成を促す高レベルのコマンドを生成します。 成鳥のキンカチョウは、3~10 音節の連続からなる固定されたテーマで個別に歌います。 歌唱中、複数の HVC ニューロン サブタイプの活動が調整されます。X 領域と RA 領域をターゲットとする投射ニューロン (HVCx/RA) は、テーマソング中に短く、正確で、まばらな活動バーストを示しますが、抑制性介在ニューロン (HVCI) は、歌唱中により持続的な活動を示します。 アンサンブルの HVC 活動と発声出力を取得するために、成鳥のオスのキンカチョウ (>120 日齢) に 16 チャンネルまたは 32 チャンネルの Si ヘッドステージを埋め込み、各鳥の歌唱中に同時に細胞外電圧を記録しました (n = 4 羽、1 セッションあたり 70~120 回の発声)。 神経記録は Kilosort を使用して自動的に分類され、ノイズを除外するために手動でキュレーションされました。 非ノイズクラスターは、不応期違反の数に基づいて単一ユニット活動 (SUA) または複数ユニット活動 (MUA) として分類され、歌唱中の活動のまばらさに基づいて投射または介在ニューロンとして分類されました。 記録は主に MUA 集団 (n = 88) と HVC 介在ニューロン (HVCI; n = 29) から行われ、推定投射ニューロン (HVCx/RA; n = 15) は比較的少数でした。図 1A は、歌に合わせた神経活動のヒストグラムの例を示しています。図S1は、鳥あたりのクラスターの数のラスター例を示しています。 生体力学的に意味のある圧縮は神経駆動の合成を強化する神経活動を通じて複雑な運動シーケンスを合成するには、2 つの高次元表現間のマッピングが必要です。問題の次元を減らすために、私たちは神経活動を音声出力に変換する鳥の発声器官の生体力学的モデルを利用しました。 このモデルは、鳴管と声道の機能を考慮に入れています。鳴管には唇ひだがあり、鳴管下気嚢からの圧力を受けると振動し、空気の流れを調節して音を出します (図 1B)。 唇のダイナミクスは、非線形振動子の運動方程式に従ってモデル化できます。ここで、生成される音の特性は、生理的な運動コマンドを表す 2 つの時間変動パラメータによって決まります。 生体力学モデルを介して神経活動から歌を合成するために、まずモデルのパラメータを適合させて、各発声の合成バージョンを生成します。 各トレーニングセッションでは、トレーニング用にファントムの 60% をランダムに選択し、各ファントムを 5 ミリ秒単位に分割し、単一の隠れ層 FFNN をトレーニングして、神経活動とは無関係に 50 ミリ秒以内に各単位の対応する生体力学的モデル パラメータを予測しました。神経活動は、1 ミリ秒単位に分割された各クラスターの平均発火率によって表されました。 時間的な相関関係の導入を避けるため、研究者らは、神経活動ウィンドウとターゲット モデル パラメーターの各ペアがネットワークに提示される順序をランダム化しました。トレーニングを通じて、神経活動テストセットに対応する生体力学的モデルのパラメータ値が予測され、モデルの微分方程式が統合されて、神経駆動型合成歌の各ユニットが得られます。 これにより、鳥自身の声に似た合成発声が作成されます。 対照的に、FFNN を使用して曲のスペクトル時間的特徴を直接予測すると、合成品質が低下します。研究者たちは、以前のものと同様のネットワークを訓練したが、64 の周波数帯域のパワーで表される曲のスペクトル内容をターゲットにした。 この方法で合成された各鳥の歌の例 (図 3、オーディオ S1、S2、S3、および S4) は、FFNN がキンカチョウの歌に典型的な明確な倍音スタックを生成できないこと、および声帯の上下を忠実に再現する様子を示しています。 FFNN のモデルパラメータ予測能力は、スペクトル時間係数と比較して異なります (図 2、3、4)。これは、動作の次元を減らすことで予測力を高めることができることを示唆しています。これを確認するために、研究者は、動作のさまざまな「圧縮」、つまりスペクトログラムの最初の 3 つの主成分 (PC) を再現するように FFNN をトレーニングしました。 神経活動から3つのPC値を予測する性能は、生体力学的モデルパラメータを予測する性能と同様でした(図S4A)。後者の利点は、BOS に似た曲を生成できる生成能力にあります。 鳥のスペクトル係数を正確に予測できなかったのは、このモデルが特定の発声に先立つ応答グループ間のより複雑な時間的ダイナミクスを捉えることができなかったことを反映している可能性があります。 これらのダイナミクスを捉えるために、研究者らは、前のセクションで説明したのと同じ入力データと出力データを使用して、直前の 50 ミリ秒の神経活動から直接、歌のスペクトル構成 (64 の周波数帯域) を予測するように LSTM をトレーニングしました。 FFNN とは異なり、LSTM は、予想される鳥自身の歌に似た、ニューラル駆動の歌の合成を生成します (図 3、オーディオ S1、S2、S3、および S4)。 入手可能なオスのキンカチョウの数が限られているため、比較的簡単な方法で直接合成できる可能性がある。ただし、FFNN の損失関数は正規化された非線形回帰に近いため、他のすべての方法と比較して品質の低い曲を予測します。理由は完全には明らかではありませんが、データセットのニューロンサブタイプの構成を反映している可能性があります。 この研究では、複雑な音声動作の生成と学習のために確立された動物モデルにリアルタイムで実装できる計算ブロックを使用した複雑なコミュニケーション信号の BMI を実証しています。このアプローチの利点は、比較的小さなサンプル(数十個)のニューロンの活動を記録することで、動作の低次元パラメータ化を見つけることができることです。表面に位置する HVC 細胞からの記録では、より侵襲性の低いマイクロ電極アレイを使用してこれを行うことができ、BMI に適していることが示されている LFP だけでなく、SUA および MUA も解析できます。 これにより、音声コミュニケーション信号を生成、取得、維持するための神経回路の基礎を調査するための新しいツールが提供され、神経活動がどのように自然な行動に変換されるか、および末梢効果がどのように行動の神経基盤を形成するかを理解することを目的とした新しいモデルと実験へのアクセスが可能になります。 このアプローチは、「声帯修復」戦略の試験場も提供します。鳥の鳴き声は人間の言語とは明らかに異なる点が数多くありますが、2 つの言語システムには、「連続的構成」と「獲得」戦略の特徴、ニューロンの構成と機能の類似性、発声の遺伝的根拠と物理的メカニズム、実験の容易さ、神経系と末梢系の比較的進んだ理解、発声と学習の発達したモデルとしての地位など、多くの類似点があります。これらの共通点により、鳴鳥は、運動 BMI の非ヒト霊長類モデルと同様に、発声 BMI (スピーチ BMI) を促進する魅力的な動物モデルとなっています。 この論文のオリジナルデータとコードリソースが公開されました。 論文の著者の一人であるシュカイ・チェン氏は現在、カリフォルニア大学サンディエゴ校のバイオエンジニアリング学部で計算神経科学を専門とする博士課程の学生である。 音声BMIがDL復活への道を開くこの実験は、重要な問題に対する解決策を提供します。鳥のさえずりをリアルタイムで処理するのは素晴らしいことですが、これを人間の音声で再現できたら素晴らしいことでしょう。 ただし、この研究はまだ初期段階にあり、必ずしも他の音声システムに当てはまるとは限りません。十分な速度で動作させるために、研究者たちは音声分析という近道をとったが、鳥のさえずり以外の範囲に拡張する場合にはうまくいかないかもしれない。 しかし、さらなる開発が進めば、これは2014年のディープラーニングの復活以来、脳コンピューターインターフェースにとって初の大きな技術的飛躍となる可能性がある。 |
<<: 中間レビュー: 2021 年に最も注目される AI スタートアップ 10 社
7月5日、マサチューセッツ工科大学(MIT)とマイクロソフトの研究者らは、GPT-4モデルには優れ...
デジタルセンチネル現在、上海では多くの場所にデジタル監視装置が配備されており、出入国する人は健康コー...
完璧なパートナーを見つけることは、特に新型コロナウイルスによるロックダウンや隔離により対面でのコミュ...
スマート シティ コンセプトの中心にあるのは、情報通信技術 (ICT) の力を活用して都市の課題に対...
リアルタイムAI映像解析技術とは?リアルタイム AI ビデオ分析は、ビデオ ストリームを分析して、特...
ChatGPTは世界中で人気を博しています。今日の質問は、SQL で ChatGPT を実行できる...
知っていましたか? LeNet 畳み込みニューラル ネットワークは iOS デバイス上で直接トレーニ...
ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...
親が子どもの世話をしたり、子どもと遊んだり勉強したり、看護師や介護士の仕事を手伝ったりするロボットに...
量子コンピュータは、従来のコンピュータでは解決に数十億年かかる問題を理論的に解決できますが、十分な量...
[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...
致命的なコロナウイルスによって引き起こされた経済不況は、さまざまな業界に大きな混乱を引き起こしました...