参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータの意味を予測できます。システムの精度はさまざまでしたが、結果は有望でした。 これはまだ始まりに過ぎませんが、非常にエキサイティングなものです。脳の活動をテキストに変換するシステムです。閉じ込め症候群などのように話すことができない人にとって、これは人生を変える出来事となる可能性があります。今のところ、濃い霧の中を覗いているような感じだが、カリフォルニア大学サンフランシスコ校のチャン研究室の研究者たちは、ニューロンデータから意味を抽出できるように機械学習アルゴリズムを訓練した。 「まだそこまでには至っていないが、これが音声補綴装置の基礎になる可能性があると考えている」とネイチャー・ニューロサイエンス誌に掲載された研究論文の共著者ジョセフ・マキン氏はガーディアン紙に語った。 AIを訓練するために、マキン氏と共著者のエドワード・F・チャン氏は4人の参加者の神経活動を聴いた。参加者はてんかん患者であるため、発作を監視するために脳に電極が埋め込まれました。 参加者には 50 の文章が提供され、少なくとも 3 回声に出して読み上げられました。そうすることで、研究者たちは神経データを収集しました。 (録音も行われました。) この研究では、参加者が引用したいくつかの文章がリストアップされており、その中には次のようなものがありました。
アルゴリズムのタスクは、収集されたニューラル データを分析し、データが生成された時期を予測することです。 (参加者の音声録音で記録された非言語音に関連するデータは最初に削除されました。) 研究者のアルゴリズムは、神経データの塊に関連付けられた単語を予測することをすぐに学習しました。 AIは、「小鳥が騒ぎを見ている」と言ったときに生成されたデータは「あの小鳥が騒ぎを見ている」という意味になることを非常によく予測し、「猫と人を救出するためにはしごが使われる」と言ったときには、「どのはしごを使って猫と人を救出するか」ということを予測しました。 正確さは参加者ごとに異なりました。マキン氏とチャン氏は、1人の参加者に基づいたアルゴリズムが別の参加者のトレーニングで有利なスタートを切ったことを発見した。これは、AIのトレーニングが時間の経過とともに繰り返し使用することで容易になる可能性があることを示唆している。 ガーディアン紙は専門家のクリスチャン・ハーフ氏に話を聞いた。ハーフ氏は、このシステムが、ニューラルデータからテキストを抽出する他の試みで必要とされる膨大な時間ではなく、参加者一人当たり40分未満のトレーニングデータしか使用していない点に感銘を受けたという。 「こうすることで、これまで達成できなかったレベルの精度を達成できる」と彼は語った。 神経活動から音声を導き出すこれまでの試みは音声を構成する音素に焦点を当てていたが、マキン氏とチャン氏は単語全体に焦点を当てた。確かに単語の数は音素の数より多いため、これはより大きな課題となるが、研究では「連続した発話における特定の音素の発音は、その前の音素に強く影響され、その区別が難しくなる」と述べている。単語ベースのアプローチの難しさを最小限に抑えるために、発話された文章には合計 250 語が使用された。 明らかに、改善の余地があります。 AIは「あのミュージシャンは素晴らしいハーモニーを持っている」や「ほうれん草は有名な歌手だ」とも予測した。 「彼女は暖かいウールフリースのオーバーオールを着ていた」は「オアシスは幻影だった」と誤解されました。 「泥棒は30個の宝石を盗んだ」は「どの劇場でマザーグースが上映されたか」と誤解され、アルゴリズムが予測したデータ「キッチンは散らかっていた」は「クッキーを盗むのに助けがあった」という意味になった。 もちろん、この研究で使用された語彙は限られており、例文も同様に限られていました。マキン氏は、「50文以上使用しようとすると、解読ははるかに悪くなります」と指摘した。もう1つの明らかな注意点は、AIが各参加者が声に出して話した文でトレーニングされたという事実から生じるが、これはロックダウンされた患者では不可能だろう。 それでも、マキン氏とチャン氏の研究は励みになる。参加者の 1 人の予測には、わずか 3% の修正しか必要ありませんでした。これは、実際には人間による文字起こしで見られる 5% のエラー率よりも優れています。 |
<<: グーグル元会長「人工知能だけでは市場を創出できない」
>>: 目から鱗!ヘルスケアと自動車業界における AI の興味深い応用例 11 選
「人工知能によって人間が失業したわけではない。人工知能に携わる人々が先に失業したのだ」これはもとも...
既存のビジネスやソリューションをベースに、企業は AI 機能を導入することで、どのようにすれば効率性...
インターネットや人工知能に代表される情報技術の台頭により、社会は第三次科学技術革命の時代を迎えていま...
ご存知のとおり、大規模言語モデル (LLM) の動作ロジックでは、サイズが大きくなるにつれて言語生成...
今後 25 年間は、既存の制御可能かつプログラム可能ないわゆる「人工知能」を活用して、人類が生物学の...
2023年ももうすぐ終わりです。過去1年間で、さまざまな大型モデルがリリースされました。 OpenA...
私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...
最近、有名なデータサイエンスのウェブサイト KDnuggets が、2018 年のデータサイエンスお...
[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...
米国現地時間9月8日木曜日、投資会社ニーダム・セキュリティーズは、アマゾン、グーグル、マイクロソフト...
大きなモデルの髪は、本当にどんどんカールしてきています! 11月に、OpenAIはまずGPTを使用し...
Google をよく知っていると思っている人でも、Cloud Next カンファレンスについては聞い...
背景これまで、音楽アルゴリズムのモデル トレーニング タスクは、物理マシン上で開発、デバッグ、スケジ...