AIは進化すればするほど、人間の脳に似てきます！メタは機械の「前頭前野」を発見し、AI学者と神経科学者は驚いた

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

信じられないかもしれませんが、AI が脳と不思議なほどよく似た方法で音声を処理できることが証明されました。

構造的にも互いに対応している——

科学者たちはAIにおける「視覚野」を直接的に特定した。

Meta AIや他の機関によるこの研究が投稿されると、すぐにソーシャルメディアで騒動が起こりました。多くの神経科学者やAI研究者が観戦に訪れました。

LeCun 氏はこれを「素晴らしい研究」と称賛しました。自己教師ありの Transformer レイヤーの活動と人間の聴覚皮質の活動の間には、確かに密接な相関関係があるからです。

一部のネットユーザーもこの機会を利用して冗談を言った。「マーカス、申し訳ないけど、AGIは本当にもうすぐ登場するよ。」

しかし、この研究は一部の学者の好奇心も呼び起こした。

例えば、マギル大学で神経科学の博士課程に在籍するパトリック・ミノー氏は次のように質問した。

私たちはまた、NeurIPS に掲載された論文で fMRI データとモデルを関連付けようとしましたが、当時は両者の間に何らかの関連性があるとは思っていませんでした。

では、これはどのような研究であり、どのようにして「この AI は脳のように機能する」という結論に至ったのでしょうか?

AIは人間の脳のように働くことを学ぶ

つまり、この研究では、研究者らは音声処理の問題に焦点を当て、自己教師ありモデルWav2Vec 2.0と412 人のボランティアの脳活動を比較しました。

412人のボランティアのうち、351人が英語を話し、28人がフランス語を話し、33人が中国語を話しました。研究者らは被験者に約1時間オーディオブックを聞かせ、その間にfMRIを使用して脳の活動を記録しました。

モデル側では、研究者は 600 時間を超えるラベルなし音声を使用して Wav2Vec 2.0 をトレーニングしました。

ボランティアの母国語に対応して、モデルは英語、フランス語、中国語の 3 種類に分かれています。また、非音声音響シーンデータセットでトレーニングされた別のモデルもあります。

その後、モデルたちはボランティアと同じオーディオブックを聴きました。研究者たちはそこからモデルの活性化を抽出した。

関連性の評価基準は次の式に従います。

このうち、X はモデルの活性化、Y は人間の脳の活動、W は標準的なエンコードモデルです。

結果から判断すると、自己教師学習により、Wav2Vec 2.0 は脳のような音声表現を生成できるようになります。

上の図からわかるように、一次聴覚皮質と二次聴覚皮質では、AI はほぼすべての皮質領域における脳活動を明確に予測しました。

研究者らはさらに、AIの「聴覚皮質」と「前頭前野」がどの層に位置しているかも発見した。

この図は、聴覚皮質がトランスフォーマーの最初の層（青）に最もよく一致し、前頭前野がトランスフォーマーの最も深い層（赤）に最もよく一致していることを示しています。

さらに、研究者らは、ネイティブ音素と非ネイティブ音素を認識する人間の能力の違いを定量化し、それを Wav2Vec 2.0 モデルと比較しました。

研究者たちは、AI は人間と同様に、その「母国語」を区別する能力が強いことを発見しました。たとえば、フランス語モデルは英語モデルよりもフランス語からの刺激を認識する可能性が高くなります。

上記の結果は、Wav2Vec 2.0 が特定の言語表現を学習するには600 時間の自己教師学習で十分であることを証明しています。これは、赤ちゃんが話すことを学ぶときにさらされる「データ量」に相当します。

以前の DeepSpeech2 論文では、優れた音声テキスト変換(STT)システムを構築するには、少なくとも10,000 時間の音声データ(ラベル付き)が必要であると考えられていたことを知っておく必要があります。

神経科学とAIコミュニティで再び議論を巻き起こす

この研究に関して、一部の学者は、確かに新たな進歩を遂げたと考えています。

たとえば、Google Brain の Jesse Engel 氏は、この研究により視覚化フィルターが新たなレベルに引き上げられると述べています。

これで、「ピクセル空間」でどのように見えるかを確認できるだけでなく、「脳のような空間」でどのように見えるかをシミュレートすることもできます。

たとえば、元MILAおよびGoogle研究者のジョセフ・ビビアーノ氏は、この研究はfMRIの安静時画像データが有意義であることも証明していると考えています。

しかし、議論の中では疑問の声も上がった。

例えば、神経科学の博士号を持つパトリック・ミノー氏は、同様の研究を行ったが結論には至らなかったと指摘しただけでなく、自らも疑問をいくつか提起した。

彼は、この研究が「音声処理」のプロセスを測定していることを実際に証明するものではないと考えている。

人が話すスピードに比べると、fMRI が信号を測定するスピードは実は非常に遅いため、「Wav2vec 2.0 が脳の行動を学習した」と早急に結論付けるのは非科学的です。

もちろん、パトリック・ミノー氏は、この研究の観点を否定しているわけではなく、自身も「著者のファンの一人」であると述べたが、この研究はより説得力のあるデータを提供するはずだ。

さらに、一部のネットユーザーは、Wav2vecと人間の脳の入力も異なると考えています。一方は処理された波形ですが、もう一方は元の波形です。

この点に関して、著者の一人であるMeta AI研究者のJean-Rémi King氏は次のように要約しています。

確かに、人間レベルの知能をシミュレートするにはまだ長い道のりが残っています。しかし、少なくとも今のところは、私たちは正しい方向に進んでいるのかもしれません。

あなたが思うこと？

論文の宛先:
https://arxiv.org/abs/2206.01685

<<: 世界初の「サイボーグ」が死んだ！さようなら、ピーター 2.0

>>: TensorFlow、危険です! Google自身が放棄している

リアルタイムの洞察を強化: コンピュータービジョンとエッジコンピューティングの相乗効果

AIは進化すればするほど、人間の脳に似てきます！メタは機械の「前頭前野」を発見し、AI学者と神経科学者は驚いた

AIは人間の脳のように働くことを学ぶ

神経科学とAIコミュニティで再び議論を巻き起こす

リアルタイムの洞察を強化: コンピュータービジョンとエッジコンピューティングの相乗効果

人工知能が金融を変える5つの方法

「ブラックミラー」に匹敵する-AI技術が母親に亡くなった娘の姿を見せた

Googleが小規模でGeminiのテストを開始したと報道：GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

Google の新しい AI ツールが人間のコールセンター従業員に取って代わる可能性があります。

ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?

わが国には「人工知能」関連企業が43万社以上あり、2021年上半期には前年比150.8％増加した。

テレンス・タオ：初心者はAIツールを使って専門家レベルのタスクを実行すべきではないし、GPTは専門家にとってあまり役に立たない

グラフを考慮した対照学習により多変量時系列分類が改善

推薦する

IoTとAIのトレンドが今日のビジネスに及ぼす影響

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

AIがFBIに加わったとき、KGBはそれを専門家と呼んだ

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

2021年の主なAIトレンド：AIチップスタートアップのM&Aの可能性

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

自動運転は本当に実現します！最初の発砲は全国7か所で行われた。

プロセス自動化の分野をどのように理解すればよいでしょうか?

MITの研究者らが、致命的な出血を止めるためにAIを活用するハンドヘルドロボットを開発

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

ChatGPTはもう人気がないのでしょうか? OpenAIの主要従業員はグループでGoogleに亡命し、アルトマンがビジネスを理解していないと不満を述べた。

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

IDC: AI支出は2021年に3,420億ドルに達し、将来的にはハードウェア市場が最も急速に成長する