AI也有类似人类的“听觉皮层”、“前额叶皮层”机制吗?
近日,Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员就完成了一个关于深度学习模型和人脑之间相似性的研究。
“模拟人类智能是一个遥远的目标。尽管如此,自我监督算法中类脑功能的出现表明我们可能走在正确的道路上。”论文作者之一、Meta AI研究员在推特上发文称。
所以他们有什么发现? 研究发现,AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似,甚至AI也像人类一样,对“母语”有更强的辨别能力,如法语模型就比英语模型更容易感知来自法语的刺激。
Jean-Rémi King在推特上发布的演示视频中展示了AI模型与人脑相互对应的结构:听觉皮层与Transformer的第一层(蓝色)最吻合,而前额叶皮层则与Transformer的最深一层(红色)最吻合。
Wav2Vec 2.0 接受了600小时的语音训练,这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者(351名说英语、28名说法语和33名说中文普通话的人)的大脑活动进行比较。
科学家让参与者听一小时自己母语的有声小说,然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较,包括随机(未经训练的)Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本(speech-to-text)上训练的模型。
实验有四个重要发现。
首先,Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次,Transformer层的功能层次与大脑中语音的皮层层次相吻合,这以前所未有的细节揭示了语音处理的全脑排列。第三,该模型对听觉、语音和语言的表征与人脑的表征趋同。第四,对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。
这些实验结果证明了,600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。
“深度学习三巨头”之一Yann LeCun盛赞这是“出色的工作”,这个团队的研究表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间,确实密切相关。
谷歌大脑的研究员Jesse Engel则称,这项研究将可视化滤波器提升到下一个层次。现在,不仅能看到它们在“像素空间”的样子,而且“类脑空间”中的模样也能模拟出来了。
但也有一些批评声音,如加利福尼亚大学洛杉矶分校的神经科学博士后Patrick Mineault就有些怀疑这篇研究是否真的测量了人类大脑的语音处理过程。因为相比于人说话的速度,fMRI测量信号的速度其实非常慢,这意味解释结果时需要非常谨慎。Mineault也表示自己并非认为研究不可信,但这项研究需要给出一些更有说服力的数据。
Meta AI实际上一直在寻找AI算法与人类大脑之间的联系。此前Meta AI宣布,他们将与神经影像中心Neurospin(CEA)和INRIA合作,试图解码人类大脑和完成语言任务训练的深度学习算法如何对同一段文本作出反应。
举个例子,如通过在一个人主动阅读、说话或聆听时,将人脑扫描与深度学习算法进行比较,并给出相同的单词和句子集进行破译,研究人员希望找到大脑生物学和人工神经网络之间的相似之处以及关键的结构和行为差异,帮助解释为什么人类处理语言的效率比机器高得多。
Meta AI研究科学家Jean-Rémi King说道,“我们正在做的是尝试将大脑活动与机器学习算法进行比较,以了解大脑如何运作,并尝试改进机器学习。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.