“意念打字”速度接近常人手机聊天，专家：这比马斯克的“猴子玩游戏”难多了

“意念打字”速度接近常人手机聊天，专家：这比马斯克的“猴子玩游戏”难多了 | Nature封面

分享至

作者 | 陈彩娴、琰琰

5月12日，《Nature》发布最新一期封面研究：斯坦福大学的研究人员开发了一项新的脑机接口技术，能够使瘫痪患者直接将脑海里的“想法”转换为电脑屏幕上的手写文字，“打字”速度突飞猛进！

研究一经发布，立刻引起广泛关注！

一般来说，正常人思考的速度远远快于交流的速度。比如，我们在使用手机或电脑时，往往是用手敲键盘，写出脑海里事先已经形成的“表达”。打字的速度是紧跟在想法后面的。

然而，对于绝大多数行动不便的瘫痪患者而言，尽管他们的大脑思考速度与正常人无异，但在信息时代，使用智能设备、与周围人交流时，却十分困难。

为此，来自斯坦福大学、布朗大学和哈佛医学院的研究人员共同开发了一种专门用于打字的脑机接口技术，使瘫痪患者的打字交流速度加快。

图注：输入速度对比（来源：NPG Press）

除了脑机接口界面，这项研究还用到了人工智能技术来提高“读心”的准确率：

研究人员用AI模型学习神经活动和手指活动的映射关系，特定的手指活动对应特定的字符，使用的算法是RNN（用于学习模式）以及降维方法（用于聚类），然后又用一个语言模型（通过前几个字符预测下一个字符），对输出的初始结果进行校正，使最终屏幕上呈现的结果（文字）更加准确。

此前，脑机接口技术已经成功帮助瘫痪患者做简单的动作（比如伸手或操纵大型物体）。继马斯克公司Neuralink在上个月发布猴子用意念玩游戏后，脑机接口研究便被寄予提高瘫痪患者幸福感的更大期望。斯坦福的这项研究，也许是脑机接口+AI对“技术向善”的又一助力！

研究详情

目前，市面上的打字辅助设备功能，是用户通过眼睛眨动或语音传递来下达“打字”命令。

其中，瘫痪患者使用眼动追踪键盘时，每分钟可以打出大约47.5个字符，比正常打字的速度（每分钟约115个字符）要慢许多，且可能对患者的身体造成一定程度的损害。而且，眼动追踪键盘也不适用于视力或发声有障碍的患者，也不方便用户重新阅读电子邮件、以便在用眼睛打字时根据邮件内容组织回复内容。

相比之下，脑机接口可以通过解析大脑里的想法来帮助患者“打字”交流，损害小，也更灵活。

然而，此前的脑机接口打字技术还无法与眼动仪等打字辅助设备相比，其中一个原因是：打字是一项复杂的任务。

在英语打字时，我们是从26个拉丁字母中进行选择。基于用户的神经活动，建立分类算法来预测用户想要选择的字母，非常具有挑战性，所以脑机接口已间接解决了键入任务。

例如，非侵入性脑机接口拼写器向用户提供了几个顺序的视觉提示，并分析了用户对所有提示的神经反应，从而确定了他们想敲打的字母。最成功的侵入式脑机接口是iBCI技术，在大脑中植入电极（例如马斯克的Neuralink溜猪、猴子用意念玩游戏），使用户可以控制光标来选择字母键，并实现了每分钟打40个字符的速度。

但是，这些iBCI与非侵入式眼动仪一样，占据了用户的视觉注意力，且无法保证提高他们的打字速度。

因此，来自斯坦福大学研究科学家Frank Willett与同事开发了一种不同的方法，可以直接解决iBCI中的打字任务，在用户思考时对字母进行解码（如图1所示）。

图1：Willett等人开发的脑机接口技术，能够通过预测神经活动，将瘫痪患者脑海里想象的打字内容转换为电脑屏幕上的文本。在用户想象要写的字母时，植入大脑的电极可以测量许多神经元的活动（线条表示每个神经元发射的时间点）。递归神经网络（RNN）学习每个字母产生的神经活动模式，并分析这些活动模式在多个试验中的关系，从而生成聚类图。算法会使用此信息来预测当前试验中参与者所想象的字母，并将该预测转换为印刷输出。

这项研究需要一种可以预测瘫痪用户想写的字母或标点符号的分类算法。这是一个挑战，因为我们无法观察到人类大脑中的真实想法。

为了克服这一挑战，Willett等人改写了一个最初为语音识别而开发的机器学习算法，使得他们可以仅根据神经活动，在用户尝试打字时对其手和手指进行预测。每当研究参与者想象的字母与给定的字母一致时，就会产生神经活动的模式。根据这些信息，小组产生了一个标记的数据集，数据集中包含与每个字母相对应的神经活动模式，然后他们再使用这个数据集来训练分类算法。

为了评估手写的神经表征，受试者需要按照电脑屏幕给出的指令，一次 “手写” 一个字符，每个字母重复 27 次试验。

图注：受试者的 “手写” 笔迹（来源：NPG Press）

为了在这样的高维空间中实现准确的分类，Willett及其同事的分类算法使用了当前的多个机器学习方法，以及擅长预测顺序数据的递归神经网络（RNN）。

RNN需要足够的训练数据，但这些数据在神经接口中受到限制，因为很少有用户能够连续几个小时在思考自己要写的内容。

为此，研究人员使用一种数据增强的方法，在该方法中，先前由参与者生成的神经活动模式可以用于生成人工语句，然后在人工语句上训练RNN。他们还通过在神经活动模式中引入人工可变性来扩展训练数据，以模仿人脑中自然发生的变化。这种可变性可以使加了RNN的脑机接口技术更加鲁棒。

图注：笔迹的神经表征。

研究结果与思考

通过上述方法，Willett和同事的算法能够进行非常准确的分类，从而在94.1％的时间内选出正确的字符。通过包含预测语言模型（类似于在智能手机上自动校正错别字的模型），他们将脑中文字转为屏幕文字的准确性提高到99.1％。参与者能够以每分钟90个字符的速度准确输入内容，性能比之前的iBCI提高了两倍。

这项研究的成就不仅仅来自机器学习，解码器的性能与馈入解码器的数据同样出色，这一点也至关重要。研究人员发现，与手写尝试相关的神经数据特别适合打字任务和分类。实际上，即使使用更简单的线性算法，手写笔记也可以进行很好的分类，这表明，神经数据对这项研究的成功起了很大的作用。

通过模拟分类算法在用不同类型的神经活动进行测试时的表现， Willett等人得出了重要的发现：手写时的神经活动比用户尝试画直线时的神经活动具有更大的字母时间变化性，这种可变性使分类更容易。

Willett及其同事的研究展示了脑机接口技术的乐观前景。iBCI将需要提供巨大的性能和可用性优势，以证明在大脑中植入电极的费用和风险是合理的。

图注：植入大脑的微型电极阵列（来源：BrainGate）

值得注意的是，打字速度并不是决定脑机接口技术是否被采用的唯一因素，生命周期和鲁棒性也需要考虑。在这项研究中，斯坦福的研究人员证明了，他们的算法在有限的训练数据下也能很好地运行，但随着神经活动模式的改变，可能需要做进一步的研究，以使该设备在其生命周期内保持稳定的性能。

另一个问题是：该方法要如何扩展并转换为其他语言？Willett和同事的模拟表明，26个拉丁字母中，有几个字母的书写方法是相似的（比如r、v和u），因此比其他字母更难分类。在其他语言中，比如泰米尔语，有247个紧密相关的字母，可能很难分类。对于机器学习预测语言模型中尚未很好表示的语言，翻译问题尤为重要。

尽管仍有许多工作要做，但Willett和同事的研究是一个里程碑，拓宽了iBCI应用落地的前景。这项研究使用了快速发展的机器学习方法，插入最新模型，为将来的脑机接口技术改进提供了一条乐观的途径。

该团队还公开了他们的数据集，这也会加快脑机接口的发展速度，使瘫痪患者的交流速度加快成为现实。

真正的科学前沿研究

这一成果公布后，AI科技评论第一时间联系到了国内研究脑机接口的知名学者崔翯老师，崔翯老师中国科学院脑科学与智能技术创新中心高级研究员。看到此项研究成果，他是兴奋地说，它真正代表了科学前沿。

就在前一个多月前，马斯克刚刚公布了其在脑机接口领域的最新研究成果：“让猴子用意念玩游戏”，相关视频在国内引发轩然大波，甚至不少网友认为它代表了脑际接口研究的最高成果。

相比于马斯克Neualink的研究成果，本次研究是真正的技术创新。崔翯老师的学生肖永祥说，

“Neualink优势在于神经界面，能够高通量地无线传输神经信号。但它的游戏任务其实是非常简单的，只是一维控制，Shenoy的工作难度要远高于它。Shenoy的工作是脑控解码手写字，它是需要解码多个字母（记得是30个字符），还需要解码字母出现时间。它在解码算法上是一流的。”

我们知道，脑机接口技术包括三个部分：神经界面（记录系统），解码算法，神经假肢。算法优势是其中的一个关键部分。

在这项研究中，神经界面是常规的，它主要创新点在解码算法和算法对应的效应器。

“传统解码算法或者是解码机械臂移动、抓握，或者是解码屏幕上的光标位置，或者是解码屏幕上的打字键盘。而这篇工作不需要任何视觉提示，只需要被试想象手写动作，就能够解码出被试想象手写的字母。这在领域中是开创性的。”

另外，它与马斯克研究不同的是，Neualink是自己开发的脑机接口记录系统，通过蓝牙无线传输。而这项研究是用blackrock的记录系统，是有线传输。

1、https://www.nature.com/articles/d41586-021-00776-8

2、https://www.nature.com/articles/s41586-021-03506-2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.