NEJM：第一个能流利“说话”的“神经假体”

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2021年07月16日 来源：生物通

编辑推荐：

　　UC旧金山的研究人员成功开发了一种“语音神经假体”，它使一个患有严重瘫痪的人可以用句子进行交流，它们将大脑中进入声道的信号直接投射到了投影屏上。

这项成果是与临床研究试验的第一位参与者合作开发的，它建立在加州大学旧金山分校神经外科医生Edward Chang医学博士十多年的努力基础上，开发出一种技术，使瘫痪患者即使不能自己说话也能进行交流。这项研究发表在7月15日的《新英格兰医学杂志》上。

“据我们所知，这是第一次成功地演示了从瘫痪和不能说话的人的大脑活动中直接解码完整单词的方法，”加州大学旧金山分校神经外科主任Jeanne Robertson说。“它显示出通过利用大脑的自然语言机制来恢复交流的强大前景。”

每年都有成千上万的人因为中风、事故或疾病而丧失说话能力。随着进一步的发展，这项研究中描述的方法有朝一日能够使这些人充分交流。

把大脑信号翻译成语言

以前，神经假体领域的工作主要集中在通过基于拼写的方法在文本中逐个键入字母来恢复交流。Chang的研究在一个关键的方面不同于这些努力：他的团队翻译信号是为了控制发声系统的肌肉来说话，而不是通过移动手臂或手来打字的信号。Chang说，这种方法充分利用了语言的自然和流畅性，保证了更快速和有机的沟通。

“对于语音，我们通常以非常高的速度交流信息，每分钟最多150或200个单词。”并指出，使用打字、书写和控制光标的基于拼写的方法速度要慢得多，难度也要大得多。“正如我们在这里所做的那样，直接说单词有很大的好处，因为它更接近我们通常的说话方式。”

在过去的十年里，加州大学旧金山分校癫痫中心的病人们正在接受神经外科手术，通过放置在他们大脑表面的电极阵列来确定他们癫痫发作的起源，这促进了张朝着这个目标的进展。这些患者，都有正常的语言，自愿让他们的大脑记录分析语音相关的活动。这些患者志愿者的早期成功为目前对瘫痪患者的试验铺平了道路。

此前，加州大学旧金山分校威尔神经科学研究所的Chang和同事绘制了与产生每个辅音和元音的声道运动相关的皮层活动模式。为了将这些发现转化为完整单词的语音识别，Chang实验室的博士后工程师、这项新研究的主要作者之一David Moses博士开发了实时解码这些模式和统计语言模型的新方法，以提高准确性。

但他们在能够说话的参与者身上解码语音的成功并不能保证这项技术能在一个声道瘫痪的人身上起作用。“我们的模型需要学习复杂的大脑活动模式和预期语言之间的映射，”Moses说。“当参与者不能说话时，这是一个重大挑战。”

此外，研究小组还不知道，对于那些多年来无法移动声带肌肉的人来说，控制声道的大脑信号是否仍然完好无损。要想知道这是否可行，最好的办法就是试试看。

为了研究这项技术在瘫痪患者中的潜力，Chang与同事神经学副教授Karunesh Ganguly医学博士合作发起了一项名为“BRAVO”（手臂和声音的脑-机接口恢复）的研究。该试验的第一名参与者是一名30多岁的男子，他在15年前遭受了一次毁灭性的脑干中风，严重破坏了他的大脑与声道和四肢之间的连接。自从受伤以来，他的头部、颈部和四肢活动极其有限，他用棒球帽上的指针在屏幕上戳字母来进行交流。

这名代号为BRAVO1的参与者与研究人员合作，创造了一个50个单词的词汇表，Chang的团队可以利用先进的计算机算法从大脑活动中识别出来。这些词汇——包括“水”、“家庭”和“好”等词——足以创造出数百个句子，表达适用于BRAVO1日常生活的概念。

在这项研究中，Chang通过外科手术将高密度电极阵列植入了BRAVO1的语言运动皮层。在这项研究中，Chang通过外科手术将高密度电极阵列植入了BRAVO1的语言运动皮层。在受试者完全康复后，他的团队在48个疗程和几个月的时间里记录了22小时的大脑区域神经活动。在每一个环节中，BRAVO1都会多次尝试说出50个单词中的每一个，同时电极会记录下大脑皮层发出的信号。

将演讲翻译成文本

为了将记录的神经活动模式转换成特定的预期词汇，该研究的另外两位主要作者、Chang实验室的生物工程博士生Sean Metzger和Jessie Liu使用了定制的神经网络模型，这是人工智能的一种形式。当参与者试图说话时，这些网络会区分大脑活动中的微妙模式，以检测讲话尝试并识别他想说的单词。

为了测试他们的方法，研究小组首先向BRAVO1展示了由50个词汇组成的短句，并让他试着说几遍。当他尝试的时候，这些词从他的大脑活动中被解码出来，一个接一个地出现在屏幕上。

然后，研究小组转而用“你今天怎么样？”和“你想喝点水吗？”等问题来提示他，就像以前一样，BRAVO1的演讲出现在屏幕上“我很好”和“不，我不渴。”

研究小组发现，该系统能够以每分钟18个单词的速度解码大脑活动中的单词，准确率高达93%（中位数为75%）。促成这一成功的是Moses应用的一种语言模型，它实现了“自动更正”功能，类似于消费者发短信和语音识别软件所使用的功能。

Moses将早期的审判结果定性为“原则的证明”他说：“看到各种有意义句子的准确解码，我们非常激动。我们已经证明，以这种方式促进交流实际上是可能的，而且它在会话环境中也有潜在的用途。”

展望未来，Chang和Moses说，他们将扩大试验范围，包括更多受严重瘫痪和通讯障碍影响的参与者。该小组目前正在努力增加现有词汇中的单词数量，以及提高说话速度。

两人都说，虽然这项研究只关注一名参与者和有限的词汇量，但这些局限性并不会降低成就感。Moses说：“对于一个不能自然交流的人来说，这是一个重要的技术里程碑，它展示了这种方法给严重瘫痪和失语的人发出声音的潜力。”

David A. Moses, Sean L. Metzger, Jessie R. Liu, Gopala K. Anumanchipalli, Joseph G. Makin, Pengfei F. Sun, Josh Chartier, Maximilian E. Dougherty, Patricia M. Liu, Gary M. Abrams, Adelyn Tu-Chan, Karunesh Ganguly, Edward F. Chang. Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria. New England Journal of Medicine, 2021; 385 (3): 217 DOI: 10.1056/NEJMoa2027540

热点排行

新闻专题

联系信箱：

粤ICP备09063491号