编辑推荐:
为解决汉语等语素音节语言在脑机接口(BCI)中解码困难的问题,研究人员开展构建汉语脑 - 句解码器的研究。结果显示,该解码器能将脑信号转化为中文句子,有较高准确率。此研究为相关领域发展提供了新方向。
在当今科技飞速发展的时代,脑机接口(Brain-Computer Interface,BCI)技术成为了众多科研人员关注的焦点。它就像一座桥梁,试图连接人类大脑与外部设备,实现大脑信号与机器指令的直接交互。目前,BCI 技术在解码字母语言(如英语)方面已取得一定进展,然而在面对像汉语这样的语素音节语言时,却遭遇了重重困难。汉语拥有独特的音节结构、庞大的字符集(超过 50,000 个汉字)以及复杂的字符 - 音节映射关系,这些特点使得为汉语建立全面的解码器成为一项极具挑战性的任务,严重阻碍了 BCI 技术在汉语使用人群中的实际应用。
为了攻克这一难题,浙江大学医学院附属第二医院的研究人员展开了深入研究。他们致力于构建一个能够将与语音相关的大脑信号转化为连贯中文句子的解码器,希望借此推动 BCI 技术在汉语领域的发展。经过一系列严谨的实验和分析,研究人员取得了令人瞩目的成果。他们成功建立了基于全字符集的语素音节语言脑 - 句解码器,在最佳参与者中,句子层面的离线解码性能达到了中位数字符准确率 71.00%,且 30.00% 的解码句子完全准确。这一成果为那些因神经系统疾病(如中风和肌萎缩侧索硬化症)导致言语障碍的患者带来了重建自由语言表达的希望,也为 BCI 技术在汉语使用人群中的应用开辟了新的道路。该研究成果发表在《Cyborg and Bionic Systems》上。
研究人员在此次研究中运用了多种关键技术方法。在数据采集方面,他们对 4 名正在接受癫痫治疗的年轻汉语母语者进行了立体脑电图(sEEG)监测,同步记录神经信号和音频信号。在信号处理与分析上,通过一系列滤波、降采样等操作对采集到的信号进行预处理,并运用支持向量机(SVM)等算法对音频信号分类,同时利用相关算法分析神经信号相似性等。在模型构建上,采用卷积神经网络(CNN)作为音节元素特征提取的骨干网络,构建了初始、声调、韵尾预测模型以及语言模型来实现从脑信号到中文句子的转换。
研究结果具体如下:
- 解码器设计概述:设计了一个 3 阶段(通道选择、音节预测和语言建模)的解码器。在通道选择阶段,筛选出与语音相关的通道并排除视觉皮层和白质区域的通道;音节预测阶段,训练 3 个 CNN 分别提取声母、声调、韵母特征,并通过特定方法对齐神经与声学特征;语言建模阶段,根据预测的音节元素概率序列输出最可能的句子,有效纠正错误,提升句子输出性能。
- 脑 - 句解码器性能:随机选取不同长度的日常使用句子进行测试,参与者 1 的中位数字符准确率达 71.00%,部分句子完全准确。整体上,4 名参与者的平均字符解码准确率各异,中等长度句子的解码准确率较高,且模型泛化性能强,能处理训练数据未覆盖的内容。
- 音节预测
- 声母预测:汉语有 21 个声母,通过分析其发音特征与神经活动的相关性,设计的声母预测模型准确率显著高于随机水平。随着候选结果数量增加,预测准确率大幅提升,前 3 个最可能预测中包含正确声母的概率很高,有效减少语言模型的计算负担。
- 声调预测:声调在汉语中意义重大,通过分析音频的音高变化,利用 SVM 分类器区分不同声调。在声调预测模型中融入音高特征和神经音频正则化(NAR)模块后,预测准确率显著提高,且前 3 个预测中包含正确声调的概率也较高,为语言模型提供了丰富参考。
- 韵母预测:汉语韵母包括简单韵母和复合韵母,简单韵母通过 SVM 分类模型基于 F1 和 F2 共振峰特征可有效区分。但复合韵母因发音动态性难以区分,因此采用 k - 均值算法将韵母聚类为 11 个不同的韵母簇,基于 sEEG 信号的预测模型对韵母簇的预测准确率具有统计学意义,且随着候选簇数量增加,包含正确韵母的概率上升。
- 语言建模:语言模型根据声母、声调、韵母的概率序列选择合适组件构成音节,进而识别匹配的汉字构建句子。其元素级准确率和音节级准确率较高,与字符级准确率相近,表明语言模型能有效转换音节序列,从大量同音字中选择正确汉字,在整个解码过程中起着关键作用。
- 模型时间注意力:研究发现模型对音节组件(声母、声调、韵母)的时间注意力与语音信号中的发声过程有很强相关性。声母和声调预测模型能有效捕捉相关脑信号段,而韵母预测模型的显著性分布更均匀,难以精准定位相关脑信号段,这解释了其预测准确率相对较低的原因。
- 不同脑区的贡献:研究发现皮质和皮质下区域的信号对解码都有意义,但不同参与者依赖的脑区存在差异。在皮质区域,如颞上回(STG)、岛叶(INS)等区域解码准确率较高;在皮质下区域,丘脑在某些预测任务中表现突出,表明丘脑也参与了人类语言处理过程。
- 通道贡献:计算每个通道的显著性分数来评估其在训练模型中的贡献,发现 3 个音节元素的预测准确率与它们在 3 个预测模型中的贡献显著相关。
在研究结论与讨论部分,此次研究成功实现了汉语从脑活动到连贯句子的离线解码,证明了利用汉语独特的声学特征和先进神经网络模型构建解码器的可行性。同时,该研究强调了皮质和皮质下脑信号在解码中的关键作用,以及声学相关特征对提高预测准确性的重要性。不过,研究也存在一些局限,如未解决跨天模型转移所需的大量数据采集问题,且仅进行了离线分析,未验证在线解码性能。未来研究将聚焦于改进跨天模型转移、提升在线解码性能以及优化多主体和多会话数据的利用,进一步推动 BCI 技术在汉语解码领域的发展,为更多言语障碍患者带来希望 。