编辑推荐:
为解决声调语言语音解码研究因缺乏公开数据集受阻的问题,研究人员开展 VocalMind 数据集相关研究。该数据集涵盖多种汉语语音模式,经基线模型验证可靠。这为语音脑机接口(BCI)研究提供资源,推动其发展。
在科技飞速发展的当下,脑机接口(BCI)技术成为了科学界的焦点,尤其是语音脑机接口,它宛如一把钥匙,有望开启人类沟通的新大门,为那些因神经系统疾病失去语言能力的患者带来希望。然而,这条探索之路并非一帆风顺。此前,多数语音脑机接口研究集中在非声调语言,像英语、西班牙语、荷兰语等。虽然在这些语言上取得了一定成果,能实现高性能的语音解码,但世界上有 60 - 70% 的人口使用的是声调语言,在声调语言里,音高的变化会改变单词的含义,这使得语音解码面临独特的挑战。而且,公开可用的声调语言数据集极度匮乏,严重阻碍了相关研究的进一步推进。与此同时,以往的研究大多仅关注单一的语音模式,无法让科研人员全面了解不同语音模式下神经反应的差异,这对于从计算角度进行的迁移学习来说,无疑是一大损失。在这样的困境下,开展针对声调语言的多模式语音数据集研究迫在眉睫。
为了攻克这些难题,来自中国的研究团队,包括香港中文大学(深圳)数据科学学院、深圳大学医学院附属华南医院神经外科、香港中文大学(深圳)医学院等机构的研究人员,携手开展了一项极具意义的研究。他们精心打造了 VocalMind 数据集,这是一个聚焦于汉语(一种典型的声调语言)的立体定向脑电图(sEEG)数据集。该研究成果发表在《Scientific Data》上,为语音脑机接口研究领域注入了新的活力。
研究人员在开展这项研究时,运用了多种关键技术方法。在数据采集方面,他们选择了一位 22 岁患有癫痫的汉语母语男性患者,在其右半球植入 9 根电极轴用于神经记录。通过高精度的设备,以 1000Hz 的采样率记录 sEEG 信号,同时用 48kHz 采样率采集语音信号,并利用 Python 脚本标记系统实现两者精确同步。在数据处理阶段,排除异常放电的电极,对 sEEG 信号进行平均参考、滤波、计算分析幅度、降采样和归一化等处理;对于音频数据,使用 LibROSA 库进行降采样和提取 mel - 频谱图。为验证数据集质量,采用了递归神经网络(RNN)作为基线模型进行解码和波形重建。
研究结果如下:
- 数据记录丰富:VocalMind 数据集包含 67.85 分钟的神经活动记录,涵盖了发声语音、模仿语音和想象语音三种模式,且包含单词和句子层面的数据。数据集被整理为四个主要文件夹,分别存储原始 sEEG 数据、处理后的 sEEG 数据、原始音频数据(仅发声语音有)和处理后的音频数据,文件命名遵循特定规则,还提供了电极的 MNI 坐标,方便后续跨学科研究。
- 模型验证可靠:运用基线模型 RNN 对语音的 mel - 频谱图进行解码,并从重建波形中提取音高轮廓进行评估。通过 Mel - 倒谱距离(MCD)、皮尔逊相关系数(Correlation)、动态时间规整对齐的相关性(DTW Correlation)、音高均方根误差(Pitch RMSE)和音高相关性(Pitch Correlation)等指标衡量,结果显示在所有语音模式下,解码的频谱图和音高轮廓与原始语音相似度高。在单词解码任务中,发声语音解码性能最佳,其他语音模式也能捕捉到关键时间模式和音高信息;句子解码任务呈现相似趋势。频率相关性分析表明,未对齐时低频范围(0 - 1500Hz)相关性较高,对齐后模仿和想象语音相关性提升。并且,研究结果远超随机水平,证明了解码性能的有效性。利用预训练的 HiFi - GAN 模型从 mel - 频谱图重建语音,参考和重建的语音相似度较高,部分样本可理解。
综上所述,VocalMind 数据集的诞生意义非凡。它为声调语言的语音脑机接口研究提供了宝贵的资源,丰富多样的任务和大量的数据,有助于开发更先进的语音解码算法,推动语音脑机接口技术的发展,为未来帮助语言障碍患者恢复沟通能力奠定了坚实基础。不过,目前研究仅基于一名患者,未来还需扩大样本量,进一步探索不同个体间的差异,让语音脑机接口技术能更好地服务于大众。