编辑推荐:
为解决以往自闭症(ASD)研究中算法样本小、无法跨时间评估及数据不透明等问题,研究人员开展了用 ASDSpeech 算法量化 ASD 儿童社交症状严重程度的研究。结果显示该算法能准确估计相关得分,这对加强 ASD 研究及临床管理意义重大。
在当今社会,自闭症(Autism Spectrum Disorder,ASD)已成为备受关注的神经发育障碍疾病。它主要表现为社交沟通困难以及存在受限和重复行为(Restricted and Repetitive Behaviors,RRB)。多数 ASD 儿童在幼儿期就出现语言发育迟缓的现象,更有 25 - 30% 的孩子在整个童年时期言语极少。然而,ASD 的核心症状并非简单体现在言语量上,而是在说话方式中暗藏玄机。比如,一些 ASD 儿童说话时流畅度欠佳,还会出现模仿言语(回声言语,echolalia)、混淆代词等情况,他们的发声在声学特征上也有独特表现,像音高更高、音高变异性更大等。
以往的研究虽然发现了 ASD 患者的这些言语特点,也尝试利用自动语音分析技术来区分 ASD 儿童和正常发育(Typically Developing,TD)儿童,甚至训练算法来估计 ASD 的严重程度,但都存在诸多问题。一方面,样本量相对较小,难以代表广大 ASD 人群在言语风格和特征上的巨大差异;另一方面,仅在单一时间点对参与者进行数据检测,无法评估算法在不同发育阶段评估症状严重程度的可靠性。而且,之前的研究没有对深度学习模型估计社交症状和 RRB 症状严重程度的能力进行比较,也未公开算法和数据,不利于研究成果的重现和算法的进一步发展。
为了突破这些困境,来自本古里安大学(Ben-Gurion University)内盖夫分校 Azrieli 国家自闭症与神经发育研究中心(Azrieli National Centre for Autism and Neurodevelopment Research,ANCAN)等机构的研究人员开展了一项极具意义的研究。他们创建了目前最大的 ASD 语音录音数据集,涵盖了 197 名 ASD 儿童在 258 次自闭症诊断观察量表第二版(Autism Diagnostic Observation Schedule, Second edition,ADOS-2)评估中的 99193 次发声记录,其中 61 名儿童还参与了间隔 1 - 2 年的两次 ADOS-2 评估。在此基础上,研究人员训练并测试了一种全新的开源人工智能算法 ——ASDSpeech,旨在准确量化 ASD 儿童的社交沟通困难程度。这项研究成果发表在《Translational Psychiatry》上,为 ASD 的研究和临床管理带来了新的曙光。
研究人员为开展此项研究,运用了多种关键技术方法。在数据收集方面,他们从 ANCAN 管理的以色列国家自闭症数据库中获取数据,所有录音均在索罗卡大学医学中心(Soroka University Medical Center)的指定评估室进行。对于儿童发声的检测,研究人员采用手动标注而非自动分割技术,因为在嘈杂环境下,现有自动分割算法对儿童语音的准确率较低,对年幼 ASD 儿童的录音准确率更低。在特征提取阶段,从儿童发声中提取了 49 种语音特征,涵盖音高、共振峰等多个类别。最后,利用这些数据训练了两个具有相同卷积神经网络(Convolutional Neural Network,CNN)架构的深度学习模型,分别用于估计 ADOS-2 的社交情感(Social Affect,SA)得分和 RRB 得分,并通过特定的优化算法和交叉验证来提高模型性能。
下面来看看具体的研究结果:
- 语音特征与 ASD 症状的相关性:研究人员对训练数据集中 136 名 ASD 儿童的 49 种语音特征与 ADOS-2 评分进行相关性分析。结果发现,31 种特征与 ADOS-2 总分显著相关,31 种与 SA 得分显著相关,28 种与 RRB 得分显著相关。不同特征对两种核心 ASD 症状的信息承载能力不同,这为深度学习算法学习相关关联提供了可能。
- ADOS-2 评分的纵向稳定性:对测试数据集中 61 名 ASD 儿童两次评估的 ADOS-2 评分进行分析,发现总分、SA 得分和 RRB 得分在两次评估之间均存在显著相关性,表明 ASD 症状严重程度在 1 - 2 年内总体较为稳定。
- ASDSpeech 算法的准确性:用训练好的 ASDSpeech 算法对 61 名儿童的两次 ADOS-2 录音数据进行测试。结果显示,估计的 ADOS-2 总分和 SA 得分在两次评估中均与实际得分显著相关,而 RRB 得分仅在第二次评估中与实际得分显著相关,且相关性较弱。归一化均方根误差(Normalized Root Mean Squared Error,NRMSE)分析也表明,算法在估计总分和 SA 得分时的误差显著小于随机预期,而估计 RRB 得分时在第一次评估中误差不显著,第二次评估中误差虽显著但相对较大。这说明 ASDSpeech 算法在估计社交症状(SA 得分)方面更为准确和可靠。
- 不同年龄和性别亚组的算法准确性:研究人员进一步考察了 ASDSpeech 算法在不同年龄和性别亚组中的准确性。结果发现,估计的 ADOS-2 总分在不同年龄亚组(以中位数年龄划分)和性别亚组中,多数情况下与实际得分显著相关,且不同亚组间算法准确性无显著差异。这表明该算法的准确性不受年龄和性别因素的显著影响。
- ASDSpeech 估计得分的纵向稳定性:研究还分析了 ASDSpeech 估计的 ADOS-2 得分在两个时间点的稳定性。结果显示,估计的 SA 得分和总分在 T1 和 T2 之间存在显著相关性,而估计的 RRB 得分在两个时间点之间无显著相关性。
- 特征重要性:通过逐个排除测试数据集中的特征,研究人员评估了每个特征对准确估计 ADOS-2 总分的重要性。结果发现,排除单个特征对算法准确性的影响有限,这表明特征之间存在较大冗余。
在研究结论和讨论部分,研究人员指出,ASDSpeech 算法能够从 ADOS-2 评估中的语音录音可靠地量化 ASD 儿童的社交症状严重程度。尽管 ASD 儿童在语言流利度和言语清晰度方面差异巨大,且幼儿期言语能力发展变化大,但该算法仍能取得这样的成果,十分难得。此外,将 ASDSpeech 与眼动追踪、面部表情分析和身体运动数据结合,有望进一步提高估计 ASD 症状的准确性和可靠性。
研究还发现,ASDSpeech 在估计 ADOS-2 SA 得分方面比 RRB 得分更准确。这可能是由于 ADOS-2 RRB 量表范围有限,以及所选语音特征与 RRB 得分相关性较弱。后续研究可以尝试提取更多相关语音特征,如短语或语调重复(指示回声言语),以提高对 RRB 得分的估计准确性。
另外,研究表明,基于原始 ADOS-2 分数训练的模型表现优于基于校准严重程度分数(Calibrated Severity Score,CSS)训练的模型。虽然 ADOS-2 CSS 对纵向评估严重程度的粗略变化很重要,但它受限的评分范围可能限制了深度学习算法识别儿童间差异的能力。而 ASDSpeech 在估计原始 ADOS-2 SA 得分方面的稳健准确性,表明严重程度估计与年龄和发育阶段无关,为使用原始分数提供了依据。
总的来说,这项研究为 ASD 研究和临床管理提供了新的有力工具,公开的算法和数据集也将促进研究社区的进一步发展和创新。虽然研究存在一些局限性,如未分析语言内容、未识别特定发声事件、未应用降噪和多说话者分析技术、样本性别比例不均衡、手动标注工作量大以及仅针对 1 - 7 岁儿童等,但这些也为后续研究指明了方向。相信未来,随着研究的不断深入和技术的不断改进,我们对 ASD 的理解和干预将取得更大的突破。