编辑推荐:
为解决中医证候诊断缺乏专业基准数据集问题,研究人员开发 TCMEval-SDT,评估模型诊断能力,助力中医智能化发展。
在传统医学的广袤天地里,中医作为一颗璀璨明珠,长久以来在疾病防治中发挥着不可替代的作用。比如青蒿素通过调节 LONP1-CYP11A1 相互作用,有效治疗多囊卵巢综合征(PCOS);一种中药注射剂也被证实能降低脓毒症患者 28 天死亡率。“辨证论治(Bianzheng Lunzhi)” 作为中医理论体系的核心,是根据患者疾病、体质、环境等多种因素综合分析,制定个性化诊疗方案的独特方法,是中医临床实践的基石。
然而,随着时代发展,中医面临着新的挑战。在人工智能(AI)飞速发展并广泛应用于医疗领域的当下,虽然 AI 算法和模型在疾病诊断、药物研发等方面成果斐然,如 DigestPath 用于评估胃肠道病理检测算法,MultiMedQA 作为医学问答的基准数据集。但中医临床诊断与西医不同,不仅要诊断疾病,更重要的是诊断证候,目前却缺乏专门针对证候诊断过程的基准数据集。现有的相关数据集,要么侧重于回答中医基础知识问题,要么仅评估病例分析得出的证候,均未涵盖中医证候诊断的推理过程。这一现状严重阻碍了中医与现代科技的融合,限制了 AI 在中医领域发挥更大作用。
为了打破这一困境,中国医学科学院基础医学研究所、中国中医科学院中医药信息研究所等机构的研究人员开展了一项极具意义的研究。他们精心打造了 TCMEval-SDT(a benchmark dataset for syndrome differentiation thought of traditional Chinese medicine)这个大型公开基准数据集,相关研究成果发表在《Scientific Data》上。
研究人员在构建 TCMEval-SDT 数据集时,采用了一系列严谨且科学的技术方法。首先是数据收集,他们从自建数据库中获取资料,这些数据来源于中国知网(CNKI)、万方数据、经典中医古籍以及医院病历等多个渠道。接着,中医专家依据完备病历、常见疾病等筛选标准,对数据进行严格筛选,排除罕见病和重复病例。同时,为评估中医病历质量,研究人员基于 CARE 指南和专家意见,制定了中医病历质量评估量表,对筛选后的病例打分,剔除得分低于 6 分的病例。之后,对选中的 300 份病历进行数据预处理,包括匿名化处理保护患者隐私,清理重复和无效数据并标准化病历。再利用中医领域的百部知识引擎,按照临床信息提取、病机推理、证候推理、解释性总结这四个步骤进行标注。最后,通过质量评估确保数据的完整性、准确性,排除罕见病历,保证样本代表性。
研究结果丰富且具有深度:
- 数据集构建成果:TCMEval-SDT 数据集包含 300 份中医证候诊断病例,按照 4:1:1 的比例划分为训练集(n=200)、测试集(n=50)和验证集(n=50)。数据以三个 JSON 文件呈现,分别是 Train_TCM_Data_v1.json、Test_TCM_Data_v1.json 和 Validation_TCM_Data_v1.json。同时,研究人员依据 FAIR 原则设计了数据集的元数据,并在 CDE Portal 平台共享,为中医科学数据共享奠定基础。
- 任务设计与评估指标:为助力算法或模型进行诊断,针对每个病例设计了四个子任务,即数据提取、病机推理、证候推理和解释性总结。其中,病机推理和证候推理设计为十选一的选择题,用于评估模型诊断推理能力。对于这四个任务,分别制定了相应的评估指标,如临床信息提取任务依据公式Sc=∣A∣∣A∩B∣计算得分;病机推理和证候推理任务依据公式Sp=∣A∣+∣A∩B∣∣A∩B∣、Ss=∣A∣+∣A∩B∣∣A∩B∣计算得分;解释性总结任务基于 ROUGE-L 计算得分。最终,综合四个任务得分得出大语言模型(LLMs)在中医证候诊断任务中的最终得分Sf=ω1Sc+ω2Sp+ω3Ss+ω4Sr,其中ω1=0.2 ,ω2=0.3 ,ω3=0.4 ,ω4=0.1 。
- 模型性能验证:研究人员选取了 ChatGPT、Gemini 1.5-pro、ChatGLM-130B 和通义千问(Tongyi Qianwen)这四个公开的大语言模型进行验证。通过设计零样本提示,对模型进行测试。结果显示,ChatGLM-130B 在综合表现上最佳,总加权得分达到 24.7378,在临床信息提取和病机推理任务中表现出色;Gemini 1.5-pro 在证候推理和解释性总结任务中表现更优。
研究结论表明,TCMEval-SDT 数据集为评估中医临床诊断算法或模型提供了有力工具,有助于推动能够模拟中医证候诊断思维的算法或模型的发展,如使大语言模型基于该数据集运用思维链(Chain-of-Thought,CoT)像中医临床医生一样进行证候诊断推理,朝着中医自动化诊断的方向迈进了重要一步。同时,研究人员也认识到数据集存在规模较小、疾病类型分布不均衡等局限性,未来计划纳入更多病历,扩大数据集规模,增加罕见病病例,进一步完善数据集。这项研究为中医与人工智能的融合发展提供了关键支撑,在推动中医现代化、智能化进程中具有重要意义,有望开启中医智能诊断的新篇章,为全球健康事业贡献中国智慧和力量。