TCMEval-SDT：中医证候诊断思维的基准数据集，开启智能诊断新篇章

《Scientific Data》：TCMEval-SDT: a benchmark dataset for syndrome differentiation thought of traditional Chinese medicine

【字体：大中小】 时间：2025年03月14日 来源：Scientific Data 5.8

编辑推荐：

　　为解决中医证候诊断缺乏专业基准数据集问题，研究人员开发 TCMEval-SDT，评估模型诊断能力，助力中医智能化发展。

揭幕测序新体验，领取Twist Exome 2.0详细技术资料，助力您的表观遗传学研究

濞戞捁妗ㄧ花鈩冪┍閸愵厾绠荤紒澶嬪灥椤掔喖鎯冮崟顏嗙倞闁圭虎鍙忕槐婵嬫偨閻斿搫鈷栭梺顐ｅ哺閸ｄ即姊块崱鏇犲晩閺夆晜鐟ч惁鎺楀棘閸モ晝褰块柨娑樼焷椤撳綊姊奸崠鎼僶hot閻熸瑱缍侀弨锝夊储閻斿憡鐎梺鍓у亾鐢妲愰姀鐘茬悼(闁稿繈鍔嶉弸锟�)

Data Descriptor

　　在传统医学的广袤天地里，中医作为一颗璀璨明珠，长久以来在疾病防治中发挥着不可替代的作用。比如青蒿素通过调节 LONP1-CYP11A1 相互作用，有效治疗多囊卵巢综合征（PCOS）；一种中药注射剂也被证实能降低脓毒症患者 28 天死亡率。“辨证论治（Bianzheng Lunzhi）” 作为中医理论体系的核心，是根据患者疾病、体质、环境等多种因素综合分析，制定个性化诊疗方案的独特方法，是中医临床实践的基石。

然而，随着时代发展，中医面临着新的挑战。在人工智能（AI）飞速发展并广泛应用于医疗领域的当下，虽然 AI 算法和模型在疾病诊断、药物研发等方面成果斐然，如 DigestPath 用于评估胃肠道病理检测算法，MultiMedQA 作为医学问答的基准数据集。但中医临床诊断与西医不同，不仅要诊断疾病，更重要的是诊断证候，目前却缺乏专门针对证候诊断过程的基准数据集。现有的相关数据集，要么侧重于回答中医基础知识问题，要么仅评估病例分析得出的证候，均未涵盖中医证候诊断的推理过程。这一现状严重阻碍了中医与现代科技的融合，限制了 AI 在中医领域发挥更大作用。

Twist Bioscience全面外显子组组合资料免费索取>>濡府鎷� 闁告瑱鎷�

为了打破这一困境，中国医学科学院基础医学研究所、中国中医科学院中医药信息研究所等机构的研究人员开展了一项极具意义的研究。他们精心打造了 TCMEval-SDT（a benchmark dataset for syndrome differentiation thought of traditional Chinese medicine）这个大型公开基准数据集，相关研究成果发表在《Scientific Data》上。

研究人员在构建 TCMEval-SDT 数据集时，采用了一系列严谨且科学的技术方法。首先是数据收集，他们从自建数据库中获取资料，这些数据来源于中国知网（CNKI）、万方数据、经典中医古籍以及医院病历等多个渠道。接着，中医专家依据完备病历、常见疾病等筛选标准，对数据进行严格筛选，排除罕见病和重复病例。同时，为评估中医病历质量，研究人员基于 CARE 指南和专家意见，制定了中医病历质量评估量表，对筛选后的病例打分，剔除得分低于 6 分的病例。之后，对选中的 300 份病历进行数据预处理，包括匿名化处理保护患者隐私，清理重复和无效数据并标准化病历。再利用中医领域的百部知识引擎，按照临床信息提取、病机推理、证候推理、解释性总结这四个步骤进行标注。最后，通过质量评估确保数据的完整性、准确性，排除罕见病历，保证样本代表性。

妤犵偛鐏濋幉锟� 实验室安全第一：高效双重过滤二级生物安全柜，绝非普通二级安全柜！点击了解

研究结果丰富且具有深度：

数据集构建成果：TCMEval-SDT 数据集包含 300 份中医证候诊断病例，按照 4:1:1 的比例划分为训练集（n=200）、测试集（n=50）和验证集（n=50）。数据以三个 JSON 文件呈现，分别是 Train_TCM_Data_v1.json、Test_TCM_Data_v1.json 和 Validation_TCM_Data_v1.json。同时，研究人员依据 FAIR 原则设计了数据集的元数据，并在 CDE Portal 平台共享，为中医科学数据共享奠定基础。
任务设计与评估指标：为助力算法或模型进行诊断，针对每个病例设计了四个子任务，即数据提取、病机推理、证候推理和解释性总结。其中，病机推理和证候推理设计为十选一的选择题，用于评估模型诊断推理能力。对于这四个任务，分别制定了相应的评估指标，如临床信息提取任务依据公式计算得分；病机推理和证候推理任务依据公式、计算得分；解释性总结任务基于 ROUGE-L 计算得分。最终，综合四个任务得分得出大语言模型（LLMs）在中医证候诊断任务中的最终得分，其中，，，。
模型性能验证：研究人员选取了 ChatGPT、Gemini 1.5-pro、ChatGLM-130B 和通义千问（Tongyi Qianwen）这四个公开的大语言模型进行验证。通过设计零样本提示，对模型进行测试。结果显示，ChatGLM-130B 在综合表现上最佳，总加权得分达到 24.7378，在临床信息提取和病机推理任务中表现出色；Gemini 1.5-pro 在证候推理和解释性总结任务中表现更优。

研究结论表明，TCMEval-SDT 数据集为评估中医临床诊断算法或模型提供了有力工具，有助于推动能够模拟中医证候诊断思维的算法或模型的发展，如使大语言模型基于该数据集运用思维链（Chain-of-Thought，CoT）像中医临床医生一样进行证候诊断推理，朝着中医自动化诊断的方向迈进了重要一步。同时，研究人员也认识到数据集存在规模较小、疾病类型分布不均衡等局限性，未来计划纳入更多病历，扩大数据集规模，增加罕见病病例，进一步完善数据集。这项研究为中医与人工智能的融合发展提供了关键支撑，在推动中医现代化、智能化进程中具有重要意义，有望开启中医智能诊断的新篇章，为全球健康事业贡献中国智慧和力量。

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎ｎ厽绁癟wist闁靛棗锕ｇ粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€ｎ剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉ｄ海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€ｎ剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

热点排行

新闻专题