SPIRIT-CONSORT-TM 语料库：助力临床试验报告透明度评估的关键突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年03月01日 来源：Scientific Data 5.8

编辑推荐：

　　为解决 RCT 报告不完整问题，研究人员构建 SPIRIT-CONSORT-TM 语料库，训练 NLP 模型，为评估报告透明度提供基准。

为了促进科学的传播，生物通采集了这篇文章，如需英文原文，请点击！订阅BioHot索取原文

临床试验报告的 “照妖镜”：SPIRIT-CONSORT-TM 语料库

在生命科学和健康医学领域，随机对照试验（Randomized Controlled Trials，RCT）堪称循证医学的基石。想象一下，RCT 就像是一场精心策划的 “医学大冒险”，能为我们精准地揭示治疗干预措施的效果，给临床实践和卫生政策提供超有价值的参考。然而，现实却给这场 “冒险” 泼了冷水。即便一些 RCT 设计精妙、执行严谨，但报告不完整的情况却时有发生，这就好比拼图缺了关键的几块，让研究结论的可信度大打折扣。

为了改善这种状况，SPIRIT 2013 声明和 CONSORT 2010 声明这两位 “救星” 登场了，它们分别致力于提升 RCT 协议和结果报告的质量。可理想很丰满，现实很骨感，研究发现，很多时候即使期刊大力支持这些指南，作者们依然没能按要求报告关键信息。比如，一些研究中关键的方法学细节，像分配隐藏（allocation concealment），在论文里就常常 “隐身” 不见。这可愁坏了科研人员，手动检查作者是否遵循指南，效率低还不现实，有没有更好的办法呢？

在这样的背景下，来自美国多所高校（University of Illinois Urbana - Champaign、Indiana University、University of North Carolina Chapel Hill 等）的研究人员 Lan Jiang、Colby J Vorland 等人挺身而出，开启了一项意义重大的研究。他们的成果发表在《Scientific Data》上，为解决临床试验报告透明度问题带来了新的曙光。

研究人员为了实现目标，采用了一系列关键技术方法。首先是筛选合适的试验，他们从 PubMed Central 数据库里，按照严格的标准进行筛选，只留下符合要求的平行组 RCT 试验，还得是在 ClinicalTrials.gov 注册过，并且同时有研究协议和主要结果报告的。这就好比在茫茫书海里，精准地挑出了自己需要的那几本。然后，基于 SPIRIT 和 CONSORT 指南，他们制定了详细的注释指南，确定了 83 个注释项目，用 brat 注释工具完成注释，再转化成不同层级的数据集。最后，用这些数据集训练自然语言处理（Natural Language Processing，NLP）模型，用来识别 RCT 的特征。

下面我们来看看具体的研究结果：

数据注释与整理：研究人员开发了基于 SPIRIT 和 CONSORT 指南的注释指南，对 100 个试验的协议和结果出版物进行注释，构建了包含文章级、句子级和术语级的数据集。这个数据集就像一个装满宝藏的宝箱，为后续研究提供了丰富的资源。在文章级数据集里，平均每篇文章报告约 41.43 个项目（共 83 项），结果文章报告得更全面；句子级数据集有 52,294 个句子，26,613 个被注释；术语级数据集有 4,231 个注释123。
技术验证：计算不同层级注释的标注者间一致性（Inter - Annotator Agreement，IAA），结果显示随着注释阶段推进，IAA 不断提高，说明注释质量越来越靠谱。训练 NLP 模型预测检查表项目的报告情况，句子分类模型在文章级的微 F1 分数达到 0.865，术语提取模型在宽松评估下微 F1 分数为 0.66345。

研究结论和讨论部分，更是凸显了这项研究的重要意义。研究人员构建的 SPIRIT-CONSORT-TM 语料库，是目前最大、最精细的公开同类语料库，为训练 NLP 模型提供了基准，有助于评估临床试验报告的透明度，推动临床研究高质量发展。不过，研究也存在一些局限，比如出版物来源不够广泛，部分项目在语料库中代表性不足，NLP 模型还需进一步外部验证等。但这些不足也为后续研究指明了方向。

总的来说，这项研究成果为生命科学和健康医学领域的临床试验报告评估提供了有力的工具和重要的参考，就像在黑暗中点亮了一盏明灯，照亮了未来研究的道路，让我们离更准确、更透明的临床试验报告又近了一步。相信在未来，随着研究的不断深入，这些问题会逐步得到解决，临床试验报告的质量也将迎来质的飞跃。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析！

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》