在这样的背景下,来自美国多所高校(University of Illinois Urbana - Champaign、Indiana University、University of North Carolina Chapel Hill 等)的研究人员 Lan Jiang、Colby J Vorland 等人挺身而出,开启了一项意义重大的研究。他们的成果发表在《Scientific Data》上,为解决临床试验报告透明度问题带来了新的曙光。
研究人员为了实现目标,采用了一系列关键技术方法。首先是筛选合适的试验,他们从 PubMed Central 数据库里,按照严格的标准进行筛选,只留下符合要求的平行组 RCT 试验,还得是在 ClinicalTrials.gov 注册过,并且同时有研究协议和主要结果报告的。这就好比在茫茫书海里,精准地挑出了自己需要的那几本。然后,基于 SPIRIT 和 CONSORT 指南,他们制定了详细的注释指南,确定了 83 个注释项目,用 brat 注释工具完成注释,再转化成不同层级的数据集。最后,用这些数据集训练自然语言处理(Natural Language Processing,NLP)模型,用来识别 RCT 的特征。