研究人员在本次研究中运用了多种关键技术方法。他们从法国医疗行政数据库(échantillon Généraliste des Bénéficiaires,EGB)中选取数据,该数据库是法国健康保险数据库的随机样本,具有代表性。研究人员提取了 2008 - 2018 年的药物报销数据以及患者慢性病诊断信息(采用国际疾病分类第 10 版编码,ICD10) 。计算患者相似性时,采用了四种不同的度量方法,包括标准余弦相似度、逆文档频率加权的余弦相似度(Cosine similarity weighted by the Inverse Document Frequency,Cosineθ, IDF)、基于 Wu 和 Palmer 度量加权的余弦相似度(Cosine similarity weighted by the Wu and Palmer measure,Cosineθ, WP)和基于 Lin 度量加权的余弦相似度(Cosine similarity weighted by the Lin measure,Cosineθ, Lin)。之后,利用这些相似性度量构建患者网络,并使用 Markov 聚类算法识别患者集群,通过基于外部变量(慢性病诊断)的富集分析评估不同相似性度量的性能。
研究结论与讨论部分指出,考虑变量标签关系的加权相似性度量在识别不同疾病患者集群方面表现更优,相比未考虑标签关系的未加权相似性度量,能更好地实现患者分层。这一研究强调了将现有医学分类中的变量标签关系知识整合到患者相似性度量中的重要价值,尤其适用于分析行政索赔数据库中的记录。不过,研究也存在一定局限性,如缺乏社会剥夺或其他人口统计学变量数据,这些因素可能会影响聚类结果。总体而言,该研究为基于数据库的临床决策支持系统(Clinical Decision Support Systems,CDSS)提供了参考,有助于支持诊断推断,对精准医疗的发展具有积极推动作用。