利用自然语言处理简化因果循环图合并:助力公共卫生研究新突破

【字体: 时间:2025年03月09日 来源:BMC Public Health 3.5

编辑推荐:

  为解决因果循环图(CLDs)合并难题,研究人员用自然语言处理(NLP)开展研究,发现其可加速合并,意义重大。

  在当今复杂的社会环境下,诸多难题如全球贫困、气候变化、肥胖和心理健康问题等接踵而至。这些问题相互交织,如同一张紧密的大网,牵一发而动全身。以心理健康问题为例,它受到社会、环境和生物等多种因素的影响,这些因素彼此关联,形成复杂的反馈结构,使得问题的根源难以捉摸。
为了深入理解和解决这些复杂问题,因果循环图(Causal Loop Diagrams,CLDs)应运而生。CLDs 就像是一张 “关系地图”,通过图形化的方式展示系统中各个因素之间的直接和间接因果关系。而群体模型构建(Group Model Building,GMB)则是一种让各方利益相关者共同参与构建 CLDs 的方法,大家齐心协力,共同绘制出对问题的理解,进而制定出解决问题的策略。

然而,在实际应用中,CLDs 的合并却遇到了麻烦。当多个群体分别构建了自己的 CLDs 后,要将它们合并成一个综合的 CLD 并非易事。如果只是简单地把所有因素和循环都堆砌在一起,最终得到的 CLD 会变得极为复杂,就像一团乱麻,让人难以看清问题的关键。而且,以往的合并方法往往依赖人工判断,不仅耗时费力,还容易出现不一致的情况。

为了解决这些问题,来自迪肯大学(Deakin University)的 Melissa Valdivia Cabrera 等人开展了一项研究。他们将目光投向了自然语言处理(Natural Language Processing,NLP)技术,试图探索其在简化和优化 CLD 合并过程中的可行性。该研究成果发表在《BMC Public Health》上。

研究人员采用了一系列关键技术方法:首先,从 13 个不同社区通过 GMB 工作坊构建的 CLDs 中提取并预处理独特的因素名称,去除其中的干扰信息;接着,运用多种预训练语言模型来评估因素之间的相似性,将文本转化为向量进行计算;然后,通过优化算法确定最佳合并阈值,以最大化 F1 分数;最后,依据选定的阈值对 13 个 CLDs 的因素进行合并。

研究结果如下:

  1. 模型性能对比:研究人员将句子转换器模型与 Word2vec、平均词嵌入和 Jaccard 相似性等模型进行比较。结果发现,句子转换器模型表现更为出色。例如,Word2vec 和平均词嵌入在处理某些因素时,可能会因为词汇不在其词汇表中或训练数据缺乏相关模式,而无法给出分数或给出零分。而 Jaccard 相似性算法由于仅基于字面匹配,会给出一些不一致的结果,忽略了因素的实际含义。
  2. 最佳模型筛选:在众多模型中,paraphrase - multilingual - mpnet - base - v2 模型脱颖而出,它的 F1 分数最高,达到 0.68。因此,研究人员使用该模型,以 0.75 为阈值对因素进行合并。
  3. 因素合并成果:最初的 13 个 CLDs 共有 670 个因素,去除重复值后剩下 592 个独特因素。经过合并,344 个因素被合并成 66 组,还有 248 个因素作为独特条目保留下来。不过,在合并过程中也出现了一些问题,比如有些含义相反的因素可能被合并,部分因素定义不清晰导致合并存在争议等。

研究结论和讨论部分指出,NLP 技术,尤其是句子相似性模型,在指导 CLD 因素合并方面具有很大的潜力。它能够帮助研究人员快速识别相似因素,大大简化因果图,加速 CLDs 的合并过程,助力社区构建更简洁、更具普遍性的复杂健康问题模型。但同时,研究也发现了一些问题。例如,短文本语义相似性(Short - Text Semantic Similarity,STSS)存在诸多挑战,如信息有限、一词多义、存在异常值、句子结构复杂等。而且,在本次研究中,仅依靠一位主题专家(Subject Matter Experts,SME)来确定合并的 “ground truth” 可能存在局限性。未来的研究可以进一步优化 NLP 技术,探索更准确的短文本相似性模型,同时在构建 CLDs 时,确保因素定义清晰、一致,以提高 NLP 的兼容性。

总的来说,这项研究为解决 CLDs 合并难题提供了新的思路和方法,虽然目前还存在一些需要改进的地方,但随着 NLP 技术的不断发展,有望在未来更好地支持社区构建 CLDs,推动全球健康预防工作的进步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号