编辑推荐:
康复相关疾病康复周期长,患者就医不便,线上康复咨询需求大但相关知识挖掘不足。研究人员开展 “Knowledge discovery of diseases symptoms and rehabilitation measures in Q&A communities” 研究,构建 BERT-BiGRU-attention 模型,成果有助于康复患者及医疗诊断等。
在当今数字化时代,健康问题越来越受到人们的关注。对于康复相关疾病患者来说,漫长的康复周期使得频繁前往医院变得不切实际。据统计,全球多达三分之一的人口,即 24.1 亿人在患病或受伤期间可能从康复中受益,美国 68% 的慢性病康复患者依赖远程指导。因此,线上康复咨询的需求日益增长。然而,线上健康社区中大量有价值的问答信息却未得到充分挖掘。比如,患者提出的问题存在大量重复,像 “膝关节置换术后肿胀管理” 这类查询的重复率高达 37%;同时,平台由于缺乏精细的知识挖掘,造成了医疗资源的浪费。在这样的背景下,开展相关研究来充分利用这些线上问答信息就显得尤为重要。
为了解决上述问题,来自河南财经大学工商管理学院、湖北文理学院政法学院、中国开发银行青海分行等机构的研究人员展开了一项关于 “Knowledge discovery of diseases symptoms and rehabilitation measures in Q&A communities” 的研究。研究人员构建了 BERT-BiGRU-attention 模型,从两百万条康复问答条目中提取疾病、症状描述和康复措施三种实体之间的关系,并通过聚类分析对疾病相关知识进行分组。最终,该研究取得了一系列成果,在康复知识提取和疾病分类等方面表现出色,这对于补充和整合临床康复数据、辅助医疗诊断、增强健康教育以及帮助患者进行自我管理康复都具有重要意义。该研究成果发表在《Scientific Reports》上。
在研究过程中,研究人员主要运用了以下关键技术方法:首先,利用 BERT(Bidirectional Encoder Representations from Transformers)模型进行双向语义表示学习,结合标注数据有效捕捉医学文本中的复杂上下文关联;其次,采用双向门控循环单元(BiGRU)来处理长文本依赖关系,提高计算效率;再者,引入注意力机制动态分配权重,突出关键语义片段;最后,运用基于 kmeans++ 的聚类分析模型对提取的知识进行聚类。研究数据来源于中国最大的在线医疗咨询平台之一 120ask 网站的 “骨科术后康复” 板块,通过网络爬虫收集了 2017 年 3 月至 2022 年 10 月的数据。
下面来看具体的研究结果:
- 关系提取实验结果:使用 BERT-BiGRU-attention 模型进行关系提取实验,该模型在测试集上取得了优异的成绩,总体 F1分数达到 96.63%,AUPR 为 93.15%,AUC 为 95.81%。在各类关系中,除了未知关系(UKN)外,其他关系类别得分均超过 90%。例如,模型能够准确识别 “骨折” 与 “减少手臂运动” 之间不适合(NSFD)的关系,以及 “右桡骨头骨折” 与 “补钙” 之间适合(SFD)的关系 。同时,研究人员还将提取的实体关系三元组分类到 DS(疾病 - 症状)、SFD 和 NSFD 关系字典中,并绘制了可视化关系网络图,如以 “桡骨头骨折” 为例,展示了其相关症状和康复措施。
- 聚类分析实验结果:
- 基于症状的疾病聚类:利用 DS 关系字典,根据症状相似性将疾病分为 15 类。例如,第 2 类疾病包括中指骨折、右桡尺骨骨折等,它们的共同症状有握拳受限等。这种聚类有助于平台根据患者症状推荐专业医生,提高诊断准确性。
- 康复措施聚类:通过 SFD 关系字典聚类,将疾病基于相似的康复措施分为 20 类。如第 1 类疾病的合适康复措施都包含中药或药酒外用。这可以帮助在线健康社区为不同疾病创建定制的健康科学专栏,辅助患者健康管理。
- 不适当康复措施聚类:依据 NSFD 关系字典,把疾病按相似的不适当康复措施分为 6 类。像第 1 类疾病的不适当康复措施都有负重。这能帮助医生为患者推荐合适措施,社区管理者也可据此告知患者避免的康复行为,降低风险。
在研究结论和讨论部分,研究人员开发的 BERT-BiGRU-attention 模型在康复知识提取方面表现卓越,优于 BERT-BiGRU 和 CNN 等基线模型。该研究将碎片化的患者讨论数据转化为结构化医学知识,完善了康复知识体系,促进了知识共享。在实际应用中,它有助于医生在远程会诊时更准确地诊断,避免危险建议,还能为患者提供可视化的康复指导,提升患者自我管理能力。然而,研究也存在一些局限性,如数据主要来源于 20 - 55 岁人群,可能忽略老年群体需求;对于罕见或复杂病例处理能力有限;对口语化表达容易误判等。针对这些问题,未来研究可通过扩大数据多样性、增强多模态融合以及改进上下文语言理解等方式加以改进。总之,这项研究为康复知识提取搭建了一个重要框架,虽然存在不足,但为后续研究指明了方向,对推动康复医学领域的发展具有重要意义。