综述:基于文献计量学的计算机辅助药物再利用研究(2000-2023):性能分析、科学知识图谱绘制与文本挖掘

【字体: 时间:2025年04月26日 来源:Heliyon 3.4

编辑推荐:

  本文通过文献计量学方法,对 2000 - 2023 年计算机辅助药物再利用研究进行分析。揭示了该领域的发表、合作情况,明确了高产和有影响力的贡献者,还探讨了热门主题和研究趋势,为该领域研究提供了全面参考。

  

1. 引言


在过去的一个世纪里,药物和疾病研究经历了从化学方法到计算机辅助(in silico)测试和模拟的发展历程。早期,药物发现主要依赖临床科学、药理学和化学,像亚历山大?弗莱明发现青霉素和保罗?埃利希发现胂凡纳明(Salvarsan),都是通过偶然观察或假设验证实现的。后来,从 1950 年到 1980 年,药物研发基于体内动物实验数据,如吡罗昔康(Feldene)的开发。自 20 世纪 80 年代末以来,高通量筛选、人类基因组等技术推动了制药行业的变革。

然而,传统的新药开发过程漫长、复杂、昂贵且风险高,从基础研究到药物获批上市,通常需要 13 - 15 年,花费 20 - 30 亿美元,且成功率较低。为了应对这些问题,2004 年药物再利用的概念应运而生。药物再利用旨在将已批准用于治疗一种疾病的药物,测试其对其他疾病的疗效,这一方法节省了时间和成本,近年来 FDA 批准的新药中,约 30% 是通过药物再利用获得的。

药物再利用包含多种计算机辅助方法,如基于基因表达的特征匹配、分子对接、遗传关联分析、通路映射等,还会用到 Connectivity Map(CMap)、DrugBank 等数据库。例如,分子对接技术助力发现雷洛昔芬在肿瘤学中的新用途,计算机辅助方法也加快了瑞德西韦作为 COVID-19 潜在治疗药物的识别。

本文通过文献计量学分析,旨在展示计算机辅助药物再利用领域的研究进展,回答该领域的发表和合作情况、研究趋势、主要贡献者等问题。

2. 材料和方法


2.1 数据来源和搜索策略


2024 年 2 月,研究人员从 Scopus 数据库提取文献计量数据。搜索包含特定关键词组合的文献,关键词涉及算法、人工智能、生物信息学等技术,以及药物再利用相关词汇,限定文献为 2023 年及以前、英文撰写,排除勘误和撤回的文档,最终检索到 5372 篇文章。研究人员下载数据时,为避免出现缺失或重复记录,采取分批下载小于 2000 条记录的方式,再用 R 代码合并.csv 文件,用 Texmaker_5.1.4 合并.bib 文件。

2.2 数据筛选


利用开源工具 Bibliometrix 及其 shiny 应用程序 Biblioshiny 筛选出具有完整书目元数据的文档。该工具广泛应用于文献计量研究,可从多个数据库下载数据,并进行性能分析和科学知识图谱绘制。经过筛选,从 5372 篇文章中选取了 5320 篇具有完整元数据的文章进行后续分析。

2.3 数据协调


由于数据可能存在混乱,需要进行预处理。研究人员使用 Java - based OpenRefine 3.7.7 对作者关键词进行处理,通过拆分多值单元格、分面数据、合并多值单元格等步骤,自动合并相似关键词。例如,利用 Key Collision 方法和 Fingerprint 函数合并关键词,再用最近邻方法进行二次聚类,最后手动统一部分词汇,确保数据的一致性和可靠性。

2.4 数据分析


将 OpenRefine 处理后的数据导入 Biblioshiny 进行性能分析和科学知识图谱绘制。考虑到 Bibliometrix 在计算作者和机构频率时的局限性,研究人员编写 R 脚本计算作者和国家的相关指标,并使用 Scimago Graphica 绘制图表。同时,创建 CSV 字典对相关疾病进行聚类,分析疾病和数据库在作者关键词中的提及频率及趋势,还考虑了 Scopus 的期刊评价指标,如 CiteScore 2022、SCImago Journal Rank(SJR)2022、Source Normalized Impact per Paper(SNIP)2022 等。

3. 结果


3.1 概述


经过筛选,共收集到 2000 - 2023 年的 5320 篇文档,文档类型多样,包括文章、综述、会议论文等。年度增长率为 34.67%,文档平均年龄为 3.96 年,表明该领域近年来受到广泛关注。作者关键词共有 8463 个,单篇论文的平均合著者数量为 6.28 人,约 30% 的文章为国际合作成果,显示出研究人员之间的合作紧密。

从年度科学产出看,2000 - 2010 年相关文献较少,仅 35 篇。2011 年起数量开始增长,2019 年后呈指数增长,2020 年和 2021 年增长尤为显著,可能与 COVID-19 疫情下对药物再利用的研究需求增加有关。通过指数回归模型预测,2024 年和 2025 年将分别发表 2630 篇和 3780 篇学术文章,但截至 2024 年 10 月,实际发表数量约为 850 篇,可能是由于 COVID-19 相关研究热度下降。

3.2 来源


根据布拉德福德定律,确定了该研究领域的核心期刊。在相关期刊中,《Journal of Biomolecular Structure and Dynamics》《Scientific Reports》《International Journal of Molecular Sciences》发文量居前。从影响力来看,《Briefings in Bioinformatics》《Bioinformatics》《Journal of Biomolecular Structure and Dynamics》的总引用数和 h 指数较高。《Nature Communications》《Bioinformatics》《Briefings in Bioinformatics》则在期刊声望方面表现突出。非期刊类中,《Lecture Notes in Computer Science》系列发文量较多。这些期刊和系列涵盖了分子、生物信息学、药理学等多个学科领域,体现了该研究的跨学科性。

3.3 贡献者


  • 作者:高产作者分布在全球多个地区,其中美国、中国和土耳其的作者较多。Feixiong Cheng 发表文章数量最多,且总引用数、h 指数、g 指数和 m 指数也较高。这些作者的研究兴趣广泛,涉及癌症、阿尔茨海默病等多种疾病,以及机器学习、深度学习等技术在药物再利用中的应用。
  • 机构:发文量排名前十的机构包括中国科学院、哈佛医学院等。这些机构在药物再利用研究方面具有较强的实力和影响力。
  • 国家:美国、中国和印度在该领域的发文量最多,且在总引用数等指标上也表现出色。瑞典、沙特阿拉伯和埃及是合作程度较高的国家,各大陆均有国家在该领域有所贡献。通过世界地图和合作矩阵图,可以直观地看到各国的研究分布和合作情况。

3.4 文档分析


  • 全球高被引文献:最被频繁引用的文章是关于 DrugBank 数据库更新的研究。此外,有 6 篇与 COVID-19 相关的文章也在高被引文献之列,体现了疫情期间对相关药物研究的高度关注。这些文章涵盖了多种技术和研究方向,为药物再利用研究提供了重要参考。
  • 高频词汇和词汇动态:作者关键词中,“药物再利用”“药物重新定位” 等词汇出现频率较高。通过分析发现,高通量和表型筛选等词汇曾是热门,但随着技术普及逐渐不再热门;而 Connectivity Map(CMap)、COVID-19 等词汇近年来逐渐兴起。在疾病研究方面,COVID-19 在 2020 年后成为主要研究对象,癌症、传染病和神经系统疾病也一直是研究热点。数据库使用方面,CMap 和 DrugBank 较为突出,同时 L1000、TCGA 等数据库的使用也逐渐多样化。

3.5 概念结构


  • 网络方法:作者关键词共现网络:通过作者关键词共现网络分析,发现不同关键词之间的关联。例如,“药物再利用”“分子对接” 等关键词影响红色集群,“药物重新定位”“生物信息学” 等关键词突出蓝色集群,“COVID-19”“Sars-CoV-2” 等关键词聚焦绿色集群,“深度学习”“机器学习” 等关键词则凸显紫色集群。
  • 网络方法:主题地图:主题地图根据中心性和密度两个指标对关键词聚类进行评估。结果显示,阿尔茨海默病、癌症等疾病和机器学习、人工智能等计算方法属于基础主题,COVID-19 相关研究处于专业和衰退主题之间。
  • 网络方法:主题演化地图:主题演化地图展示了不同时间切片下主题的演变。早期,帕金森病、阿尔茨海默病、癌症和恰加斯病是常见研究疾病,随着时间推移,COVID-19 成为研究焦点,研究方法也从数据整合向药物 - 靶点相互作用方向发展,CMap 的使用贯穿始终,凸显其重要性。

4. 讨论


4.1 性能分析和科学知识图谱绘制


近年来,药物再利用概念受到科学界广泛关注,科学产出显著增加,这与其他新兴领域的发展趋势相似,如肠道微生物组研究、人工智能在放射组学中的应用等。在性能分析方面,确定了核心期刊、主要作者和贡献较大的国家;在科学知识图谱绘制方面,明确了研究的热门话题、疾病和数据库,以及各国之间的合作关系。

4.2 优势和局限性


本研究的优势在于采用了严格的方法,对元数据完整的文章进行分析,并对作者关键词进行协调,确保了结果的可靠性。同时,深入审查了软件结果,进行了全面的文本挖掘分析。然而,研究也存在局限性。Scopus 数据库无法下载引用文献,限制了部分分析;仅使用 Scopus 数据库,未综合其他数据库,可能影响结果的全面性;分析国家生产力时,未考虑科学家数量和国内生产总值等因素;指数回归模型的预测受当前研究条件影响,可能无法反映不可预测的事件;部分文章未提及所用数据库。

4.3 未来趋势


目前,药物发现越来越依赖计算资源,未来需要加强学术界和产业界的合作。预计会有更有效和受欢迎的数据库出现,为药物再利用研究提供更有力的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号