基于自动分类流程挖掘药代动力学文献表格:解锁数据宝藏,助力精准药物研发
【字体:
大
中
小
】
时间:2025年03月25日
来源:Scientific Reports 3.8
编辑推荐:
为解决药代动力学(PK)数据提取效率低的问题,研究人员开展 PK 表格自动分类研究,构建分类流程,助力数据挖掘与药物研发。
在药物研发的宏大版图中,药代动力学(Pharmacokinetics,PK)无疑占据着关键位置。它通过量化药物在体内的吸收、分布、代谢和排泄(Absorption, Distribution, Metabolism, and Excretion,ADME)过程,为药物候选物的筛选、治疗剂量的确定以及给药方案的优化提供了至关重要的依据。然而,当前 PK 研究却遭遇了数据获取的困境。
PK 研究高度依赖先前类似化合物的 PK 数据,这些数据能够为新化合物的首次人体试验预测以及群体 PK 模型的初始化提供宝贵的参考。但现实是,体内 PK 参数数据大多隐藏在科学文献的自由文本和半结构化表格中,犹如散落在茫茫书海的珍宝,难以被自动获取。现有的 PK 数据库多为人工整理,覆盖的药物种类极为有限,远远无法满足日益增长的研究需求。这就导致 PK 研究人员不得不耗费大量时间和精力,手动在海量文献中搜索和提取相关数据。随着科研成果的不断涌现,文献数量呈爆炸式增长,这一任务变得愈发艰巨,如同在荆棘丛中寻找花朵,困难重重。
为了突破这一困境,来自伦敦大学学院(University College London)等多个研究机构的研究人员踏上了探索之旅。他们聚焦于 PK 表格挖掘的关键第一步 —— 自动识别包含体内 PK 参数和研究人群特征的表格,致力于构建一个高效的自动分类流程,为 PK 数据的大规模提取奠定基础。该项研究成果发表在《Scientific Reports》上,为 PK 研究领域带来了新的曙光。
在研究过程中,研究人员运用了多种关键技术方法。首先,他们精心开发了 PK 表格分类(PK Table Classification,PKTC)语料库。通过从 PubMed 数据库中筛选出报告体内 PK 参数的文献,进而提取其中的表格,并由七位资深的药代动力学家依据详细的标注指南进行标注。标注完成后,将数据集划分为训练集、验证集和测试集。其次,针对表格的多样性,研究人员采用基于机器学习的方法构建分类管道。在特征选择方面,对表格的标题、表头行、第一列、前几行、表格主体和页脚等多个字段进行提取和评估;在表示方法上,对比了词袋模型(Bag-of-Words,BoW)和多种分布式表示方法。此外,还引入了生成式大语言模型(Large Language Model,LLM)中的 GPT-4o 进行零样本分类,并将其与监督学习方法相结合,以提高分类的准确性和效率。
在研究结果部分,研究人员首先对标注质量进行评估。通过计算 Cohen's Kappa 系数发现,经过团队讨论和指南优化,标注者之间的一致性得到显著提升,最终达到了较高水平。在表格字段选择的研究中,发现表格主体和标题的组合在分类性能上表现最佳,能够为分类任务提供更全面的信息。对不同表示方法的比较显示,尽管 BoW 模型简单,但在区分表格类别方面表现出色,优于一些预训练语言模型的表示方法。在分布式表示中,不同模型各有优劣,其中 PubMedBERT 在某些情况下表现相对较好。
针对分类器的性能评估,经过调优的 XGBoost 分类器在测试集上展现出卓越的性能,在所有三个类别上的 F1分数均超过 94%,这表明它能够有效捕捉表格数据中的关键判别模式,即使面对噪声和稀疏数据也能稳健地进行分类。零样本分类实验中,GPT-4o 的表现与 XGBoost 分类器相当,但考虑到大规模文献挖掘的效率需求,研究人员提出了一种将两者相结合的混合方法。当 XGBoost 分类器的置信度低于特定阈值时,由 GPT-4o 进行零样本分类,作为 “双重检查” 机制。实验表明,该混合策略在保证分类准确性的同时,能够显著提高效率,减少对 GPT-4o 的使用。
在大规模应用中,研究人员将分类管道应用于 PubMed Open Access 中的 PK 论文,并将结果集成到 PKPDAI 论文搜索工具中。通过对大量论文的处理,成功识别出众多包含体内 PK 参数数据和人口统计数据的表格,进一步验证了分类管道在实际应用中的有效性。
在研究结论与讨论部分,研究人员开发的 PK 表格分类管道成功实现了对包含体内 PK 参数和研究人群特征表格的高效识别,为 PK 数据的自动化提取迈出了关键的第一步。这一成果不仅有助于构建更全面、集中的 PK 数据库,提高数据获取效率,还为后续的药物研发、模型构建等研究提供了有力支持。但目前该管道也存在一定的局限性,例如只能处理开放获取的 PMC 论文中的文本可挖掘表格,无法处理图片形式的表格,并且对于识别出的数据仍需专家进行审查。未来的研究可以在此基础上,进一步拓展数据处理范围,实现对参数值、单位和患者特征信息的自动化提取,为 PK 研究提供更丰富、准确的数据资源,推动药物研发领域的发展,让更多患者受益于精准的药物治疗。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号