编辑推荐:
为解决药物研发难题,研究人员开展基于知识图谱嵌入的药物重定位模型研究,模型预测准确性高,助力药物研发。
基于知识图谱嵌入的药物重定位模型研究解读
在生命科学和医学领域,攻克复杂疾病一直是重大挑战。像癌症、糖尿病和心血管疾病这类复杂疾病,受遗传和环境等多种因素影响,研究难度极大。过去几十年,尽管基因组学和生命科学飞速发展,但新药研发依旧困难重重。研发一种新药通常需要 10 - 15 年,成本高达近 20 亿美元,可投资回报率却从 2010 年的 10% 骤降至 2019 年的 2% 。在药物研发的临床试验阶段,从 I 期到 III 期往往耗时 3 - 7 年,大量实验药物因各种问题无法通过临床试验,即便通过 III 期的药物,也可能在 IV 期市场监测时被撤回。这使得新药研发进展缓慢,在此背景下,药物重定位(Drug Repositioning)成为了极具潜力的方向。
药物重定位是利用现有药物开发新的治疗应用,与创新药物研发相比,它在研究时间、资金投入和成功率上都具有显著优势。不过,药物重定位研究也面临诸多问题。例如,在数据表示方面,实体和关系的语义特征不足,传统词嵌入技术不适用于知识图谱嵌入,传统翻译模型语义特征弱,整合文本语义信息也困难重重;知识融合技术效率低,难以满足大规模数据处理需求;筛选出的候选药物质量难以验证;药物样本集庞大,相似药物多,筛选结果受限。
为解决这些问题,吉利大学中国智能技术学院的研究人员 Shufang He 和 Xiaoyu Zhao 开展了基于知识图谱嵌入(Knowledge Graph Embedding)的药物重定位模型研究。该研究成果发表在《Scientific Reports》上,为药物研发开辟了新道路。
研究人员在此次研究中运用了多种关键技术方法。首先是知识图谱构建,他们借助 Drug Repurposing Knowledge Graph(DRKG)构建知识图谱,DRKG 整合了多个大型开放医学数据库及 COVID-19 相关医学文献的数据,使得构建的知识图谱包含丰富信息。接着是模型构建,选择翻译模型 TransE 和双线性模型 Dismult、Rescal,并结合注意力机制(Attention Mechanism)创建 Attranse、Attdismult 和 Attrescal 模型。最后通过交叉验证、与临床药物对比以及药物基因特征富集分析等方法评估模型有效性。
研究结果如下:
- 模型构建与训练:通过将知识图谱中的实体和关系用低维向量表示,结合注意力机制,增强了模型对知识的表示能力。例如,在 Attranse 模型中,头实体和尾实体通过全局注意力和自注意力机制获取属性特征后进行翻译操作;Attrescal 和 Attdismult 模型中,头实体、尾实体和关系标签词分别通过相应注意力机制获取特征后进行矩阵乘法运算。
- 模型验证:将 COVID-19 相关数据输入模型,对每个药物进行评分。通过交叉验证,对比模型预测的前 100 种药物与 COVID-19 临床治疗药物,发现模型预测的药物中有 7 种与临床药物相同。同时,利用基因表达数据库和蛋白质组数据库的数据进行药物基因特征富集分析,进一步验证了模型预测的有效性。
在研究结论和讨论部分,该研究成果意义重大。从模型性能上看,与传统方法相比,该模型将药物预测准确率提高了 133%,证明了基于知识图谱嵌入并结合注意力机制的药物重定位模型的有效性和实用性。从药物研发角度,该研究为药物重定位提供了理论基础,为传统药物发现提供了新思路,有助于加速药物研发进程,降低研发成本。此外,研究具有可扩展性,虽然目前仅在 COVID-19 相关数据上进行了实验验证,但未来可应用于其他疾病,如阿尔茨海默病、癌症等的药物研究。不过,研究也面临一些挑战,例如需要与临床专业人员合作,进一步验证药物的安全性和有效性;还需拓展数据来源,提升模型的可靠性和适应性。总体而言,这项研究为药物重定位领域带来了新的希望,有望推动个性化医学和药物发现的发展。