编辑推荐:
在药物研发和材料设计中,准确预测分子性质至关重要。研究人员开发了 Titania 工具,构建 9 种分子性质预测模型,经 OECD 准则验证,集成于 Enalos 云平台。这为相关领域提供有效工具,提升预测效率与准确性。
在药物研发和材料设计的领域中,就如同在黑暗中摸索宝藏,每一个新的发现都可能带来巨大的变革。但长期以来,准确预测分子性质一直是困扰科研人员的难题。药物研发需要筛选大量化合物,传统实验方法成本高、耗时长,而且在早期难以评估化合物的毒性等关键性质,导致许多药物在后期研发阶段失败,造成资源的极大浪费。材料设计也面临类似困境,无法精准预测材料分子性质,难以开发出高性能的新材料。
为了解决这些问题,来自 NovaMechanics Ltd、塞浦路斯大学等多个研究机构的研究人员开展了一项极具意义的研究。他们致力于开发能够准确预测分子性质的模型,并将其整合到便捷易用的平台中。研究结果显示,他们成功开发了针对 9 种关键分子性质的预测模型,包括辛醇 / 水分配系数(logP)、水溶性(logS)、水合自由能(Free-Solv)、蒸气压(logVP)、沸点(BP)、细胞毒性、诱变性、血脑屏障通透性(BBB)和生物富集因子(logBCF)。这些模型经过严格验证,具有较高的预测准确性,并且通过 Titania 网络工具集成到 Enalos 云平台,为科研人员提供了高效的分子性质预测服务。这一研究成果发表在《Molecular Diversity》上,对药物发现和材料设计领域意义重大,它能够帮助科研人员在早期筛选出更有潜力的化合物,减少不必要的实验,提高研发效率,降低成本。
在研究过程中,研究人员用到了多种关键技术方法。首先,他们收集了多个已有的数据集,并对数据进行了严格的整理和筛选,去除冗余和错误数据。然后,利用 Mold2 软件计算分子描述符,将分子结构转化为可用于机器学习算法的数值数据。在模型开发阶段,研究人员对比了 k - 近邻算法(kNN)、随机森林算法(RF)、支持向量机(SVM)和多层感知器(MLP)等多种机器学习算法,最终选择 kNN 和 RF 构建模型。同时,运用外部验证、Y 随机化测试等方法对模型进行验证,确保模型的可靠性。
下面来详细看看研究结果:
- 模型开发与评估:研究人员通过对多种机器学习算法的比较,发现 kNN 和 RF 在大多数情况下表现出色。对于回归模型,如 logP、logS 等性质的预测,模型的交叉验证系数 Q2在 0.69 - 0.89 之间,外部解释方差 Qext2也达到了较高水平,表明模型具有良好的泛化能力。对于分类模型,如细胞毒性、诱变性和血脑屏障通透性的预测,预测准确率在 77% - 87% 之间,敏感性、特异性和马修斯相关系数(MCC)等指标也体现了模型的可靠性。
- 描述符贡献与模型重叠:通过分析 Mold2 描述符在不同模型中的贡献,发现 logP 和 logS 的描述符有很强的重叠,表明这两种性质受分子极性和疏水性的共同影响。logP 和 BBB 也共享部分描述符,反映出化合物的渗透性和脂溶性之间存在关联。而 Free-Solv 与其他模型的描述符重叠较少,说明其相关描述符具有独特性。
- Titania 网络服务器的实现:开发的模型通过 Titania 网络工具部署在 Enalos 云平台上。用户可以通过绘制分子结构或上传 SMILES 格式文件输入化合物,选择要预测的端点,平台能在数秒内给出预测结果,包括预测的性质值或类别,并根据模型的适用域(DoA)对结果进行可靠性评估。同时,还提供分子的多种性质信息,方便用户进行分析。
- 案例研究:在对已知药物的筛选和工具比较中,Titania 对大多数药物的 logP 和 logS 预测与其他工具相符,在 BBB 分类预测中也有较高的一致性。在筛选 PFAS 替代品的研究中,利用 Titania 计算相关化合物的性质,发现部分类似化合物可能具有更安全的性质。对于潜在治疗靶点抑制剂的研究,通过预测类似化合物的性质,为寻找更安全有效的药物提供了参考。
研究结论和讨论部分指出,本研究开发的 QSAR/QSTR 模型在预测分子性质方面具有重要价值,能够帮助科研人员在药物发现和材料设计中提前评估化合物的性质,减少实验成本和风险。Titania 平台的易用性和数据可及性也为科研人员提供了便利。然而,模型的准确性仍依赖于训练数据,对于分布外的化合物预测可能存在困难。未来可通过特征选择、数据增强等方法进一步优化模型。总的来说,这项研究为药物研发和材料设计领域提供了强大的工具,推动了相关领域的发展,具有重要的科学意义和应用价值。