《Journal of Cheminformatics》:Predictive modeling of visible-light azo-photoswitches’ properties using structural features
编辑推荐:
为解决可见光光开关性质预测难题,研究人员开展 “Predictive modeling of visible?light azo?photoswitches’ properties using structural features” 主题研究。结果表明片段计数在预测中表现最佳,对吸收波长( λ ma x ? ) 预测较准,热半衰期( t 1/2 ? ) 预测稍弱。该研究为光开关设计提供新策略。
在神奇的化学世界里,有一种特殊的化合物 —— 光开关,它就像一个能感知光线的小精灵,在光的照射下,其化学结构和性质会发生奇妙的变化。光开关在材料科学和生物学等领域有着广泛的应用前景,比如在生物医学中的光药理学,通过光来精准控制药物的作用。然而,传统的实验方法在预测光开关的重要性质时,遇到了不少难题。像著名的偶氮苯光开关,其最大吸收波长
( λ ma x ? ) 在 320nm,需要紫外线才能引发变化,但紫外线对生物细胞有害,且在组织中的穿透能力远不如可见光。目前,实验人员主要依靠耗时的密度泛函理论计算来估计光开关的
λ ma x ? 和热半衰期
( t 1/2 ? ) ,这就像在黑暗中摸索,效率很低。而且,此前的研究要么只关注单一参数的预测,要么在预测多个参数时存在不足,难以满足实际需求。为了突破这些困境,来自北海道大学(Hokkaido University)的研究人员开展了一项极具意义的研究,他们试图通过机器学习的方法,基于光开关的结构特征来准确预测
λ ma x ? 和
t 1/2 ? 这两个关键性质。这项研究成果发表在《Journal of Cheminformatics》上,为光开关领域的研究开辟了新的道路。
研究人员在开展这项研究时,用到了几个主要关键的技术方法。首先是数据收集与整理,他们从大量文献中收集数据,涵盖多种偶氮苯和偶氮杂芳烃化合物的相关信息,最终得到 798 个有λ ma x ? 测量值、134 个有t 1/2 ? 测量值的独特化合物数据。接着,在构建定量构效关系(QSPR)模型时,考虑多种 2D 结构描述符,如 CircuS 和 ChyLine 片段等,并使用支持向量机(SVM)算法建模。此外,利用重复 10 折交叉验证(CV)评估模型性能,通过均方根误差(RMSE)和决定系数R 2 来衡量。还用 UMAP 方法分析化学空间,用 ColorAtom 方法解释模型 。
预测λ ma x ?
研究人员基于 798 个有实验测量光谱的化合物数据构建预测λ ma x ? 的模型。在对多种分子描述符进行基准测试和超参数优化后发现,CircuS 和 ChyLine 片段表现最佳。这两种片段基于片段枚举,分别统计环状和线性片段的出现次数,比分子指纹携带更多信息。该模型预测准确性与其他先进方法相当,即使未考虑溶剂的物理化学参数,模型表现依然出色。研究人员还尝试构建包含溶剂参数的模型,结果与未包含溶剂参数的模型相似 。
预测t 1/2 ?
由于t 1/2 ? 值范围极广,研究人员在预测模型中使用对数尺度的半衰期测量值。基于 134 个数据点进行建模,结果显示基于线性 ChyLine 片段构建的模型最佳,但整体性能欠佳,交叉验证中R 2 = 0.584 ,外部验证中R 2 = 0.482 。为了改善预测效果,研究人员采用共识建模,即综合多个模型的预测结果。将最佳模型(ChyLine)与第二好的模型(RDkit 分层指纹)结合,预测结果有明显改善,再加入基于 RDkit 线性指纹的模型,进一步提升了对部分分子的预测准确性,但对测试集中唯一的噻唑衍生物预测效果变差,该化合物可能超出模型适用范围 。
预测结果的解释和化学空间分析
研究人员利用 UMAP 方法研究训练集和测试集的化学空间,发现与λ ma x ? 相关的数据集较大且多样,测试集分子与训练集分子聚类接近;而与l o g t 1/2 ? 相关的数据集较小且多样性不足,测试集分子多在初始聚类之外,增加了超出模型适用范围的可能性。利用 ColorAtom 方法解释模型预测时发现,一些官能团(如N O 2 ? 、CN 、OM e )作为生色团或助色团会影响光开关的λ ma x ? 和l o g t 1/2 ? ,这与文献报道相符,但有时 ColorAtom 方法会忽略某些官能团的预期影响。
这项研究具有重要意义。研究人员成功构建了基于结构特征预测可见光偶氮光开关λ ma x ? 和t 1/2 ? 的模型,为光开关的设计和筛选提供了快速有效的方法。通过模型解释,能更深入理解结构与性质的关系,指导新型光开关的合理设计。尽管预测t 1/2 ? 的模型存在不足,但共识建模能有效降低预测误差。研究人员还提供了完整的数据集,鼓励更多研究人员使用其他机器学习方法或特征进行深入研究。不过,研究也存在局限性,如未充分考虑溶剂效应,未来需要更系统的数据集来完善对溶剂效应的评估。总体而言,该研究为光开关领域的发展奠定了坚实基础,有望推动相关领域取得更多突破 。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》