深度学习与符号回归融合策略推动有机太阳能电池分子设计与虚拟筛选新范式

《npj Computational Materials》:Integrating deep learning and symbolic regression for molecular design and virtual screening of organic solar cells

【字体: 时间:2025年12月13日 来源:npj Computational Materials 11.9

编辑推荐:

  为解决有机太阳能电池(OSCs)材料开发中传统试错法周期长、成本高、筛选效率低的问题,研究人员开展了集成深度学习与符号回归(SR)的主题研究。通过构建包含547个给体-受体对的数据库,提取30个关键分子描述符,训练LSTM、CNN和SR模型预测光电转换效率(PCE)。结果表明LSTM模型预测性能最优(测试集r=0.92),并通过SHAP可解释性分析与SR公式双重验证,发现受体分子中双环及以上结构单元数量与PCE呈显著正相关。基于分子片段重组策略生成210,660个新型给体分子和878,268个受体分子,经LSTM模型筛选获得5,753对PCE>18.50%的高效组合(最高达18.66%)。该研究为有机光伏材料设计提供了理论指导,可加速高性能OSCs开发。

  
随着柔性电子和环境可持续发展需求的日益增长,有机太阳能电池(OSCs)因其独特的优势成为新兴光伏技术的研究热点。尽管OSCs在材料、加工技术和器件结构等方面取得了显著进展,特别是从富勒烯到非富勒烯受体材料的转变推动了效率的不断提升,但其光电转换效率(PCE)仍低于已商业化的硅基和无机结太阳能电池。OSCs的性能很大程度上取决于活性层中的电子给体和受体材料。然而,传统的试错方法开发周期长、实验成本高、筛选效率低,而密度泛函理论等计算方法虽能预测材料性质,但因计算强度大、耗时久,难以满足高通量筛选的需求。
为解决这些挑战,吕龙飞、张彩荣等研究人员在《npj Computational Materials》上发表了最新研究,集成深度学习与符号回归(SR)技术,为OSCs的分子设计与虚拟筛选提供了新范式。研究团队构建了包含547个给体-受体对的数据库,整合了光伏参数和分子表征信息,并从中提取了30个与PCE密切相关的分子结构描述符。通过网格搜索算法优化超参数,训练了长短期记忆网络(LSTM)、卷积神经网络(CNN)和符号回归(SR)模型来预测OSCs的PCE。结果表明,所有模型均表现出强大的预测能力,其中LSTM模型性能最优,在测试集上获得了0.92的皮尔逊相关系数(r)和0.84的决定系数(R2),均方误差(MSE)为3.28。
为了深入理解分子结构描述符对PCE的影响,研究结合SHapley Additive exPlanations(SHAP)可解释性分析和SR得到的数学表达式进行了双重验证。SHAP分析揭示了CNN和LSTM模型中的重要描述符,如受体中含氮芳香环基团数量(fr_Ar_N_A)、给体中脂环族碳环数量(NumAliphaticCarbocycles_D)等对PCE有显著正贡献。符号回归模型gplearn(a)得到了一个相对简洁且可解释的数学表达式:X1+ √[(tan(ln X12) - tan(X5) + X15+ X9) · (X25+ ln X4+ X24/X12)]。该表达式与SHAP分析结果一致,共同表明受体分子中双环或多环结构单元数量(fr_bicyclic_A, X24)与PCE存在显著正相关,这一发现也与前人研究结果吻合。
在分子生成方面,研究采用基于分子片段重组的策略构建训练集,并利用LSTM生成模型快速产生大量新型分子。给体分子采用D-π-A-π架构,受体分子采用对称的A-π-D-π-A架构。LSTM生成模型通过嵌入层、LSTM编码器和线性解码器,从字符级的概率分布中采样生成新的SMILES(Simplified Molecular Input Line Entry System)序列。
生成过程成功产生了210,660个独特的新型给体分子和878,268个独特的新型受体分子,构成了包含185,015,936,880个独特给体-受体对的筛选空间。
利用训练好的LSTM预测模型对这个巨大的分子对库进行虚拟筛选,识别出5,753对预测PCE超过18.50%的给体-受体组合,其中432对超过18.60%,最高预测PCE达到18.66%。这些高效组合中的受体分子普遍具有稠环系统和卤素取代基,呈现刚性平面结构,有利于形成纳米级相分离的双连续互穿纤维网络结构,从而促进激子扩散和电荷传输,提高PCE。给体分子则包含脂环族碳环和卤素原子,与SHAP分析得到的特征重要性排名一致。
本研究的关键技术方法主要包括:数据库构建(收集547对给体-受体分子的结构与PCE数据,筛选出30个关键分子结构描述符);预测模型开发(使用LSTM、CNN和符号回归模型预测PCE,并通过网格搜索优化超参数);可解释性分析(结合SHAP和SR公式分析描述符重要性);分子生成(基于分子片段重组策略和LSTM生成模型产生新型给体、受体分子);虚拟筛选(利用训练好的LSTM预测模型对生成的巨大分子对库进行高通量筛选)。
研究结果
数据库
研究构建的数据库经过严格的数据整理,最终包含465个具有不同分子描述符的给体-受体对。通过按PCE排序并分层随机抽样(80%训练,20%测试),确保了训练集和测试集PCE分布的相似性,减少了数据异质性可能带来的偏差。
预测模型的训练与分析
超参数优化后的模型评估显示,LSTM模型在预测PCE方面表现最佳。gplearn(b)和CNN模型表现出相当的预测性能,而gplearn(a)在平衡复杂性和可解释性的同时,仍保持了不错的预测准确性。外部验证使用五个未见过的给体-受体对,所有模型的绝对误差均≤1.91%,表明优化后的模型具有良好的泛化能力。
符号回归的表达式
符号回归产生了两个模型gplearn(a)和gplearn(b)的数学表达式。gplearn(a)的表达式相对简洁,有利于与SHAP分析结合进行解释。gplearn(b)的表达式更复杂,侧重于预测性能。这些表达式将分子描述符与PCE联系起来,并采用了保护函数以确保计算稳定性。
描述符重要性分析
SHAP分析确定了CNN和LSTM模型中对PCE预测最重要的描述符。七个描述符在两个模型的前十重要特征中保持一致。SHAP分析与符号回归表达式均表明受体分子中双环或多环结构单元数量(fr_bicyclic_A)对PCE有显著正影响,这与先前研究结果一致。
新型分子生成与虚拟筛选
LSTM生成模型成功产生了大量新型给体和受体分子。随着生成周期增加,每个周期产生的有效且独特的分子数量呈下降趋势。最终,结合生成的分子和用于训练生成模型的原始数据,获得了210,660个独特的给体分子和878,268个独特的受体分子,构成了庞大的筛选空间。使用LSTM预测模型进行筛选,发现了数千个预测PCE超过18.50%的高性能给体-受体对。
研究结论与讨论
本研究成功地将机器学习技术应用于有机太阳能电池给体-受体材料的开发中。通过构建专用数据库、开发高性能预测模型(特别是LSTM模型)、结合SHAP和SR进行可解释性分析,以及利用LSTM生成模型进行大规模分子设计和虚拟筛选,建立了一套高效的材料发现流程。研究不仅实现了对OSCs PCE的准确预测,还揭示了受体分子中多环结构对性能提升的关键作用,为理解结构-性能关系提供了重要见解。通过该流程,研究人员从海量的虚拟分子对中筛选出了数千个具有潜在高效率的候选材料,显著加速了高性能OSCs材料的发现进程。该方法论不仅适用于有机光伏材料设计,也有望推广到其他功能分子的设计与筛选研究中,为材料科学领域的高通量发现提供了新的思路和工具。该研究为克服传统材料开发模式的局限性提供了有效的解决方案,有望推动有机太阳能电池技术的进一步发展和产业化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号