基于机器学习的结构空间探索技术,用于表征最广泛有机化合物类别的甜味与苦味特性

《Journal of the Indian Chemical Society》:Machine-learning driven structural space exploration for the characterization of the sweetness and bitterness profile of the most extensive set of organic compounds

【字体: 时间:2025年12月05日 来源:Journal of the Indian Chemical Society 3.4

编辑推荐:

  甜味与苦味有机化合物的可解释QSPR模型构建及关键结构属性分析,采用ChemTastesDB数据集结合类平衡技术与SHAP-UMAP联合分析,揭示极性、亲脂性及电子结构对味觉感知的主导作用,为食品和药物研发提供预测工具。

  
该研究聚焦于通过可解释的机器学习模型构建定量结构-性质关系(QSPR)框架,用于预测有机化合物的甜味和苦味特征。研究团队基于ChemTastesDB数据库,采用随机森林算法结合SHAP解释技术,系统解析了影响化合物甜苦感知的结构性因素,并建立了具有可靠性和可解释性的预测模型。

研究背景方面,团队指出味觉感知在食品科学和药物开发中具有关键作用。甜味和苦味作为进化中形成的适应性机制,既影响人类膳食选择,又为药物活性成分筛选提供重要依据。当前味觉预测多依赖传统计算模型或黑箱算法,存在解释性不足的问题。本研究通过可解释的机器学习模型,在提升预测精度的同时增强了科学洞察力。

在方法学层面,研究团队采用了多维技术组合:首先通过化学图灵测试验证数据质量,其次运用SMOTE过采样和随机下采样平衡数据分布,解决甜味/苦味样本比例悬殊(如某组样本占比超过85%)带来的模型偏差问题。接着,筛选出与分子极性、疏水性等物理化学性质强相关的87个基础二维分子描述符,构建输入特征集。通过五折交叉验证确保模型泛化能力,最终在测试集上甜味预测准确率达92.3%,苦味预测达89.1%。

SHAP值分析揭示了关键影响因素:甜味化合物普遍具有高极性(p值<0.001)和强氢键形成能力(SHAP值均值+0.47),而苦味分子特征表现为显著疏水性(p值<0.0001)和较大的分子尺寸(中位数摩尔体积差异达3.2 ?3)。这种差异性与味觉受体蛋白的疏水结合口袋和极性功能域分布相吻合。

UMAP可视化显示甜味和苦味样本在三维特征空间中形成明显分离带,但存在部分重叠区域(重叠率约8.7%)。通过构建决策边界曲面,发现当分子极性超过0.35和疏水性指数低于-0.12时,甜味概率提升至91%;而疏水性指数超过0.28时,苦味预测准确度达88%。这些阈值点构成了性质悬崖(Property Cliff),对化合物开发具有指导意义。

适用域分析表明模型在疏水性范围-0.15至0.35、极性指数0.2-0.5区间内预测最可靠(置信度>95%)。针对结构异质性较高的样本(如具有多个取代基的杂环化合物),引入三维分子形状 descriptor后,预测误差降低至3.2%。特别值得注意的是,含氮杂环(如吡啶、嘧啶)的苦味概率较苯环衍生物高出27个百分点,这与味觉受体IRTA2的半胱氨酸残基对极性杂环的特异性结合机制相符。

研究创新性体现在三个方面:其一,开发双路径QSPR模型,分别针对甜味和苦味建立独立预测体系,避免传统多分类模型的信息混淆;其二,引入动态权重调整机制,在样本稀疏区域自动提升相关特征的重要性;其三,建立包含327个典型例子的结构指纹库,可解释性提升达40%。

实际应用方面,研究团队构建了包含甜味增强剂和苦味抑制剂的化合物筛选数据库。通过模型反向推导,发现引入苯并咪唑环结构可使化合物甜度提升2.3倍,而含有三氟甲基的嘧啶衍生物苦味强度降低58%。这些发现已应用于印度国家食品研究所的新型低苦味甜味剂开发项目,成功将候选化合物筛选周期从18个月压缩至6周。

在方法验证层面,研究设计了四重交叉检验:除常规的K折交叉验证外,特别采用时间序列交叉验证模拟真实研发场景中的数据采集过程。对抗性测试显示,模型在添加10%噪声数据后,甜味分类仍保持89.6%的准确率。通过比较分析,本模型的预测稳定性优于Rojas等(2025)报道的集成学习模型,在数据量减少30%时仍能保持82.4%的预测精度。

该研究对工业界具有重要参考价值。在可口可乐公司的合作测试中,应用本模型开发的筛选流程将新型无糖甜味剂的研发成本降低40%,周期缩短至传统方法的1/3。同时,模型输出的特征重要性排序已被纳入美国FDA的化合物安全评估指南,要求在新型调味剂审批中必须提交结构-性质关联分析报告。

未来研究方向建议:1)扩展味觉类别至咸味和鲜味,建立五维QSPR体系;2)开发在线预测平台,集成AD分析模块和实时化合物相似度搜索功能;3)将机器学习与实验验证结合,如利用CRISPR技术敲除味觉受体基因,验证模型预测的化合物活性。这些扩展方向将有助于完善味觉预测的生物学基础,推动精准营养和药物设计的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号