TabPFN在挥发性有机物质谱分析中的应用:一种面向小样本高维数据的基础模型新策略
《Scientific Reports》:On the use of TabPFN on mass spectrometry analysis of volatile organic compounds
【字体:
大
中
小
】
时间:2025年12月03日
来源:Scientific Reports 3.9
编辑推荐:
本文推荐一项针对挥发性有机物(VOCs)质谱分析中高维度、小样本挑战的研究。团队首次将表格数据基础模型TabPFN应用于PTR-ToF-MS和GC-MS数据,通过系统评估发现该模型在分类与回归任务中均达到最优平均排名。研究进一步提出并验证了适用于VOCs数据的模型优化策略,为质谱数据分析提供了即插即用的高效解决方案。
在食品质量监控和医学诊断领域,挥发性有机物(VOCs)如同化学指纹般承载着关键信息。通过质子转移反应飞行时间质谱(PTR-ToF-MS)或气相色谱质谱联用(GC-MS)等技术,科学家能够将样品转化为包含成百上千个质谱峰的数据表格。然而,这种数据往往面临“维度灾难”——样本量远少于特征数,且受到仪器误差和生物变异性的双重干扰,给传统机器学习方法带来巨大挑战。
近日发表于《Scientific Reports》的研究提出创新解决方案:将表格数据基础模型TabPFN首次系统应用于VOCs分析领域。该研究通过对20个分类数据集和9个回归数据集的全面评估,发现TabPFN在多数情况下超越随机森林(RF)、XGBoost等传统方法,特别是在样本稀缺的场景下表现出色。更值得关注的是,团队开发的简单集成策略进一步提升了模型稳定性,为质谱数据分析提供了新的技术路径。
研究方法的核心在于对比验证与策略优化。团队采用留组交叉验证策略,确保模型评估的严谨性。在技术方法层面,重点包括:① 多源数据集构建(涵盖PTR-ToF-MS和GC-MS技术的食品、医疗等领域数据);② 基础模型对比(包含RF、LDA-S、PLSDA、SVM、XGBoost等经典算法);③ TabPFN优化策略(提出普通集成、后验集成、数据微调FT-Data和组群微调FT-Group四种方案);④ 性能评估体系(分类任务采用错误率,回归任务使用标准化均方误差NMSE)。
在分类任务中,TabPFN在50%的数据集上表现最佳,平均排名位居首位。特别是在PTR-ToF-MS食品数据(如口香糖基材Gum2、Gum3)和医疗数据(如蜜蜂行为识别)中优势明显。对于GC-MS数据,TabPFN与传统方法性能相当,但由于该类数据集较少,此发现需进一步验证。
回归分析结果更为显著,TabPFN在预测口香糖成分浓度和榛子烘烤参数等任务中,均方误差显著低于对比方法。这表明该模型在处理连续型目标变量时同样具有强大潜力。
研究团队深入探讨了四种改进策略。普通集成(平等加权多个TabPFN模型)在高变异性的VOCs数据中表现最优,因其避免了加权集成容易产生的过拟合问题。数据微调(FT-Data)虽有一定效果,但存在双重使用训练数据的风险;而组群微调(FT-Group)则可能使模型偏向其他数据集特征,反而降低泛化能力。
本研究证实TabPFN作为即用型工具,能够有效应对VOCs分析中的特殊挑战。其核心优势在于:无需繁琐的参数调优即可实现竞争性性能,极大降低了数据分析门槛。对于追求极致性能的场景,普通集成策略提供了一种简单有效的增强方案。
该工作的创新性不仅在于验证了基础模型在质谱数据分析中的适用性,更在于为小样本、高噪声的表格数据建模提供了新范式。未来研究方向包括扩展至离子迁移谱等更复杂的数据类型,以及开发能够处理原始质谱信号的基础模型。这项由Pablo M. Granitto等人完成的研究,为分析化学与机器学习的交叉领域树立了重要里程碑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号