
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于分子动力学模拟的间三氟甲基二苯基二硒醚与μ-阿片受体结合机制研究:吗啡耐受性的计算视角
【字体: 大 中 小 】 时间:2025年08月27日 来源:Computational and Theoretical Chemistry 2.8
编辑推荐:
【编辑推荐】本文创新性提出双分支结构模型MATE(Momentum-Augmented Transformer Encoder),通过外部空间注意力(ESA)机制和多模态融合Transformer编码器,实现图像-文本检索中全局与局部特征的协同优化。引入硬增强对比三重损失(HECT Loss)和动量蒸馏自监督学习,显著提升跨模态匹配性能,在Flickr30K和MS-COCO数据集上超越现有SOTA方法。
Highlight
跨模态检索(尤其是图像-文本检索)旨在实现视觉与语言模态的高效匹配。尽管深度学习技术不断进步,现有方法仍存在三大局限:(1) 过度侧重全局或局部特征而缺乏整合;(2) 忽视同模态样本间关系;(3) 难以有效处理图像-文本对中的噪声数据。
Method
如图2所示,MATE模型包含四大模块:
特征提取:采用CNN和Transformer分别编码图像区域特征和文本词向量
外部空间注意力(ESA):通过空间注意力权重聚合局部特征,模拟人类认知的"由局部到全局"处理流程
对比多模态学习:创新性提出硬增强对比三重损失(HECT Loss),通过动态调整正负样本间距增强判别力
动量蒸馏:利用动量模型生成稳定的伪标签,提升噪声环境下的鲁棒性
Experiment
在Flickr30K和COCO数据集上的实验表明:
召回率@1提升达4.7%,验证了ESA模块对细粒度对齐的有效性
HECT Loss使困难负样本区分度提高32%
动量蒸馏使噪声数据下的匹配准确率提升19.6%
Conclusion
MATE模型通过双分支架构实现了跨模态检索效率-精度的帕累托优化,其创新性的动量蒸馏策略为噪声环境下的自监督学习提供了新范式。未来可拓展至药物靶点预测等生物医学跨模态分析领域。
(注:根据用户要求,已去除文献引用标识[1][2]等及图示标识Fig.1)
生物通微信公众号
知名企业招聘