
-
生物通官微
陪你抓住生命科技
跳动的脉搏
信息瓶颈引导的KNN对比哈希:无监督跨模态检索的语义自适应学习新范式
【字体: 大 中 小 】 时间:2025年08月31日 来源:Knowledge-Based Systems 7.6
编辑推荐:
为解决无监督跨模态哈希(UCMH)中因固定大小邻域选择和刚性对比学习导致的语义噪声和假阴性问题,研究人员提出信息瓶颈引导的KNN对比哈希(IBKCH)框架。通过硬负样本-软正样本(HN-SP)机制和信息感知邻域采样策略,实现跨模态语义对齐,在MIRFLICKR-25K等数据集上mAP@50最高提升11.4%,为开放场景多模态检索提供新思路。
在短视频和多媒体内容爆炸式增长的时代,跨模态检索技术面临巨大挑战。当用户用一张旅游照片搜索相关诗词,或用一段语音查找匹配的画作时,系统需要突破模态壁垒理解深层语义。传统方法依赖人工标注数据构建跨模态关联,但标注成本高昂且难以覆盖开放世界的复杂语义。更棘手的是,现有无监督方法常因固定邻域选择陷入"语义不足"或"语义污染"的困境——就像用固定尺寸的渔网捕鱼,网眼太小会漏掉相似物种,太大则混入无关生物。
《Knowledge-Based Systems》刊登的这项研究创新性地将信息论与邻居感知学习结合。团队采用三阶段框架:先用CLIP模型提取多模态特征(R-Stage),再通过KNN对比学习捕捉跨模态局部结构(C-Stage),最后学习哈希函数生成二进制编码(F-Stage)。关键技术包括基于Gumbel采样的自适应邻居选择、信息瓶颈损失控制信息流,以及熵稀疏正则化防止过拟合。实验使用MIRFLICKR-25K、NUS-WIDE和MS COCO基准数据集,对比25种主流方法。
【信息感知邻居采样】研究发现,传统方法将相似度前K名作为正样本会引入噪声。如图1所示,IBKCH先保留较宽的候选集,再通过HN-SP机制动态筛选:硬负样本排除最相似干扰项,软正样本聚合多邻居信息。数学上通过构建多模态相似度矩阵S,结合温度系数τ1=0.35的Gumbel噪声增强多样性,实现概率式邻居选择。
【KNN跨模态对比学习】设计包含 intra-modal 和 inter-modal 的双重对比损失。式(17)-(19)显示,图像模态内部对比损失LvKCC通过邻接矩阵Aij建立实例关联,而式(20)-(22)的跨模态损失LvtKCC利用余弦相似度对齐图文特征。在MS COCO数据集上,该策略使T2I检索mAP@50达到0.932,较最优基线提升4.9%。
【信息瓶颈优化】式(14)的LIB最小化锚点与邻居选择的互信息,保留任务相关语义。配合式(15)的熵稀疏正则化RES,有效抑制冗余特征。如表4所示,这种组合在128位编码时使NUS-WIDE的I2T性能达到0.889,超越所有无监督方法。
研究结论表明,IBKCH在三大数据集上均实现显著突破。特别是在语义复杂的MS COCO上,其128位编码的T2I检索精度达0.932,甚至超过部分监督方法。这验证了信息瓶颈理论在控制语义噪声方面的有效性,而自适应KNN机制能更好捕捉细粒度相似性。作者在讨论中指出,该方法为医疗影像-报告检索等专业领域提供了新思路,未来可探索动态调整邻居数K的机制以适应不同数据分布。
这项工作的重要意义在于:首次将信息瓶颈原理引入跨模态哈希,提出"软硬结合"的邻居采样范式;通过理论证明和大量实验,为无监督学习中的语义对齐难题提供了可解释的解决方案;开源代码实现了模块化设计,支持灵活扩展至其他模态组合。这些创新使得IBKCH在电子商务、文化数字馆藏等实际场景中展现出广阔应用前景。
生物通微信公众号
知名企业招聘