
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AnchorFormer:基于可微分锚点注意力的高效视觉Transformer模型及其在图像分析中的应用
【字体: 大 中 小 】 时间:2025年07月31日 来源:Pattern Recognition Letters 3.3
编辑推荐:
针对视觉Transformer(ViT)计算复杂度高(O(n2))和关键信息分布不均的问题,研究人员提出AnchorFormer模型,通过可微分锚点注意力机制将复杂度降至O(mn),实现全局自注意力的马尔可夫过程近似。实验表明该模型在ImageNet分类任务中最高提升9.0%准确率或减少46.7%FLOPs,在COCO检测任务中mAP提升81.3%,为高效视觉Transformer提供了创新解决方案。
在计算机视觉领域,Transformer架构正掀起一场革命。传统的卷积神经网络(CNN)长期占据主导地位,但Vision Transformers(ViTs)通过全局自注意力(self-attention)机制,展现出捕捉长程依赖关系的独特优势。然而,这种强大性能的背后隐藏着严峻挑战——当输入图像被分割为n个patch时,ViTs的计算复杂度高达O(n2),这使得处理高分辨率图像变得异常耗时耗能。更棘手的是,图像中的关键信息往往随机分布在少数区域,大量无关token严重拖累计算效率。
为解决这一瓶颈问题,中国石油长庆油田公司的研究人员在《Pattern Recognition Letters》发表创新研究。他们开发的AnchorFormer模型独辟蹊径,引入可微分锚点注意力(differentiable anchor attention)机制,将传统ViTs的二次方复杂度降为线性复杂度O(mn),其中m是远小于n的锚点数量。该模型通过神经网络层学习锚点分布,利用马尔可夫过程近似全局自注意力,既避免了不可微操作带来的计算负担,又实现了关键信息的精准捕捉。
研究采用三项核心技术:1)建立锚点与token间的二分图注意力机制;2)通过神经网络层实现锚点的可微分学习;3)基于马尔可夫过程重构注意力计算顺序。实验数据来自ImageNet、COCO和ADE20K三大基准数据集,涵盖分类、检测和分割任务。
【AnchorFormer架构】部分显示,模型通过锚点token表征关键信息区域,构建锚点-令牌二分图注意力。与传统ViTs相比,该设计将每个token与m个锚点而非所有token相连,大幅降低计算量。【实验设置】表明,在ImageNet分类任务中,AnchorFormer以46.7%的FLOPs削减实现9.0%精度提升;在COCO检测任务中,等计算量下mAP提高81.3%。【结论】部分强调,这种锚点策略突破了传统稀疏注意力和窗口注意力的局限,前者易丢失关键特征,后者存在跨窗口通信障碍。
这项研究的突破性在于:首次将可微分锚点机制引入ViTs,通过神经网络层动态学习关键区域;创新性地采用马尔可夫过程实现全局注意力近似,保证模型的高效性和准确性;在三大视觉任务中验证了方案的普适优势。Jiquan Shan和Junxiao Wang等研究者的工作,为边缘设备部署高效视觉Transformer提供了全新思路,特别适用于需要实时处理高分辨率图像的工业场景,如油田监测中的缺陷识别。论文中提及的线性复杂度设计,更为处理4K/8K超高清图像奠定了理论基础。
生物通微信公众号
知名企业招聘