HyViTas-Bench:首个面向大规模数据集的CNN-ViT混合架构搜索基准

《IEEE Access》:A CNN-ViT Hybrid Architecture Search Benchmark on a Large-Scale Dataset

【字体: 时间:2025年12月17日 来源:IEEE Access 3.6

编辑推荐:

  本研究针对现有神经架构搜索(NAS)基准局限于小规模数据集和纯卷积网络(CNN)的不足,开发了首个专用于混合CNN-视觉Transformer(ViT)架构的NAS基准HyViTas-Bench。该基准包含6,561个在缩减版ImageNet-1k(RedImageNet)上训练三次的模型,提供19种硬件平台的延迟测量和三个外部数据集(ImageNet-Sketch、ImageNet-C、Stylized-ImageNet)的分布外(OoD)泛化评估。研究证明RedImageNet比CIFAR-10等小数据集更能可靠预测大规模性能,并揭示了ID精度与OoD鲁棒性之间的显著解耦,为稳健NAS研究提供了重要资源。

  
在深度学习飞速发展的今天,设计高性能神经网络架构已成为计算机视觉领域的核心挑战。传统卷积神经网络(CNN)凭借其强大的特征提取能力长期主导这一领域,而视觉Transformer(ViT)的出现则通过自注意力机制实现了长距离依赖建模,带来了性能上的突破。然而,手工设计最优网络架构既耗时又依赖专家经验,这促使神经架构搜索(NAS)技术应运而生——通过自动化方式探索海量架构空间,寻找针对特定任务和硬件约束的最优解。
尽管NAS技术展现出巨大潜力,但其发展面临严峻挑战。传统的NAS基准如NAS-Bench-101、NAS-Bench-201等大多局限于CIFAR-10等小规模数据集,这些数据集难以充分反映现实应用中大规模数据的复杂性。更重要的是,现有基准主要针对纯CNN架构,缺乏对新兴混合CNN-ViT架构的系统评估。这种架构通过结合卷积的局部性偏置和Transformer的全局建模能力,在精度与效率平衡方面展现出独特优势,但其在NAS研究中的潜力尚未得到充分探索。
为解决这些瓶颈,研究人员在《IEEE Access》上发表了题为"A CNN-ViT Hybrid Architecture Search Benchmark on a Large-Scale Dataset"的研究论文,推出了HyViTas-Bench这一创新基准。该研究首次将混合CNN-ViT架构搜索与大规模数据集训练相结合,为NAS社区提供了更真实、全面的评估平台。
研究团队采用了几项关键技术方法:首先设计了一个四阶段混合搜索空间,前两阶段为卷积阶段(使用ConvNeXt块),后两阶段为Transformer阶段(结合注意力层和ConvNeXt块);其次创建了RedImageNet数据集(ImageNet-1k的500类缩减版,图像分辨率192×192),平衡了计算成本与数据代表性;最后通过三次独立训练评估每个架构的稳定性,并在19种硬件平台上测量推理延迟。
架构多样性分析显示搜索空间设计合理,最大参数量达4M的模型并非性能最优,最佳架构仅含2.9M参数。大多数模型表现出良好的训练稳定性(标准差σ≈0.2),但部分架构特别是那些采用最小输出维度、核尺寸和扩展因子的组合容易出现训练困难。
代理数据集质量验证通过对比实验证实,RedImageNet与完整ImageNet-1k的排名相关性(Kendall-τ=0.758)显著高于CIFAR-10(τ=0.495)等小数据集。即使在最具挑战性的前15%架构子集中,RedImageNet仍保持正相关性,而其他数据集出现负相关,证明其作为大规模性能代理的优越性。
精度驱动基线评估比较了六种NAS方法。多射击方法(随机搜索、正则化进化REA、REINFORCE、BANANAS)在ID准确度上表现接近最优水平,但OoD性能差距显著。有趣的是,虽然一次性方法(DARTS、SPOS)在ID准确度上稍逊,但在多数OoD场景中表现更好,显示出寻找更稳健架构的潜力。
零射击方法分析揭示了训练免费代理的局限性。在严重损坏的数据集(如RedImageNet-C level 5)上,简单参数数量比复杂代理(如NASWOT、Synflow)相关性更高。然而在高级语义偏移数据集(ImageNet-Sketch)上,基于激活和梯度的代理表现出更强预测能力。这表明代理有效性高度依赖于分布偏移类型。
研究结论强调,HyViTas-Bench填补了混合CNN-ViT架构NAS基准的空白,首次在大规模数据集上提供多次训练评估的可靠数据。研究发现ID精度与OoD鲁棒性之间存在显著解耦,凸显了超越传统精度中心评估的重要性。硬件效率分析覆盖从边缘设备到数据中心GPU的广泛平台,其中消费级GPU(如RTX 5090)在单图像推理延迟上甚至优于服务器级加速器。
这项研究的核心意义在于为混合架构NAS研究建立了新标准,促进了可重现、大规模NAS实验的发展。通过提供架构权重、完整评估指标和多样化测试条件,HyViTas-Bench将成为研究神经网络架构设计、优化动态和分布偏移下泛化能力的宝贵资源。未来工作可探索集成代理精度预测器或低精度评估,以进一步扩大搜索空间范围,推动NAS技术向更实用、更稳健的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号