开放获取的异质性超声影像数据库:助力AI辅助诊断的多中心挑战数据集构建与验证

【字体: 时间:2025年01月26日 来源:Scientific Data 5.8

编辑推荐:

   推荐语:针对超声影像诊断面临的设备单一性、数据局限性及模型泛化能力不足等问题,研究人员构建了首个大规模公开异质性超声数据库(1,833例视频/图像,含13类异常),通过多中心数据整合、专业医师交叉标注及深度学习验证(RViT模型Top-3 ACC达68.48%),为AI辅助超声诊断提供了高价值基准数据集,推动跨设备、跨场景的临床模型开发。

  

超声影像作为临床诊断的核心工具,却长期面临"主观依赖性强、图像质量不稳定"的困境。新手医师常因噪声干扰、设备差异或罕见病例经验不足而误诊,而现有AI模型又受限于单一来源的小样本数据(如BUSI仅780例图像),难以适应真实医疗场景的复杂性。更棘手的是,传统数据库多聚焦静态图像,忽略了视频中蕴含的动态病理特征——比如心脏血流随时间的变化可能隐藏着关键诊断线索。

安徽大学医学影像先进技术国际联合研究中心领衔的研究团队,联合国内16个省份的31家医院,从社交媒体平台系统性地收集了1,833例经专业医师验证的超声视频/图像数据,涵盖肿瘤、囊肿、结石等13类常见异常。这些数据不仅突破了单一设备限制(涉及多种超声机型),还创新性地保留了视频时序信息,并通过DBSCAN聚类和强化学习关键帧提取技术(每10帧提取1帧)实现了高效数据降维。研究采用"三阶段三角验证法"标注流程:先结合视频标题、网友评论(含医师专业讨论)生成初始标签,再由3位医师独立复核,最终仅保留三方共识数据,确保标签可靠性。

在技术方法上,研究团队首先通过密度聚类(DBSCAN)剔除无关帧,统一将图像缩放至224×224像素;采用Recurrent Vision Transformer(RViT)模型进行验证性实验,以Top-3准确率作为核心指标(因样本常呈现多症状共存特性);数据预处理代码及完整数据集已在Figshare和GitHub开源。

数据特征

该数据库展现出显著的临床异质性:①地域覆盖广(16省份),包含新生儿、孕妇等特殊人群数据;②38.7%样本存在多标签现象(如肿瘤合并结石),采用"主症状优先"标注策略;③症状呈长尾分布(常见炎症占比较高,疝气等罕见病较少),更贴近真实临床情境。与既往数据集对比,其样本量超出第二名PSFHS数据集(1,124例)63%,且首次实现视频-图像双模态整合。

技术验证

使用Jester数据集预训练的RViT模型进行测试时,发现Top-3准确率(68.48%)显著高于Top-1(34.14%),印证了多症状联合评估的必要性。值得注意的是,模型在未预训练时Top-5准确率可达90%,表明数据本身具有高信息密度,但复杂病理特征仍对现有算法构成挑战。

结论与展望

该研究创建了目前规模最大、来源最广的公开超声数据库,其价值体现在三方面:①首次系统性整合社交媒体医疗数据(经严格伦理审查),为罕见病例研究提供新资源;②视频动态分析填补了传统静态图像的局限性,尤其有利于心脏瓣膜病等时序敏感疾病的AI建模;③多中心异质性数据可有效提升模型泛化能力,推动AI诊断系统从实验室走向临床。未来可结合主动学习(Active Learning)策略优化标注效率,或探索跨模态融合(如结合临床文本)进一步提升诊断精度。论文发表于《Scientific Data》时,同期开放的iFLYTEK开发者竞赛(https://challenge.xfyun.cn)正推动该数据集在产业界的应用探索。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号