《Scientific Reports》:Bulldogs stenosis degree classification using synthetic images created by generative artificial intelligence
编辑推荐:
为解决斗牛犬鼻腔狭窄早期诊断问题,研究人员开展相关深度学习模型研究,模型性能与人类评估相当,有重要意义。
在动物医学的舞台上,斗牛犬正面临着一场健康危机。短头阻塞性气道综合征(BOAS)如同一个隐匿的杀手,悄然威胁着斗牛犬的健康。这种复杂的呼吸道疾病,盯上了面部和颅骨扁平的斗牛犬,其特殊的面部构造致使上呼吸道变形,引发呼吸梗阻,让这些可爱的小家伙们呼吸艰难,运动时更是气喘吁吁,严重时甚至会出现昏厥、虚脱等危及生命的状况。而鼻腔狭窄作为 BOAS 的关键症状之一,如同呼吸道上的一道 “紧箍咒”,限制着空气的进出,进一步加重了病情。传统诊断方法存在诸多局限,比如运动测试虽能评估 BOAS 严重程度,但对动物有风险;计算机断层扫描和内窥镜检查则更为侵入性,需要麻醉。在这样的困境下,寻找一种高效、准确且无创的诊断方法迫在眉睫。
为了攻克这一难题,来自巴西天主教大学(Universidade Católica Dom Bosco)和南马托格罗索联邦大学(Universidade Federal de Mato Grosso do Sul)等机构的研究人员挺身而出,开展了一项极具开创性的研究。他们将目光投向了人工智能领域,试图借助深度学习的力量,为斗牛犬鼻腔狭窄诊断开辟新路径。研究成果发表在《Scientific Reports》上,引起了广泛关注。
在这项研究中,研究人员运用了多种先进技术方法。一方面,他们精心构建了一个独特的数据集,其中不仅包含 95 只斗牛犬的 190 张真实鼻孔图像,这些图像由经验丰富的兽医按照狭窄程度进行标注;还利用 OpenAI 的 DALL-E 生成了 415 张合成图像,极大地丰富了数据的多样性。另一方面,他们选用了卷积神经网络(CNN)和 Transformer 等前沿技术,并评估了 ResNet50、MobileNetV3、DenseNet201、SwinV2 和 MaxViT 这五种在图像分类,尤其是医学影像分类中表现卓越的神经网络架构。同时,他们还引入了 GPT-4o 这一强大的语言模型参与图像分类,并与 52 名经过专业训练的兽医解剖学评估人员进行对比,以全面评估模型性能。
研究结果令人振奋。分类斗牛犬鼻腔狭窄程度是一项极具挑战性的任务,即便训练有素的人类评估人员也难免感到棘手。然而,研究中的模型却取得了令人信服的成绩。在众多模型中,DenseNet201 表现最为突出,当使用真实图像和合成图像的组合数据集进行训练时,它的精度达到了 61%,召回率为 58%,F 分数达到 56% 。这一成绩不仅超越了仅依赖单一类型数据训练的模型,甚至在性能上与专业的人类评估人员相当,并且在使用较少计算资源的情况下,超越了像 GPT-4o 这样的大型多模态 AI 模型。
进一步分析发现,合成图像在训练过程中发挥了关键作用,它为模型训练提供了丰富的变化,帮助模型更好地捕捉不同狭窄程度之间的细微差异。例如,在某些情况下,单独使用合成数据集训练的模型,如 MaxViT 在精度、召回率和 F 分数三个指标上,以及 ResNet50 在召回率和 F 分数上,都取得了比使用真实数据集更好的结果。不过,综合来看,组合数据集始终表现最佳,充分彰显了多样化训练集的优势。
从训练过程来看,训练和验证损失以及准确率曲线显示,模型存在过拟合现象,这表明可以通过 L1 和 L2 正则化等技术来优化模型性能。此外,研究还发现,模型的预测在一定程度上较为 “悲观”,更多图像被误分类为较高狭窄程度。
这项研究意义重大。它首次对人类和深度神经网络在分类鼻腔狭窄程度方面的性能进行了对比分析,为深入了解人类专家和 AI 模型的能力与局限提供了宝贵的见解。同时,研究中使用的新型数据集,为后续研究斗牛犬鼻腔狭窄诊断奠定了坚实基础。更为重要的是,该研究成果表明,深度学习模型能够在斗牛犬鼻腔狭窄诊断中发挥重要作用,为兽医临床诊断提供了有力的辅助工具,有望推动 AI 驱动的兽医诊断技术取得更大进展,提高动物疾病诊断的准确性和效率,从而改善动物的健康状况和福利水平。
总的来说,研究人员成功开发出一种利用深度学习对斗牛犬鼻腔狭窄程度进行分类的自动化模型,尽管目前模型仍面临一些挑战,如确保合成数据的真实性、平衡合成与真实图像的影响以避免模型偏差等,但这一研究无疑为未来兽医诊断领域的发展指明了方向。相信在未来,随着技术的不断进步和研究的深入,这些问题将逐步得到解决,深度学习技术将在动物健康领域发挥更大的作用,为更多的动物带来健康的希望。