编辑推荐:
为解决蚊子物种准确识别难题,传统方法存在局限。研究人员开展蚊子翅膀图像数据集相关研究,构建含 18104 张图像的数据集。这有助于推动几何形态测量学及机器学习模型发展,对蚊虫监测和疾病防控意义重大。
在全球范围内,蚊子堪称最 “嚣张” 的病原体传播者,像登革热、寨卡病毒等疾病的肆虐,都有蚊子的 “功劳”。随着全球变暖、全球化进程加快,蚊子及其携带的病原体扩散范围不断扩大,原本安全的地区也面临蚊媒疾病的威胁。准确识别蚊子物种变得至关重要,因为不同物种在生态习性和传播疾病能力上差异巨大。
然而,传统的依靠形态特征识别蚊子物种的方法,就像戴着镣铐跳舞,不仅耗时费力,还需要专业的昆虫学知识,这使得大规模研究难以开展。而新兴的分子技术,虽然有一定优势,但对设备和技术要求高,在资源匮乏地区难以施展。于是,一种基于翅膀几何形态测量学的方法崭露头角,它能通过分析翅膀形状和纹理来区分物种,还能发现物种内的细微差异。不过,该方法在手动标记地标时存在效率低、易受主观因素影响的问题。同时,相关高质量数据集的缺乏,也限制了基于此的机器学习技术发展。
为了突破这些困境,来自德国 Bernhard Nocht 热带医学研究所等多个研究机构的研究人员,踏上了探索之路。他们齐心协力,构建了一个包含 18104 张蚊子翅膀图像的数据集,这些图像来自五大洲 12 个国家的 10500 只蚊子样本。这一成果意义非凡,为蚊子生物学研究、病媒控制以及疾病预防开辟了新方向,相关论文发表在《Scientific Data》上。
在研究过程中,研究人员采用了多种关键技术方法。首先是样本采集,从 2008 年到 2024 年,整合了 22 个研究项目的成果,运用CO2诱捕器、吸虫器等多种工具,采集了大量蚊子样本。其次,在物种鉴定环节,综合运用形态学方法和分子技术,如 COI/nad4 基因条形码、ITS2基因条形码以及针对特定基因的 qPCR 技术。最后,通过不同的显微镜和带有微距镜头的智能手机,获取蚊子翅膀图像。
研究人员在数据记录方面也做了细致工作。图像数据集上传至生物图像档案库,并遵循 CC - BY 4.0 许可协议发布。图像按照分类学层级进行整理,每个图像都有详细的元数据,便于后续研究使用。
从技术验证角度来看,蚊子分类主要通过训练有素的分类学家利用二分法分类检索表,以及分子技术来确定。过往研究已证实,该数据集中的翅膀图像具备物种特异性特征,可用于几何形态测量学分析和深度学习应用。但不可忽视的是,部分元数据存在缺失,如采集地点、采集方法和采集日期等信息不完整。
在 Usage Notes 方面,该数据集为几何形态测量方法和机器学习模型的开发与测试提供了有力支持。不过,由于图像采集条件不统一,存在光照、背景差异,且包含部分受损翅膀样本图像,这在使用时需要研究人员加以注意。同时,研究团队计划持续扩充数据集,并欢迎科学界共同参与。
总的来说,这项研究构建的蚊子翅膀图像数据集,为蚊子研究领域提供了宝贵资源。它既有助于推动传统几何形态测量学研究,也为机器学习模型的发展注入了新动力,有望在未来提升蚊子物种识别的准确性,为蚊媒疾病的防控工作带来新的突破,让人们在与蚊子的 “战斗” 中掌握更多主动权。