基于矩阵化向量表征的神经网络在分子生物学数据分类中的创新研究

《Bioinformatics Advances》:Matrix-Based Vector Representations in Neural Networks for Classifying Molecular Biology Data

【字体: 时间:2025年11月09日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对传统分类器在分子生物学数据分类中的局限性,创新性地提出将一维特征向量转换为二维矩阵表示的方法,以充分利用预训练神经网络(如CNN和Transformer)的图像处理能力。研究人员系统比较了多种数据转换技术(包括新提出的Wigner变换),构建了集成分类器,在肽分类和DNA条形码分类等多个基准数据集上验证了其优越性能。该研究为生物信息学数据分类提供了新思路,代码已开源。

  
在生物信息学和计算生物学领域,如何高效准确地分类分子生物学数据一直是个核心挑战。传统机器学习方法如支持向量机(Support Vector Machines, SVM)因其用户友好性、强泛化能力和稳健性能,在许多领域仍是主流解决方案。然而,随着深度学习技术的飞速发展,研究人员开始探索如何将非图像数据转换为视觉表示,以利用卷积神经网络(Convolutional Neural Networks, CNN)和Transformer网络(Transformer Networks, TN)在图像识别上的卓越能力。近年来,诸如DeepInsight等方法成功地将特征集等非图像数据转换为有组织的图像格式,为CNN分类多样化输入开辟了新途径。类似思想也已应用于分子描述符和指纹特征映射到二维特征图谱供CNN处理,或将分子数据视为二维图像以利用图像识别网络。
尽管已有研究展示了数据转换的潜力,但如何选择最优的转换方法、如何有效集成不同模型的优势,以及如何进一步提升分类性能,仍是亟待解决的问题。特别是在肽功能预测(如抗癌肽Anticancer Peptides, ACP和血管紧张素转换酶抑制肽Angiotensin-Converting Enzyme inhibitory peptides, ACE)和DNA条形码物种鉴定等关键生物信息学任务中,开发更精准、更鲁棒的分类工具具有重要的理论和应用价值。
为了应对这些挑战,发表在《Bioinformatics Advances》上的这项研究进行了一项系统性探索。研究团队的核心目标是开发并评估基于神经网络的新方法,作为SVM等标准分类器的替代方案。他们特别关注如何将一维特征向量有效地转换为二维矩阵表示,从而能够利用在大型图像数据集(如ImageNet)上预训练的神经网络模型。
研究人员开展了一项综合性研究,主要关键技术方法包括:1)多种向量到图像的转换技术:系统比较了六种将一维特征向量转换为三通道矩阵的方法,包括Reshape、DeepInsight、IGTD(Image Generator for Tabular Data)、连续小波变换(Continuous Wavelet Transform, CWT)、离散小波变换(Discrete Wavelet Transform, DWT)以及新提出的基于Wigner-Ville分布(Wigner-Ville Distribution, WVD)的变换方法。2)神经网络模型与训练策略:使用了两种预训练网络架构——ResNet50和MobileNetV2,并采用了差异化的训练策略(如不同的优化器、归一化方法和激活函数选择)以增强模型多样性。3)集成学习框架:通过平均法集成多个神经网络模型,并探索了与SVM的加权融合策略。4)多基准数据集评估:在多个生物信息学基准数据集上评估性能,包括肽数据集(ACP、ACE)、适体数据集(Aptamer dataset, APT)以及DNA条形码数据集(Beetle和Fish数据集),并在一个更具挑战性的未知物种数据集(Unseen dataset)上进行测试。

材料与方法

本研究的方法学核心在于将一维特征向量转换为适合预训练卷积神经网络处理的二维矩阵表示。团队比较了六种不同的转换方法:Reshape、DeepInsight(DeepIns)、IGTD、连续小波变换(CWT)、离散小波变换(DWT)以及新提出的Wigner变换。对于每种方法,研究人员通过平均输出来集成15个神经网络。在每次训练运行之前,他们会随机排列输入特征维度,然后应用给定的三通道数据转换变换。
网络训练方面,ResNet50使用带动量的随机梯度下降进行训练,在应用向量到三通道方法之前将特征归一化到0-255之间。相反,MobileNetV2使用Adam进行训练,并且不使用此归一化步骤以鼓励与ResNet50的多样性。两种网络都使用0.001的学习率和30的批量大小。ResNet50与一种为每层随机选择激活函数的随机方法结合使用,而MobileNetV2始终使用ReLU。网络训练30个周期,但由于计算限制,在"Unseen"数据集上使用10个周期进行评估。选择在训练集上达到最高性能的训练网络,而不是在最终周期获得的网络。
作为对比基准,SVM使用libSVM库实现,超参数选择通过在训练集上结合5折交叉验证程序的网格搜索进行。在SVM的训练和测试期间,特征值使用仅来自训练数据的归一化参数归一化到[0,1]范围。研究还测试了随机森林(Random Forest, RF)、AdaBoost和多层感知器(MLP)等传统机器学习方法。
本研究引入了一种新颖的基于Wigner-Ville分布(WVD)的数据转换技术。WVD是一种时频分析技术,与短时傅里叶变换(Short-Time Fourier Transform, STFT)等技术不同,它不依赖于窗函数,从而可以更准确地表示信号的真正频率内容,避免了频谱泄漏。然而,原始WVD存在交叉项问题。为了解决这个问题,研究采用了平滑WVD(Smoothed WVD, SWVD),通过添加两个精心选择和调谐的窗函数来抑制交叉项,同时保持高时间频率分辨率。具体实现中,对于离散信号x,使用随机递增大小的Kaiser窗函数计算其SWVD,生成三通道的Wigner-Ville张量。对于DNA条形码数据集等长特征向量,特征向量被分成四个等长段,上述方法独立应用于每个段,生成的四个输出矩阵组合形成最终复合矩阵。

实验结果

研究在多个生物信息学数据集上评估了所提方法的性能。对于二分类问题(ACE、ACP和APT),使用受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)作为性能指标;对于DNA条形码多类别数据集,使用准确度作为性能指标。
在肽分类和适体数据集上,结果显示没有单一的输入编码方法或ResNet与MobileNet架构之间存在明确的赢家。性能因数据集而异,表明最佳选择是上下文相关的。然而,融合策略始终提供最佳权衡,因为它们平衡了不同方法的优势。加权融合在所有测试数据集上产生等于或优于独立SVM的结果。具体而言,在ACE数据集上,SVM达到96.24%的AUC,而CNN集成(CNNe)达到94.56%,加权融合(2xSVM+CNNe)达到96.25%,优于或匹配现有最佳结果(Zhang et al., 2024的96.22%)。在ACP数据集上,CNNe达到83.38%的AUC,优于SVM的81.16%。在APT数据集上,SVM和2xSVM+CNNe分别达到83.70%和83.92%的AUC。
在DNA条形码分类任务中,结果同样展示了所提方法的有效性。在Fish数据集上,DWT、Wigner变换和它们的融合(Fusion)分别达到95.7%、94.8%和96.1%的准确度,而SVM为96.0%。在Beetle数据集上,DWT、Wigner变换和融合分别达到95.9%、97.0%和97.2%的准确度,SVM为97.6%。值得注意的是,在更具挑战性的Unseen数据集(包含来自1,826个未见物种的4,278个条形码,进行属级分类)上,Wigner变换和DWT与CNN的融合达到82.9%的准确度,优于BLAST的83.9%以及许多最新的DNA基础模型(如DNABERT-2的23.5%,BarcodeMAE的88.5%)。尤其值得注意的是,该DNA-only方法的表现甚至超过了依赖DNA和图像数据多模态的现有方法(Yang et al., 2021)。

讨论与结论

本研究系统探讨了在生物信息学/计算生物学应用中,使用通过重塑原始特征向量获得的输入矩阵来训练神经网络的方法。研究比较并结合了跨这些数据集的神经网络集成与SVM,发现所提方法产生了相等或更优的结果。
研究的主要贡献包括:1)对将二维特征向量表示与预训练网络集成的各种方法进行了全面分析;2)引入了一个显著优于独立SVM的集成分类器;3)提出了一种基于Wigner变换的将特征向量表示为图像的新技术;4)所有源代码和相关资源均已公开,促进了研究的可重复性和进一步探索。
结果表明,将特征向量转换为矩阵表示并利用预训练神经网络的方法,在多个生物信息学分类任务中是一种有效的策略。融合策略,特别是神经网络集成与SVM的加权组合,显示出稳健且卓越的性能。Wigner变换等新颖的时频分析技术为数据表示提供了新的视角,其优越的时频集中特性使细微的时频模式对下游 wavelet 滤波器更具区分性。
该研究的发现有望启发进一步研究,探索如何调整常规神经网络架构用于生物信息学中特征向量数据的分类。未来的工作方向包括评估更多数据集、探索更广泛的神经网络架构(如图神经网络在分子结构中的应用),以及进一步优化数据转换和模型集成策略。
总之,这项研究为生物信息学数据分类提供了一种新颖且强大的框架,通过巧妙的数据转换和模型集成,充分挖掘了预训练神经网络在非图像数据分析中的潜力,为后续研究奠定了重要基础。代码的公开共享也极大地促进了该领域的方法学进步和实际应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号