编辑推荐:
本研究针对高维血液学数据处理难题,开展降维技术在临床血液学数据中的应用研究,发现PCA在数据代表性上优于非线性降维技术,为临床诊断数据整合提供重要参考
在现代医学诊断中,随着检测技术的不断进步,临床血液学检查产生了大量高维数据。这些数据虽然蕴含丰富的生物学信息,但其高维度特性使得数据处理和分析面临巨大挑战。如何有效降维并保留原始数据的关键信息,成为临床诊断和研究中的一个重要问题。为此,荷兰乌特勒支大学医学中心(UMC Utrecht)的研究人员开展了一项大规模研究,探索不同的降维技术在临床血液学数据中的应用效果。研究结果表明,传统的主成分分析(PCA)在数据代表性上优于近年来流行的非线性降维技术(如UMAP、TriMap和PaCMAP),为临床诊断数据的整合和应用提供了重要的参考依据。该研究发表在《BMC Medical Informatics and Decision Making》上,为临床血液学数据的处理和分析提供了新的思路和方法。
在临床诊断中,血液学检查是评估患者健康状况的重要手段之一。完整的血液计数(CBC)检查可以提供红细胞、白细胞和血小板等细胞的频率、大小和复杂性等70多个参数的信息。然而,这些高维数据的可视化和分析存在困难,尤其是在大规模数据集的情况下。此外,将这些数据整合到临床诊断模型中也面临计算性能和数据代表性的问题。因此,研究人员需要寻找一种有效的方法,将高维数据降维到低维空间,同时保留原始数据的关键信息,以便更好地进行数据处理和可视化。
荷兰乌特勒支大学医学中心的研究团队从2005年至2020年收集了超过300万份CBC测量数据,涵盖了70多个细胞参数。他们评估了PCA、UMAP、TriMap和PaCMAP等降维技术的性能,并通过质量指标评估其技术表现,同时考察了降维后数据在保留昼夜节律、年龄和性别模式、聚类保留以及白血病患者识别等方面的表现。
在研究中,研究人员首先对数据进行了预处理,包括质量控制、缺失值填补和异常值处理。随后,他们应用了PCA、UMAP、TriMap和PaCMAP等降维技术,并通过多种质量指标(如邻域保持率、可信度、随机三元组得分和距离相关性)评估了这些技术的性能。结果显示,PCA在保留全局和局部数据结构方面表现优于UMAP、TriMap和PaCMAP。此外,研究人员还发现,降维后的数据在年龄和性别预测任务中的表现显著下降,且聚类分析中出现了过度聚类的现象。然而,在识别慢性淋巴细胞白血病(CLL)患者方面,降维技术仍能保留一定的生物学差异。
具体而言,研究人员在降维技术的参数调整中发现,增加样本量和邻居数可以改善UMAP、TriMap和PaCMAP的性能,但随着维度的增加,这些非线性降维技术的表现趋于稳定,而PCA的性能则随着维度的增加而持续提升。在聚类分析中,PCA在3、6和12个成分时分别识别出32、31和12个聚类,而非线性降维技术则出现了聚类数量的显著增加,如UMAP在3、6和12个成分时分别识别出115、84和81个聚类。这表明非线性降维技术在处理大规模临床血液学数据时可能存在过度聚类的问题。
在昼夜节律的保留方面,研究人员通过余弦拟合分析发现,降维后的数据仍能保留白细胞的昼夜变化模式,尤其是中性粒细胞和嗜酸性粒细胞的比例。然而,在年龄和性别预测任务中,降维后的数据表现不如原始数据。例如,在年龄预测任务中,原始数据的准确率为0.88,而降维后的数据准确率在0.76到0.80之间;在性别预测任务中,原始数据的准确率为0.76,而降维后的数据准确率在0.61到0.70之间。这表明降维过程可能导致部分生物学信息的丢失。
在白血病患者识别方面,研究人员发现,尽管降维后的数据在某些维度上仍能显著区分CLL患者和普通人群,但这种差异在降维后变得不那么明显。这可能会影响降维技术在临床诊断中的应用价值。研究人员指出,尽管降维技术在数据可视化方面具有一定的优势,但在临床诊断模型中直接应用这些技术可能会降低诊断的准确性。
研究结论强调,对于临床血液学数据,非监督降维技术的应用应主要限于数据可视化,而不宜直接用于诊断流程。这是因为降维技术可能会导致数据信息的丢失,从而降低诊断模型的性能。未来的研究可以探索监督或半监督的降维方法,以更好地保留数据的生物学和临床相关性。此外,研究人员还建议在处理大规模临床数据时,应更加注重特征选择,而不是单纯依赖降维技术。通过合理选择特征,可以在不损失过多信息的情况下,提高数据分析的效率和准确性。