如何看待人工智能辅助的基因组研究？AI可能充满错误

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年11月15日 来源：Nature Genetics

编辑推荐：

　　研究人员在大型基因组学研究中使用人工智能来填补患者信息的空白并改进预测，但新的研究发现了假阳性和误导性的相关性。

基因组是身体的蓝图，影响着从脸型到足弓，甚至某些疾病的发展的每一个特征。虽然一些疾病，如囊性纤维化，与单个基因有关，可以根据一个人的基因数据可靠地预测，但许多其他疾病，如自闭症谱系障碍、阿尔茨海默病、抑郁症和肥胖症，却不能预测。

在过去的15年里，科学家们使用全基因组关联研究（GWAS）来比较大量人群的基因组，以确定与某种特征或疾病相关的数十万种遗传变异这种方法帮助科学家揭示了复杂疾病的潜在生物学和风险因素，也导致了新的药物靶点的发现。尽管取得了这些进步，但GWAS研究仍有其局限性，科学家们试图借助人工智能（AI）来解决这些问题。然而，在《Nature Genetics》上发表的两项研究中，威斯康星大学麦迪逊分校的研究人员发现，当处理大量但不完整的数据集时，这些新方法可能会引入普遍的偏见

GWAS依赖于拥有大量患者数据的大型生物库。然而，这些存储库可能缺乏从血液报告、扫描、患者病史到家庭数据的任何信息。即使进行了彻底的调查，缺乏一群年轻参与者的晚发性疾病数据等挑战也会阻碍研究人员的计划。

为了解决数据上的差距，科学家们开发了两种方法：机器学习和gwas - through -proxy (GWAX)，后者依赖家族史数据作为晚发性疾病的预测因素。许多研究人员将GWAS和GWAX结合起来，以提高他们预测的统计能力。然而，威斯康星大学麦迪逊分校的研究小组发现，这些“解决方案”可能错误地将基因变异与疾病联系起来。

“近年来，利用机器学习的进步变得非常流行，所以我们现在有了这些先进的机器学习人工智能模型，研究人员用这些模型来预测复杂的特征和疾病风险，即使数据有限，”威斯康星大学麦迪逊分校的生物统计学家、该研究的合著者Qiongshi Lu,时在一份新闻稿中说。

通过人工智能辅助的GWAS， Lu和他的同事发现了基因变异和II型糖尿病之间的错误联系。例如，在人工智能辅助的GWAS中，四种基因变异显示与疾病高度相关，但在使用传统的GWAS方法时则不然。然而，先前的研究表明，尽管这些基因作用于与血糖水平间接相关的细胞途径，但对血糖水平的影响并不大。

在所有样本都有遗传数据，但只有一小部分样本有所需的表型数据的队列中，人工智能辅助的GWAS算法试图根据学习模式填补空白。但是，如果不了解生理学的复杂性，这种方法可能会使研究人员走上错误的道路。

“问题是，如果你相信机器学习预测的糖尿病风险是实际风险，你会认为所有这些基因变异都与实际的糖尿病相关，即使它们不是，”Qiongshi Lu,说。

用代理来弥补数据库中的漏洞也是有问题的。例如，在分析多个性状与患阿尔茨海默病风险的相关性时，Lu观察到与基于实际数据的GWAS结果存在差异。一个关键的差异是受教育程度与患阿尔茨海默病风险之间的关系。多个研究小组报告了这些变量之间的负相关关系，这一结果得到了GWAS的支持。然而，Lu观察到当使用GWAX方法时，两者呈正相关。与之前的数据和GWAS的发现相反，代理信息方法也未能显示出疾病与晚年认知能力低下之间的联系。

该团队提出了新的统计方法，研究人员可以使用这些方法来纠正这些偏见，提高他们发现的可靠性。他们敦促研究界透明地报告研究结果，并在从这些方法得出结论时采取更严格和谨慎的态度。

“我们小组最近的研究提供了令人谦卑的例子，并强调了统计严谨性在生物库规模研究中的重要性，”Qiongshi Lu,说。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号