-
生物通官微
陪你抓住生命科技
跳动的脉搏
研究人员发现,人工智能辅助的基因组研究存在持续存在的问题
【字体: 大 中 小 】 时间:2024年11月06日 来源:AAAS
编辑推荐:
威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的研究人员警告称,人工智能工具在遗传学和医学领域日益普及,可能会导致有关基因与身体特征(包括糖尿病等疾病的风险因素)之间关系的错误结论。
威斯康星大学麦迪逊分校的研究人员警告说,人工智能工具在遗传学和医学领域越来越受欢迎,可能会导致有关基因和身体特征之间关系的错误结论,包括糖尿病等疾病的风险因素。
这些错误的预测与研究人员使用人工智能来辅助全基因组关联研究有关。这类研究扫描了许多人的数十万个基因变异,以寻找基因和身体特征之间的联系。特别令人感兴趣的是基因变异和某些疾病之间可能存在的联系。
基因与疾病的联系并不总是直接的
遗传学在许多健康状况的发展中起着重要作用。虽然某些个体基因的变化与囊性纤维化等疾病的风险增加直接相关,但遗传和身体特征之间的关系往往更为复杂。
全基因组关联研究已经帮助解开了其中一些复杂的谜团,通常使用的是个人基因图谱和健康特征的大型数据库,比如美国国立卫生研究院的“我们所有人”项目和英国生物银行。然而,这些数据库经常缺少研究人员试图研究的有关健康状况的数据。
威斯康星大学麦迪逊分校生物统计和医学信息系副教授、全基因组关联研究专家卢琼时说:“有些特征要么非常昂贵,要么需要大量的劳动来测量,所以你根本没有足够的样本来得出它们与遗传学之间关系的有意义的统计结论。”
用人工智能弥合数据鸿沟的风险
研究人员越来越多地试图通过使用更复杂的人工智能工具弥合数据差距来解决这个问题。
“近年来,利用机器学习的进步变得非常流行,所以我们现在有了这些先进的机器学习人工智能模型,研究人员用这些模型来预测复杂的特征和疾病风险,即使数据有限”。
现在,Lu和他的同事们已经证明了依赖这些模型而不防范它们可能引入的偏见的危险。该团队在最近发表在《自然遗传学》杂志上的一篇论文中描述了这个问题。在这篇论文中,Lu和他的同事们表明,在全基因组关联研究中使用的一种常见的机器学习算法可能会错误地将几种遗传变异与个体患2型糖尿病的风险联系起来。
“问题是,如果你相信机器学习预测的糖尿病风险是实际风险,你会认为所有这些基因变异都与实际的糖尿病相关,即使它们不是,”Lu说。
Lu补充说,这些“假阳性”并不局限于这些特定的变异和糖尿病风险,而是在人工智能辅助研究中普遍存在的偏见。
新的统计方法可以减少误报
除了发现过度依赖人工智能工具的问题外,Lu和他的同事还提出了一种统计方法,研究人员可以使用该方法来保证人工智能辅助的全基因组关联研究的可靠性。该方法有助于消除机器学习算法在基于不完整信息进行推断时可能引入的偏见。
“这种新策略在统计上是最优的,”Lu说,并指出该团队使用它来更好地确定遗传与个体骨密度的关联。
人工智能并不是一些全基因组关联研究的唯一问题
虽然该小组提出的统计方法可以帮助提高人工智能辅助研究的准确性,但Lu和他的同事最近也发现了类似研究的问题,即用代理信息而不是算法来填补数据空白。
在最近发表在《自然遗传学》上的另一篇论文中,研究人员对过度依赖代理信息的研究敲响了警钟,这些研究试图在遗传学和某些疾病之间建立联系。
例如,像英国生物银行(UK Biobank)这样的大型健康数据库拥有大量关于大量人群的遗传信息,但它们没有很多关于往往在晚年突然出现的疾病发病率的数据,比如大多数神经退行性疾病。
特别是对于阿尔茨海默病,一些研究人员试图通过通过家庭健康史调查收集的代理数据来弥补这一差距,个人可以报告父母的阿尔茨海默病诊断。
威斯康星大学麦迪逊分校的研究小组发现,这种代理信息研究可以在阿尔茨海默病风险和更高的认知能力之间产生“高度误导性的遗传相关性”。
“如今,基因组科学家经常使用拥有数十万个体的生物库数据集,然而,随着统计能力的提高,这些大规模数据集中的偏见和错误概率也被放大了。”“我们小组最近的研究提供了令人谦卑的例子,并强调了统计严谨性在生物库规模研究中的重要性。”
知名企业招聘