-
生物通官微
陪你抓住生命科技
跳动的脉搏
华大基因王俊接受Nature、Science专访(上)
【字体: 大 中 小 】 时间:2015年07月30日 来源:生物通
编辑推荐:
7月28日,王俊接受了Nature和Science网站的专访,畅谈了他现在想将自己的一生都贡献给一项新的“研究计划”的原因,他想构建出一个人工智能健康监测系统,来识别人类个体基因组数据、生理性状(表型)和生活方式之间的关系,从而能够为个体提供健康生活的建议,及预测和预防疾病。
生物通报道 王俊(Jun Wang)是中国最著名的科学家之一。自从16年前在华大基因(BGI)成立之时加入到这一基因组测序大型机构以来,他参与完成了BGI一系列重大的研究成果。其中包括测序亚洲人、大熊猫和人类肠道微生物组的首个基因组。自2007年起王俊成为BGI的负责人。但在7月17日,这一研究机构对外宣布王俊将会辞去他在BGI担任的首席执行官职务,转而从事人类智能研究(延伸阅读:Nature关注:王俊卸任华大基因CEO )。
7月28日,王俊接受了Nature和Science网站的专访,畅谈了他现在想将自己的一生都贡献给一项新的“研究计划”的原因,他想构建出一个人工智能健康监测系统,来识别人类个体基因组数据、生理性状(表型)和生活方式之间的关系,从而能够为个体提供健康生活的建议,及预测和预防疾病。
Nature:你的人工智能计划背后的理念是什么?
王俊:大体上,我只是想建立一个具有大量数据的人工智能系统。然后,这一系统能够比我们更好地学习了解人类健康和人类生活。这一人工智能系统将尝试为生命设置一个公式。生命是数字化的,就像一个电脑程序——如果你想知道这一编程的结果,基因导致表型的机制,由于太过复杂因此你需要一个人工智能系统来找出其中的一些规律。
这一人工智能系统主要是两个部分组成。第一个是大型超级计算平台。通过云计算和超级计算中心我们已经可以访问这些平台。这些平台将运行或设计出一些算法来找出基因、生活方式和环境因子之间的关系,预测出表型。另一部分则是海量的数据。我们希望能够获得来自100万个体的数据,我们希望这些数据是流动的,也就是人们可以在任何时间点更新他们的表型信息。其他的大型计算机公司例如Google有可能最终会这样做,但我们想首先做到这一点。我们有处理海量数据的经验。
Science:你将会关注人工智能的哪些方面?
王俊:人工智能是人们使用的一个有趣的词汇。第一个目标是数字化100万个体的“组学”数据,包括DNA、RNA、蛋白质和代谢组学,并追踪他们的临床和行为数据。这需要一些新网络和利用机器学习,20年前我就已开始摆弄这些东西。
Nature:你需要100万个基因组来做这个?
王俊:为了真正地了解由许多基因决定的复杂性状,例如身高,将需要100万个样本。我们现在已有了10万个样本,但还不够。但我不想以100万个作为结束。接下来将会有1000万,1亿个。并且不只是基因组。我们将获得许多方面的数据——基因组学、蛋白质组学、代谢组学和脂类组学。以及其他的“组学”数据,我们将纳入你的生活信息,你的锻炼情况,环境数据。所有这一切都将成为它的组成部分。每人我们将获得一万亿字节,那么100万人将是百亿亿字节。
从基因型到表型所有东西都可以数字化。为了让人工智能系统能够运作,我们必须使其数字化。相比于基因组学,我更关注数字化生命。这不是一个百万基因组计划,而是一个百万数字化生命计划。
下接:华大基因王俊接受Nature、Science专访(下)
(生物通:何嫱)
生物通推荐原文索引:
Exclusive: Genomics pioneer Jun Wang on his new AI venture.Nature | News: Q&A
Head of China's leading genome sequencing organization steps down, discusses what’s next. Science News