-
生物通官微
陪你抓住生命科技
跳动的脉搏
DNAformer:大自然与人工智能相遇的地方
【字体: 大 中 小 】 时间:2025年03月24日 来源:AAAS
编辑推荐:
Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。
Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。
DNA数据存储是利用DNA作为存储信息平台的新兴领域。DNA作为存储介质具有显著的优势,包括:
长期保存:2013年,丹麦的研究人员成功地从70万年前的马骨中提取了DNA。2021年,一个国际团队从生活在100多万年前的猛犸象身上恢复了DNA。相比之下,数据中心使用的磁盘的寿命只有几年,最多也只有几十年。这凸显了DNA长期储存的潜力。
能源和成本效率:为当今大多数计算服务提供动力的“云”依赖于数据中心,这些数据中心消耗了大约3%的全球电力,排放了大约2%的碳排放。随着数据的指数级增长,现有技术对环境的影响预计将显著增加。
无与伦比的数据密度:DNA存储提供的数据密度是传统数字存储的1亿倍。这意味着,目前存储1兆字节的容量理论上可以使用DNA存储100太字节的数据。
DNA是由一系列被称为核苷酸的有机化合物组成的分子。这些核苷酸分为四种类型,由字母A、C、G和t表示。与传统计算不同,传统计算中数据仅使用两个数字(0和1)进行编码,DNA存储基于四个字母的序列,这大大增加了可能组合的数量。
为了在这种技术中写入(存储)数据,需要DNA合成——根据编码信息的序列创建DNA分子。为了读取存储的数据,DNA测序是必要的。
DNA数据存储的挑战
开发基于dna的存储技术提出了几个技术挑战:
合成和测序都是冗长且容易出错的过程,会引入删除、插入和替换错误
由于合成过程的限制,编码数据的每个DNA分子会产生多个拷贝。这些副本无序地存放在一个存储容器中
在测序过程中,这些分子的许多错误拷贝被检索出来——大多数包含错误,而有些则完全消失
DNAformer:人工智能数据检索
目前的研究为复杂dna存储系统的检索和纠错提供了一个全面的计算解决方案。利用先进的算法和编码技术,研究人员已经证明,他们的解决方案可以将数据检索和读取时间从几天减少到10分钟。
Technion开发的方法,DNAformer,是基于模拟数据训练的变压器模型(使用模拟器生成,也是Technion开发的),从错误拷贝中重建准确的DNA序列。该方法还包括为DNA定制的纠错代码,确保数据的完整性。
此外,一个额外的安全余量机制检测特别嘈杂的DNA序列(在测序过程中发生的不必要的信号或错误,可能会干扰数据的准确解释),并应用强大的算法工具来有效地处理它们。在这个过程的最后,数据被转换回数字信息。
突破性的性能
这种新方法可以读取100兆字节的数据,速度比现有最精确的方法快3200倍,而且没有任何准确性损失。与以前已知的快速方法相比,DNAformer还将精度提高了40%,同时显着缩短了处理时间。这在一个3.1兆字节的数据集上进行了演示,其中包括:
彩色静止图像
一段24秒的宇航员尼尔·阿姆斯特朗在月球上讲话的音频剪辑
讨论DNA作为一种有前途的数据存储方法的优点的书面文本
随机数据,以说明对加密或压缩数据的适用性
研究人员计划根据不同的需求开发定制版本的DNAformer。他们强调,他们的技术具有可扩展性和适应性,这意味着它可以针对大规模数据存储应用进行优化,满足市场需求以及未来DNA合成和测序的进步。
该研究得到了欧洲研究委员会(ERC资助,DNAStorage)、欧洲创新委员会(EIC资助,DiDAX项目)和以色列科学基金会(ISF)的支持。
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号