DNAformer:大自然与人工智能相遇的地方

【字体: 时间:2025年03月24日 来源:AAAS

编辑推荐:

  Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。

  

Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。

 

DNA数据存储是利用DNA作为存储信息平台的新兴领域。DNA作为存储介质具有显著的优势,包括:

 

  • 长期保存:2013年,丹麦的研究人员成功地从70万年前的马骨中提取了DNA。2021年,一个国际团队从生活在100多万年前的猛犸象身上恢复了DNA。相比之下,数据中心使用的磁盘的寿命只有几年,最多也只有几十年。这凸显了DNA长期储存的潜力。

 

  • 能源和成本效率:为当今大多数计算服务提供动力的“云”依赖于数据中心,这些数据中心消耗了大约3%的全球电力,排放了大约2%的碳排放。随着数据的指数级增长,现有技术对环境的影响预计将显著增加。

 

  • 无与伦比的数据密度:DNA存储提供的数据密度是传统数字存储的1亿倍。这意味着,目前存储1兆字节的容量理论上可以使用DNA存储100太字节的数据。

 

DNA是由一系列被称为核苷酸的有机化合物组成的分子。这些核苷酸分为四种类型,由字母A、C、G和t表示。与传统计算不同,传统计算中数据仅使用两个数字(0和1)进行编码,DNA存储基于四个字母的序列,这大大增加了可能组合的数量。

为了在这种技术中写入(存储)数据,需要DNA合成——根据编码信息的序列创建DNA分子。为了读取存储的数据,DNA测序是必要的。

 

DNA数据存储的挑战

开发基于dna的存储技术提出了几个技术挑战:

 

  • 合成和测序都是冗长且容易出错的过程,会引入删除、插入和替换错误

 

  • 由于合成过程的限制,编码数据的每个DNA分子会产生多个拷贝。这些副本无序地存放在一个存储容器中

 

  • 在测序过程中,这些分子的许多错误拷贝被检索出来——大多数包含错误,而有些则完全消失

 

DNAformer:人工智能数据检索

目前的研究为复杂dna存储系统的检索和纠错提供了一个全面的计算解决方案。利用先进的算法和编码技术,研究人员已经证明,他们的解决方案可以将数据检索和读取时间从几天减少到10分钟。

 

Technion开发的方法,DNAformer,是基于模拟数据训练的变压器模型(使用模拟器生成,也是Technion开发的),从错误拷贝中重建准确的DNA序列。该方法还包括为DNA定制的纠错代码,确保数据的完整性。

 

此外,一个额外的安全余量机制检测特别嘈杂的DNA序列(在测序过程中发生的不必要的信号或错误,可能会干扰数据的准确解释),并应用强大的算法工具来有效地处理它们。在这个过程的最后,数据被转换回数字信息。

 

突破性的性能

这种新方法可以读取100兆字节的数据,速度比现有最精确的方法快3200倍,而且没有任何准确性损失。与以前已知的快速方法相比,DNAformer还将精度提高了40%,同时显着缩短了处理时间。这在一个3.1兆字节的数据集上进行了演示,其中包括:

  • 彩色静止图像

  • 一段24秒的宇航员尼尔·阿姆斯特朗在月球上讲话的音频剪辑

  • 讨论DNA作为一种有前途的数据存储方法的优点的书面文本

  • 随机数据,以说明对加密或压缩数据的适用性

 

研究人员计划根据不同的需求开发定制版本的DNAformer。他们强调,他们的技术具有可扩展性和适应性,这意味着它可以针对大规模数据存储应用进行优化,满足市场需求以及未来DNA合成和测序的进步。

 

该研究得到了欧洲研究委员会(ERC资助,DNAStorage)、欧洲创新委员会(EIC资助,DiDAX项目)和以色列科学基金会(ISF)的支持。


婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃

10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷

濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹

闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�

婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号