DNAformer:大自然与人工智能相遇的地方

【字体: 时间:2025年03月24日 来源:AAAS

编辑推荐:

  Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。

  

Henry and Marilyn Taub计算机科学学院的研究人员开发了一种基于人工智能的方法,该方法将基于dna的数据检索速度提高了三个数量级,同时显着提高了准确性。研究团队包括博士生Omer Sabary、Daniella Bar-Lev博士、Itai Orr博士、Eitan Yaakobi教授和Tuvi Etzion教授。

 

DNA数据存储是利用DNA作为存储信息平台的新兴领域。DNA作为存储介质具有显著的优势,包括:

 

  • 长期保存:2013年,丹麦的研究人员成功地从70万年前的马骨中提取了DNA。2021年,一个国际团队从生活在100多万年前的猛犸象身上恢复了DNA。相比之下,数据中心使用的磁盘的寿命只有几年,最多也只有几十年。这凸显了DNA长期储存的潜力。

 

  • 能源和成本效率:为当今大多数计算服务提供动力的“云”依赖于数据中心,这些数据中心消耗了大约3%的全球电力,排放了大约2%的碳排放。随着数据的指数级增长,现有技术对环境的影响预计将显著增加。

 

  • 无与伦比的数据密度:DNA存储提供的数据密度是传统数字存储的1亿倍。这意味着,目前存储1兆字节的容量理论上可以使用DNA存储100太字节的数据。

 

DNA是由一系列被称为核苷酸的有机化合物组成的分子。这些核苷酸分为四种类型,由字母A、C、G和t表示。与传统计算不同,传统计算中数据仅使用两个数字(0和1)进行编码,DNA存储基于四个字母的序列,这大大增加了可能组合的数量。

为了在这种技术中写入(存储)数据,需要DNA合成——根据编码信息的序列创建DNA分子。为了读取存储的数据,DNA测序是必要的。

 

DNA数据存储的挑战

开发基于dna的存储技术提出了几个技术挑战:

 

  • 合成和测序都是冗长且容易出错的过程,会引入删除、插入和替换错误

 

  • 由于合成过程的限制,编码数据的每个DNA分子会产生多个拷贝。这些副本无序地存放在一个存储容器中

 

  • 在测序过程中,这些分子的许多错误拷贝被检索出来——大多数包含错误,而有些则完全消失

 

DNAformer:人工智能数据检索

目前的研究为复杂dna存储系统的检索和纠错提供了一个全面的计算解决方案。利用先进的算法和编码技术,研究人员已经证明,他们的解决方案可以将数据检索和读取时间从几天减少到10分钟。

 

Technion开发的方法,DNAformer,是基于模拟数据训练的变压器模型(使用模拟器生成,也是Technion开发的),从错误拷贝中重建准确的DNA序列。该方法还包括为DNA定制的纠错代码,确保数据的完整性。

 

此外,一个额外的安全余量机制检测特别嘈杂的DNA序列(在测序过程中发生的不必要的信号或错误,可能会干扰数据的准确解释),并应用强大的算法工具来有效地处理它们。在这个过程的最后,数据被转换回数字信息。

 

突破性的性能

这种新方法可以读取100兆字节的数据,速度比现有最精确的方法快3200倍,而且没有任何准确性损失。与以前已知的快速方法相比,DNAformer还将精度提高了40%,同时显着缩短了处理时间。这在一个3.1兆字节的数据集上进行了演示,其中包括:

  • 彩色静止图像

  • 一段24秒的宇航员尼尔·阿姆斯特朗在月球上讲话的音频剪辑

  • 讨论DNA作为一种有前途的数据存储方法的优点的书面文本

  • 随机数据,以说明对加密或压缩数据的适用性

 

研究人员计划根据不同的需求开发定制版本的DNAformer。他们强调,他们的技术具有可扩展性和适应性,这意味着它可以针对大规模数据存储应用进行优化,满足市场需求以及未来DNA合成和测序的进步。

 

该研究得到了欧洲研究委员会(ERC资助,DNAStorage)、欧洲创新委员会(EIC资助,DiDAX项目)和以色列科学基金会(ISF)的支持。


濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号