基于CRISPR-Cas9和机器学习的DNA数据存储随机访问与语义搜索技术

【字体: 时间:2025年07月11日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对DNA数据存储中检索效率低、多路复用困难等核心问题,开发了CRISPR-Cas9介导的随机访问(C9RA)和语义搜索(C9SS)系统。通过Cas9特异性切割实现25个文件的同步检索,并创新性地利用Cas9脱靶活性结合深度学习,在174万图像数据库中实现语义关联检索。该技术将检索时间从24小时缩短至30秒,为分子信息处理提供了新范式。

  

在数字化时代,数据存储面临密度与持久性的双重挑战。DNA因其超高信息密度(17 EB/g)和化学稳定性成为理想介质,但传统检索方法如PCR扩增存在耗时、多路复用受限等瓶颈。更棘手的是,现有技术无法实现基于内容的智能检索——就像在浩如烟海的图书馆中,只能通过精确索书号找书,却无法通过"查找类似封面"的功能发现关联文献。

华盛顿大学(University of Washington)的研究团队在《Nature Communications》发表突破性成果,将基因编辑工具CRISPR-Cas9转化为分子级"搜索引擎"。通过设计双重功能系统:一方面利用Cas9精确切割特性实现文件快速定位,另一方面巧妙转化其"缺陷"——脱靶活性为语义关联检索能力,最终构建出能同时满足精确检索和智能搜索的分子信息系统。

研究采用三项核心技术:1)基于R2C2(Rolling Circle Amplification to Concatemeric Consensus)的纳米孔测序建库技术,处理1.6百万条DNA序列;2)机器学习驱动的图像编码系统,将VGG-16提取的4096维特征转化为20nt Cas9靶序列;3)高通量Cas9活性预测模型,指导语义地址设计。实验样本来自Open Images V4数据库的174万张图像。

单文件与多路随机访问
通过设计含文件特异性Cas9靶位点的DNA架构(图1),在25文件库中实现单文件100倍富集。创新性采用"一锅法"反应,将12个文件的同步检索时间压缩至1分钟,突破传统PCR多路复用的技术天花板。值得注意的是,File 10的检索准确率达两个数量级差异,且切割效率与序列相似度呈正相关(图2)。

分子语义搜索实现
将图像特征向量映射为DNA序列时,创新采用三重损失函数训练编码器:强制相似图像(欧氏距离≤75)产生易被同一gRNA切割的靶序列。实验显示"猫"查询成功召回98%相似图像,其富集分数与预测活性显著相关(r=0.65)(图5C)。而著名的"大脚怪"图像因特征泛化,召回率降至62%,揭示语义边界的分子表征挑战。

技术性能比较
相比需要24小时温控的杂交检索法,C9SS将能耗从2.4 kWh降至瓦时级。C9RA在20文件复用实验中仍保持90%目标文件富集(图3D),但伴随检索规模扩大,特异性呈下降趋势,暗示Cas9"分子寻址"的容量限制。

这项研究标志着分子信息处理进入智能检索时代。其重要意义在于:1)首次实现DNA存储的"谷歌式"语义搜索;2)将Cas9脱靶活性转化为优势功能,拓展了CRISPR工具的应用维度;3)建立的等温反应体系(37°C)大幅降低操作门槛。局限性在于当前系统会破坏被检索分子,且语义编码空间受PAM近端序列限制。未来通过工程化Cas变体或分级检索架构,有望实现TB级DNA数据库的智能管理。正如研究者所言:"当CRISPR遇见机器学习,分子与比特的边界正在消融。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号