研究人员在开展此项研究时,运用了多种关键技术方法。首先是信号预处理技术,通过特定算法对原始纳米孔电信号进行处理,有效降低噪声并校正电流水平偏差。其次,采用了基于动态时间规整(DTW)的比对算法,该算法在碱基调用元数据的引导下,能够快速准确地将预处理后的信号与参考序列进行比对。此外,还运用了一种迭代训练孔模型的方法,通过多次比对信号并统计 k - mer 的信号特征,不断优化孔模型。在研究过程中,使用了来自多种样本的数据,包括果蝇(Drosophila melanogaster)DNA、大肠杆菌(Escherichia coli)rRNA 以及多种人类细胞系 RNA 等。
读取信号和孔模型特征:研究人员通过分析不同电流水平下 k - mer 的核苷酸组成,发现核苷酸位置与电流之间存在复杂关系。例如,r10.4.1 的双读取头设计使其在检测同聚物时准确性更高,同聚物长度可通过停留时间进行估计,但停留时间受多种因素影响,如序列同一性等。Uncalled4 提供的迭代训练孔模型方法,训练得到的模型与 ONT 发布的相应孔模型具有高度一致性,但也发现了 ONT r10.4.1 400 - bps 模型中存在的一些异常 k - mer,可能是 ONT 模型存在错误的证据。
DNA 修饰模型训练和检测:研究人员对经 CpG 甲基转移酶 M.SssI 处理的果蝇 DNA 进行测序,以研究 DNA 修饰对 r10.4.1 DNA 测序的影响。他们训练了一个 9 - mer 模型,发现含有 CpG 的 k - mer 在中央位置的电流水平与未修饰模型差异最大。同时,使用 Uncalled4 和 f5c 通过比较 PCR 和 5mCpG 处理的果蝇 r10.4.1 数据的电流水平,成功检测到 5mCpG 甲基化。此外,Uncalled4 还能训练包含人工修饰的孔模型,如在酿酒酵母(Saccharomyces cerevisiae)DNA 中引入 BrdU 的模型训练,且 Uncalled4 训练的模型在分类 BrdU 修饰的读取方面表现更优。