《iScience》:Distinguishing different proteins based on terahertz spectra by visual geometry group 16 neural network
编辑推荐:
研究人员结合太赫兹(THz)光谱与 VGG-16 神经网络识别 4 种蛋白质,准确率达 98.8%,助力生物医学。
在生物医学领域,蛋白质就像一个个精密的 “小机器”,它们在人体中承担着多种多样至关重要的工作。比如白蛋白,主要由肝脏合成,不仅维持着血浆胶体渗透压,还参与营养物质、药物运输以及血浆 pH 调节等工作,同时在免疫、抗氧化和抗凝过程中也有它的身影;胶原蛋白作为结缔组织的主要成分,对皮肤、骨骼、肌腱等组织的结构和功能起着关键作用,还能助力肌肉生长和修复;胃里的胃蛋白酶负责把蛋白质分解成小肽和氨基酸,帮助人体消化吸收;胰腺分泌的胰酶则在消化蛋白质、淀粉和脂肪的过程中功不可没。
准确识别和深入研究这些蛋白质,不仅能帮我们揭示生命活动的奥秘,还能为医学和生物医学领域带来新的突破。例如,某些疾病的发生往往伴随着特定蛋白质的异常表达,精准识别这些蛋白质,就有可能实现疾病的早期诊断,为患者争取宝贵的治疗时间。然而,目前常用的蛋白质识别方法却存在不少 “短板”。像质谱法虽然灵敏度高、特异性强,能提供详细的结构信息,但样本制备过程繁琐又昂贵;X 射线晶体学可以在原子分辨率下测定蛋白质的三维结构,可它对蛋白质晶体质量要求极高,很多蛋白质难以满足;核磁共振光谱通常是非破坏性的,但长时间暴露在高强度磁场或使用高浓度溶剂可能会影响样本,尤其是复杂的生物分子;酶联免疫吸附测定需要标记特定抗原或抗体,步骤多,还容易受到非特异性结合的干扰,而且样本会被消耗,检测次数受限。这些问题就像一道道 “关卡”,阻碍着蛋白质识别研究的快速发展。
为了突破这些障碍,来自北京大学先进微纳制造技术国家重点实验室、首都师范大学物理系等多个研究机构的研究人员 Yusa Chen、Xiwen Huang、Meizhang Wu 等开展了一项极具创新性的研究。他们将太赫兹(THz)吸收光谱和折射率光谱与视觉几何组 16(VGG-16)神经网络相结合,试图实现对白蛋白、胶原蛋白、胃蛋白酶和胰酶这四种蛋白质的智能识别。该研究成果发表在《iScience》杂志上。
研究人员在开展研究时,用到了几个关键技术方法。首先是太赫兹时域光谱技术(THz-TDS),它能同时获取生物分子的太赫兹吸收光谱和折射率光谱。研究人员使用 800nm 飞秒激光、时间延迟控制系统等搭建了 THz-TDS 系统,并在真空环境下进行测量,以避免水汽干扰。其次是 Grassia 角和场(GASF)方法,它能将一维光谱数据转换为二维图像,为后续的神经网络分析提供合适的数据形式。最后,基于迁移学习技术构建了 VGG-16 神经网络模型,用于蛋白质的识别。
下面来看具体的研究结果。
- 光谱分析:利用 THz-TDS 测量各样本的时域光谱,发现与参考信号相比,四种蛋白质的最大峰值都有不同程度的衰减。通过傅里叶变换得到吸收光谱和折射率光谱后发现,在 0.2 - 1.6THz 范围内没有明显的特征吸收峰,但不同蛋白质的吸收曲线和折射率存在差异。例如,胶原蛋白的最大、最小和平均吸收系数在四种蛋白质中最大,意味着其化学键在太赫兹波段的振动或转动模式更强;而胰酶的最大吸收系数和平均吸收系数最小,说明其相关分子振动或转动模式较弱。同时,胶原蛋白的平均折射率最大,表明太赫兹波在其中传播较慢;白蛋白的平均折射率最小,太赫兹波传播较快。
- 基于太赫兹吸收光谱的区分:将太赫兹吸收光谱通过 GASF 方法转换为二维图像,作为 VGG-16 神经网络的数据集。模型经过 12 轮训练后开始收敛,训练集和测试集的准确率分别达到 89.9% 和 90.9%,整体识别准确率为 90.90%。不过,该模型在识别胰酶时容易出错,对胃蛋白酶和胰酶的识别也不够准确。
- 基于太赫兹吸收 - 折射率光谱的区分:把蛋白质的折射率作为横坐标,吸收作为纵坐标,得到吸收 - 折射率光谱。将其转换为二维图后作为数据集训练 VGG-16 模型,结果显示模型在迭代 10 次时收敛,训练集和测试集的准确率分别达到 98.6% 和 98.8%。此时,模型对胶原蛋白、胃蛋白酶和胰酶的识别准确率达到 100%,对白蛋白的识别准确率为 95%,整体准确率高达 98.80%。
在研究结论和讨论部分,研究人员指出,使用太赫兹吸收 - 折射率光谱作为学习特征,VGG-16 模型的损失更小、识别准确率更高。与支持向量机(SVM)、高斯过程分类器(GPC)、双向门控循环单元(BiGRU)和卷积神经网络 - 双向门控循环(CNN-BiGRU)等模型相比,VGG-16 模型表现更优。不过,该研究也存在一定局限性,比如仅在四种特定蛋白质上进行了测试,其对复杂生物混合物的适用性还有待验证,而且 VGG-16 模型的计算复杂度和资源需求可能会给实时或大规模应用带来挑战。但总体而言,这项研究为蛋白质识别提供了一种快速、准确的新方法,有望拓展到其他生化物质的识别,如氨基酸、糖类、核酸等,在生物传感器、生物制药和医学等生物技术领域具有重要的潜在应用价值。
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒
10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹
婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村
闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�