开源拉曼光谱数据集助力活性药物成分(API)开发

《Scientific Data》:Open-source Raman spectra of chemical compounds for active pharmaceutical ingredient development

【字体: 时间:2025年03月25日 来源:Scientific Data 5.8

编辑推荐:

  为解决拉曼光谱数据稀缺问题,研究人员开展化学化合物开源拉曼光谱研究,获 3510 个样本数据,助力 API 开发。

  

一、研究背景

在现代医药研发的舞台上,拉曼光谱技术(Raman spectroscopy)堪称一位 “多面手”。它凭借快速、高效且无损的特性,在药物发现、质量控制以及活性药物成分(API)开发等多个关键环节发挥着重要作用。想象一下,药物研发人员如同在黑暗中摸索的探险家,拉曼光谱就像是他们手中的 “神奇手电筒”,能帮助其透过复杂的分子结构迷雾,精准识别化合物,监测药物生产过程中的质量变化。
然而,这束 “光” 却被一个棘手的问题所困扰 —— 数据稀缺。在实验室中,虽然研究人员会构建小型光谱库用于一次性鉴定中间体或未知化学品,但这些库就像 “小池塘”,难以满足全面、高质量参考数据的 “大需求”。市面上的开源数据库,要么样本单一、数量有限,要么获取成本高昂;商业数据库虽资源丰富,却因产权限制难以广泛使用。这种数据困境就像给拉曼光谱技术的 “腾飞” 戴上了沉重的脚镣,极大地限制了其在药物研发领域的深入应用与发展。为突破这一困境,来自爱尔兰戈尔韦大学(University of Galway)计算机科学学院的研究人员 Aaron R. Flanagan 和 Frank G. Glavin 展开了一项极具意义的研究,相关成果发表于《Scientific Data》。

二、研究方法

研究人员采用 Endress+Hauser(原 Kaiser Optical Systems)的 Raman Rxn2 分析仪,搭配 10x 物镜的三分之一英寸非接触式 Rxn - 10 探头,以 785nm 为激发波长,平均光谱分辨率达 1 ,覆盖 150 至 3425 范围的 3276 个波长,借助 Mettler Toledo iC Raman 4.1 软件进行光谱采集与实验配置。在数据采集前,利用软件的像素填充(pixel fill)功能聚焦探头,根据样品拉曼散射能力将像素填充率优化至 50 - 70% 。
研究选用 32 种商业溶剂和试剂作为样本,这些样本均为 API 开发常用化学品,且在未进一步纯化或预处理的全浓度状态下进行测试。为确保样本质量,仅选取经 API 开发测试成功的产品,并遵循严格的保存协议,在通风橱中采样后密封于 4mL 琥珀色玻璃瓶,防止杂质混入。
采集数据时,将装有样本的玻璃瓶置于静态分析腔,用 Rxn - 10 探头扫描。扫描前先对空瓶进行分析,排除散射等干扰。采集的原始光谱数据经 iC Raman 软件自动预处理,包括暗噪声扣除、宇宙射线过滤和强度校正,随后导出为 SPC 文件并转换为 CSV 格式。针对原始光谱存在的荧光和基线偏移问题,推荐裁剪 3150 以上区域,并采用两点校正算法进行基线校正,数据缩放则推荐标准正态变量变换(SNV)或最小 - 最大归一化(min - max normalisation)技术。
濠德板€楁慨鐑藉磻濞戙垺鍊舵繝闈涱儏缁犵喖鏌ㄩ悤鍌涘 液相色谱以旧换新——不论新旧,不论好坏,不论品牌

三、研究结果

  1. 数据集构建:研究构建了包含 32 种化学物质、3510 个光谱样本的开源拉曼光谱数据集。该数据集涵盖多种 API 开发常用的有机溶剂和试剂,以 CSV 文件形式存储,按化合物分组,第一行为 150 - 3245 、分辨率 1 的波数信息,每行代表一个样本,最后一列是目标标签。同时,在线存储库还提供 XLSX 文件,包含产品详细信息,如供应商、产品角色、应用和分子式等。
  2. 拉曼活性峰:研究确定了各化合物的拉曼活性峰,分别整理在两张表格中。这些峰指示了拉曼活性区域,其中显著峰和检测到的小峰都被标记出来,为化合物的光谱识别提供了关键依据。
  3. 系统稳定性与数据可靠性:通过使用 Endress+Hauser Raman 校准配件对系统进行波长和强度校准,并以环己烷为参考标准,确保系统稳定可靠。每日使用前,系统预热 120 分钟并自动校准,运行温度保持在 15 - 30°C,探测器温度恒定为 - 40°C。测量重复性测试显示,超 50% 的产品峰位无偏差,除甲酸外,其余产品标准偏差均小于 1 ,表明数据可靠性高。

四、研究结论与讨论

这项研究成果意义重大。它构建的开源拉曼光谱数据集,为科学界提供了高质量、可复用的数据资源,缓解了拉曼光谱数据稀缺的难题,在药物研发、质量控制等领域具有广泛应用前景。研究确定的拉曼活性峰有助于快速准确地识别化合物,提高研发效率;系统稳定性和数据可靠性的验证,为后续研究提供了坚实保障。
从更宏观的角度看,该数据集可用于训练研究人员掌握光谱预处理和未知物峰识别技术,还能为机器学习模型的预训练提供基础数据,推动人工智能在药物研发领域的应用。未来,随着研究的深入,有望基于此数据集开发出更精准、通用的校准模型,进一步提升拉曼光谱技术在 API 开发等领域的应用价值,为医药行业的发展注入新的活力,助力研发出更多安全有效的药物,造福人类健康。

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婇柍瑙勫劤娴滈箖鏌i悢鐓庝喊婵℃彃婀遍埀顒冾潐閹稿摜鈧稈鏅濋埀顒勬涧閵堟悂寮崒鐐村€锋い鎺嶇劍閻﹀酣姊虹拠鎻掝劉缂佸甯″畷婵嬪箳濡も偓缁€澶愭煟閺冨倸甯舵潻婵囩節閻㈤潧孝婵炶尙濞€瀹曟垿骞橀幇浣瑰兊閻庤娲栧ú銊╂偩閾忓湱纾介柛灞剧懅椤︼附淇婇锝囩煉鐎规洘娲熼、鏃堝川椤栵絾绁梻浣瑰缁诲倿鎮ч幘婢勭喓鈧綆鍠楅悡娆愮箾閼奸鍤欐鐐达耿閺屾洟宕堕妸銉ユ懙閻庢鍣崜鐔肩嵁瀹ュ鏁婇柣锝呮湰濞堟悂姊绘担钘変汗闁烩剝妫冨畷褰掓惞椤愶絾鐝烽梺绉嗗嫷娈曟い銉ョ墦閺屾盯骞橀懠顒夋М婵炲濯崹鍫曞蓟閺囥垹骞㈡俊銈咃工閸撻亶鏌i姀鈺佺仭濠㈢懓妫楀嵄闁圭増婢橀~鍛存煟濞嗗苯浜惧┑鐐茬湴閸婃洟婀侀梺鎸庣箓濡瑧绮堢€n喗鐓冪憸婊堝礈濮橆厾鈹嶉柧蹇氼潐瀹曟煡鏌涢幇銊︽珖妞も晝鍏橀弻銊モ攽閸℃瑥鈪靛┑鈽嗗灠椤戝寮诲☉銏犵闁瑰鍎愬Λ锟犳⒑鐠囧弶鍞夊┑顔哄€楃划姘舵焼瀹ュ懐顦ㄥ銈嗘尵婵兘顢欓幒妤佲拺閻犲洠鈧櫕鐏侀梺鍛婃煥妤犳悂鍩㈤幘璇茬闁挎棁妫勫▓銉ヮ渻閵堝棛澧紒顔肩焸閸╂盯寮介鐔哄幈濠电偛妫欓崝鏇㈡倶閳哄偆娈介柣鎰级閸犳﹢鏌熼姘毙х€殿噮鍣e畷鎺懳旀担瑙勭彃

10x Genomics闂傚倷绀侀幖顐﹀磹閻熼偊鐔嗘慨妞诲亾妤犵偞鐗犻垾鏂裤€掓刊鐖剈m HD 闂佽瀛╅鏍窗閹烘纾婚柟鍓х帛閻撴洘鎱ㄥΟ鐓庡付闁诲繒濮烽埀顒冾潐濞叉粓宕伴幘鑸殿潟闁圭儤顨呴獮銏℃叏濮楀棗澧┑顔煎暣濮婃椽宕ㄦ繝鍌滅懆濠碘槅鍋呯划宥夊Φ閺冨牆绠瑰ù锝囨嚀娴犮垽姊洪幖鐐插姉闁哄懏绮撻幃楣冩焼瀹ュ棛鍘遍棅顐㈡搐椤戝懏鎱ㄩ埀顒€鈹戦悙瀛樼稇婵☆偅绮撴俊鐢稿箛閺夊灝宓嗛梺缁樶缚閺佹悂鎮℃担铏圭=濞达絽鎲″﹢鐗堜繆閻愯埖顥夐摶鐐烘煕瑜庨〃鍛矆閸℃稒鐓曢柍鈺佸暈缂傛岸鏌嶈閸忔稓鍒掑▎鎾虫瀬鐎广儱顦伴弲鎼佹煥閻曞倹瀚�

濠电姷鏁搁崑娑樜涙惔銊ュ瀭闁兼祴鏅滃畷鏌ユ倵閿濆骸浜為柍缁樻閹鏁愭惔鈥崇缂備椒鑳跺▍澧俰st闂傚倷绶氬ḿ褍螞濡ゅ懏鏅濋柨婵嗘川缁犳柨顭块懜闈涘婵☆偅蓱閵囧嫰骞樼捄杞扮捕缂傚倸绉崇欢姘跺蓟濞戙垹鍐€闁靛ě鍐f嫛婵犵數鍋涢悧濠囧储椤ョSPR缂傚倸鍊烽悞锔剧矙閹烘鍎庢い鏍仜閻掑灚銇勯幒鍡椾壕濡炪倧缂氶崡鎶藉箖瑜斿畷顐﹀Ψ閵堝棗濯伴梻渚€鈧偛鑻晶鏉戔攽閳ユ剚鍤熼柍褜鍓ㄧ紞鍡涘礈濮樿泛姹查柍鍝勬噺閸婂灚绻涢幋鐐垫噧濠殿喖鍟撮弻娑㈠籍閹炬潙顏�

闂傚倷绀侀幉锟犮€冮崱妞曞搫饪伴崨顓炵亰闂婎偄娲︾粙鎺楀吹閸曨垱鐓熼柟閭﹀墻閸ょ喖鏌曢崼鐔稿唉妤犵偞鐗犲鍫曞箣閻樻鍞堕梻浣告啞閻熴儱螞濠靛棭娼栧┑鐘宠壘鎯熼梺闈涱檧缁茬厧霉閻戣姤鐓熼柣妯夸含閸斿秶鎲搁弶鍨殻闁诡喓鍎甸弫鎾绘晸閿燂拷 - 濠电姷鏁搁崕鎴犲緤閽樺鏆︽い鎺戝閻鏌涢埄鍐$細妞も晜鐓¢弻娑㈠焺閸愭儳姣€闂佸湱鍎ら幐楣冦€呴悜钘夌閺夊牆澧界粔鐢告煕鎼淬垹鐏ラ柍钘夘樀楠炴﹢顢涘顐㈩棜婵犵數鍋為崹鍫曞箹閳哄倻顩叉繝濠傚暟閺嗭箓鏌i弮鍥仩缁炬儳銈搁弻娑㈠焺閸愵厼顥濋梺鍛婃⒐鐢繝骞冨Δ鍛嵍妞ゆ挾鍋樺Σ鎰版⒑缂佹ḿ鈯曢柣鐔濆洤绠悗锝庡枛缁犳煡鏌熸导瀛樻锭闁诡喕绶氬娲川婵犲倻顑傛繝鈷€鍕垫疁鐎殿喗濞婇幃銏ゆ偂鎼达綆鍞规俊鐐€栭弻銊╂倶濠靛牏鐜绘繛鎴欏灪閻撴瑩鎮归妸銉Ц闁稿﹤顭烽幃鐑藉閵堝棛鍘卞┑鐐叉閿氶柣蹇嬪劜閵囧嫰顢曢姀鈺佸壎閻庤娲滄繛鈧€殿喕绮欓、鏍敃閿濆懏璇為悗娈垮枟閹倿寮幘缁樻櫢闁跨噦鎷�

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婃い鎺嗗亾鏉╂繃绻濋悽闈浶㈤悗姘煎櫍閹本鎯旈妸锔惧幘閻庤娲栧ú銈嗙濠婂牊鐓曢柣鎰摠鐏忥箓鏌熼挊澶娾偓濠氬焵椤掑﹦绉甸柛鎾村哺椤㈡棃濡舵径瀣化闂佽澹嬮弲娑欎繆閾忓湱纾奸柕濞у喚鏆梺鐟板槻閹冲酣銈导鏉戠闁靛ě鈧崑鎾寸節濮橆厾鍘搁柣搴秵閸嬪嫭鎱ㄩ崼銉︾厸鐎光偓閳ь剟宕版惔銊ョ厺闁哄啫鐗嗛崡鎶芥煟濡寧鐝慨锝呭閺岋絾鎯旈姀鈶╁闂佸憡姊圭敮鈥崇暦濠靛鍋勯柣鎾冲閵夆晜鐓ラ柣鏇炲€圭€氾拷

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号