开源拉曼光谱数据集助力活性药物成分(API)开发

【字体: 时间:2025年03月25日 来源:Scientific Data 5.8

编辑推荐:

  为解决拉曼光谱数据稀缺问题,研究人员开展化学化合物开源拉曼光谱研究,获 3510 个样本数据,助力 API 开发。

  

一、研究背景

在现代医药研发的舞台上,拉曼光谱技术(Raman spectroscopy)堪称一位 “多面手”。它凭借快速、高效且无损的特性,在药物发现、质量控制以及活性药物成分(API)开发等多个关键环节发挥着重要作用。想象一下,药物研发人员如同在黑暗中摸索的探险家,拉曼光谱就像是他们手中的 “神奇手电筒”,能帮助其透过复杂的分子结构迷雾,精准识别化合物,监测药物生产过程中的质量变化。
然而,这束 “光” 却被一个棘手的问题所困扰 —— 数据稀缺。在实验室中,虽然研究人员会构建小型光谱库用于一次性鉴定中间体或未知化学品,但这些库就像 “小池塘”,难以满足全面、高质量参考数据的 “大需求”。市面上的开源数据库,要么样本单一、数量有限,要么获取成本高昂;商业数据库虽资源丰富,却因产权限制难以广泛使用。这种数据困境就像给拉曼光谱技术的 “腾飞” 戴上了沉重的脚镣,极大地限制了其在药物研发领域的深入应用与发展。为突破这一困境,来自爱尔兰戈尔韦大学(University of Galway)计算机科学学院的研究人员 Aaron R. Flanagan 和 Frank G. Glavin 展开了一项极具意义的研究,相关成果发表于《Scientific Data》。

二、研究方法

研究人员采用 Endress+Hauser(原 Kaiser Optical Systems)的 Raman Rxn2 分析仪,搭配 10x 物镜的三分之一英寸非接触式 Rxn - 10 探头,以 785nm 为激发波长,平均光谱分辨率达 1 ,覆盖 150 至 3425 范围的 3276 个波长,借助 Mettler Toledo iC Raman 4.1 软件进行光谱采集与实验配置。在数据采集前,利用软件的像素填充(pixel fill)功能聚焦探头,根据样品拉曼散射能力将像素填充率优化至 50 - 70% 。
研究选用 32 种商业溶剂和试剂作为样本,这些样本均为 API 开发常用化学品,且在未进一步纯化或预处理的全浓度状态下进行测试。为确保样本质量,仅选取经 API 开发测试成功的产品,并遵循严格的保存协议,在通风橱中采样后密封于 4mL 琥珀色玻璃瓶,防止杂质混入。
采集数据时,将装有样本的玻璃瓶置于静态分析腔,用 Rxn - 10 探头扫描。扫描前先对空瓶进行分析,排除散射等干扰。采集的原始光谱数据经 iC Raman 软件自动预处理,包括暗噪声扣除、宇宙射线过滤和强度校正,随后导出为 SPC 文件并转换为 CSV 格式。针对原始光谱存在的荧光和基线偏移问题,推荐裁剪 3150 以上区域,并采用两点校正算法进行基线校正,数据缩放则推荐标准正态变量变换(SNV)或最小 - 最大归一化(min - max normalisation)技术。

三、研究结果

  1. 数据集构建:研究构建了包含 32 种化学物质、3510 个光谱样本的开源拉曼光谱数据集。该数据集涵盖多种 API 开发常用的有机溶剂和试剂,以 CSV 文件形式存储,按化合物分组,第一行为 150 - 3245 、分辨率 1 的波数信息,每行代表一个样本,最后一列是目标标签。同时,在线存储库还提供 XLSX 文件,包含产品详细信息,如供应商、产品角色、应用和分子式等。
  2. 拉曼活性峰:研究确定了各化合物的拉曼活性峰,分别整理在两张表格中。这些峰指示了拉曼活性区域,其中显著峰和检测到的小峰都被标记出来,为化合物的光谱识别提供了关键依据。
  3. 系统稳定性与数据可靠性:通过使用 Endress+Hauser Raman 校准配件对系统进行波长和强度校准,并以环己烷为参考标准,确保系统稳定可靠。每日使用前,系统预热 120 分钟并自动校准,运行温度保持在 15 - 30°C,探测器温度恒定为 - 40°C。测量重复性测试显示,超 50% 的产品峰位无偏差,除甲酸外,其余产品标准偏差均小于 1 ,表明数据可靠性高。

四、研究结论与讨论

这项研究成果意义重大。它构建的开源拉曼光谱数据集,为科学界提供了高质量、可复用的数据资源,缓解了拉曼光谱数据稀缺的难题,在药物研发、质量控制等领域具有广泛应用前景。研究确定的拉曼活性峰有助于快速准确地识别化合物,提高研发效率;系统稳定性和数据可靠性的验证,为后续研究提供了坚实保障。
从更宏观的角度看,该数据集可用于训练研究人员掌握光谱预处理和未知物峰识别技术,还能为机器学习模型的预训练提供基础数据,推动人工智能在药物研发领域的应用。未来,随着研究的深入,有望基于此数据集开发出更精准、通用的校准模型,进一步提升拉曼光谱技术在 API 开发等领域的应用价值,为医药行业的发展注入新的活力,助力研发出更多安全有效的药物,造福人类健康。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号