编辑推荐:
针对生物活性描述符常局限于少数分子的问题,研究人员开发深度神经网络,利用小分子相关实验生物活性数据推断缺失特征。本文呈现计算协议,可修改或生成生物活性空间与特征,扩展小分子注释,具重要意义。
化学特征将小分子的物理化学和结构性质编码为数值描述符,构成化学比较和搜索算法的基础。生物活性数据的日益丰富使化合物表征纳入生物效应(如诱导的基因表达变化),但生物活性描述符常限于少数充分研究的分子。为解决这一问题,研究团队实现了一组深度神经网络,能够利用实验确定的与小分子相关的生物活性数据,推断任何感兴趣化合物缺失的生物活性特征。不同于静态化学描述符,这些生物活性特征随新数据和处理策略动态演变。本文介绍一种计算协议,用于修改或生成新型生物活性空间和特征,描述利用 Chemical Checker(CC;
https://chemicalchecker.org/)中编目的现有知识,通过预定义数据管理流程整合多样生物活性数据的主要步骤。研究通过四个具体示例说明协议功能,包括向现有生物活性空间中加入新化合物、在不改变基础实验数据的情况下改变数据预处理,以及从头创建两个新型生物活性空间(使用图形处理单元计算在 9 小时内完成)。总体而言,该协议为在用户提供的数据上安装、测试和运行 CC 数据整合方法提供指南,将有限数量小分子的注释扩展至更大化学领域,并生成新型生物活性特征。