编辑推荐:
生成式人工智能在生物医学研究中的应用尚处起步阶段,现有商业平台和个人定制方案均存局限。研究人员开发开源 Python 框架 BioChatter,其架构灵活、能整合多种资源,性能优于传统方法,为生物医学研究软件定制提供新途径。
在科技飞速发展的当下,生成式人工智能(AI)尤其是在语言领域取得了显著进展。它就像一个神奇的魔法盒子,似乎蕴含着无尽的可能。然而,当人们试图将这一强大的技术应用于生物医学研究时,却发现困难重重。虽然生成式 AI 已迅速商业化,但在生物医学研究这个关键领域,它的应用还仅仅处于蹒跚学步的阶段。
目前,使用大语言模型(LLMs)主要有两种途径,一种是大公司提供的面向终端用户的平台,另一种是有编程知识的研究人员自行开发的定制解决方案。但这两种方式都存在明显的缺陷。商业平台就像神秘的黑匣子,缺乏可重复性研究所需的透明度,没有一个是开源的,而且只有少数提供的算法科学描述也十分肤浅。同时,它们还面临着隐私问题,比如用户数据可能被滥用,并且受到巨大的商业压力影响。此外,这些平台很难根据特定的研究领域或工作流程进行全面定制。而个人定制的解决方案,对于大多数生物医学研究人员来说,就像是一座难以攀登的高山。它不仅要求研究人员具备深厚的专业知识,还需要掌握编程、数据管理、机器学习等多种专业技能,以及在快速变化的环境中进行部署、框架搭建和软件版本管理的技术专长。这些技术挑战使得研究结果难以保证稳健性和可重复性,导致 LLMs 在生物医学研究中的应用目前还停留在个别案例研究的层面,与拥有多个开源 AI 框架和批准医疗设备的成像领域形成了鲜明对比。
为了填补复杂定制解决方案和闭源商业平台之间的巨大鸿沟,来自海德堡大学(Heidelberg University)、欧洲分子生物学实验室 - 欧洲生物信息学研究所(EMBL - EBI)等多个研究机构的研究人员开展了一项极具意义的研究。他们开发了 BioChatter(
https://biochatter.org),这是一个基于开源 Python 的框架,旨在按照开放科学的原则开发定制化的生物医学研究软件。这项研究成果发表在《Nature Biotechnology》上,为生物医学研究带来了新的曙光。
研究人员在开展这项研究时,运用了多个关键技术方法。首先,他们构建了 BioChatter 的模块化架构,该架构整合了多种资源,包括开源的 LLM 部署工具、知识图谱(KGs)、向量数据库等的 API。其次,通过定制系统提示,使 LLM 能够根据用户的研究背景进行调整。此外,开发了连续基准测试系统,以监控模型在特定任务上的性能。在研究过程中,还涉及到与 BioCypher 等现有开源基础设施的集成,利用其进行知识管理。
下面来详细看看研究结果:
- BioChatter 的架构与功能:BioChatter 提供了多种适用于不同应用场景的 API(如 Python、REST)和两个图形用户界面。其灵活的架构支持从快速原型开发到完全封装部署的广泛应用。它能整合不同的组件,包括开源和专有 LLM、知识管理系统、公共数据库 API 等,用户可以通过修改配置文件轻松定制。
- 性能优势:在知识图谱连接性等任务中,BioChatter 与 BioCypher 知识图谱的原生交互使所有 LLMs 的性能大幅提升。在基准测试中,BioChatter 的提示引擎生成知识图谱查询的准确率比传统方法高得多,达到了 0.844 ± 0.11(未配对 t 检验,P <0.001,t = 18.655),而传统 “仅 LLM” 方法的准确率仅为 0.486 ± 0.12。
- 知识管理与协同效应:BioChatter 通过与 BioCypher 的集成,实现了知识图谱与提取管道、知识图谱与 LLMs 之间的双向协同。BioChatter 计划开发 BioGather 框架,用于从文本和图像中提取信息,进一步促进数据协调,发挥 LLMs 和知识图谱的互补优势。
研究结论表明,BioChatter 为生物医学研究人员提供了一个强大且灵活的工具。它降低了开发和维护的负担,提高了应用程序的稳健性。同时,BioChatter 遵循开放科学原则,通过开源的方式促进了全球科研社区的合作。其持续的基准测试系统确保了模型性能的可监测性和研究的可重复性。在未来,随着生成式 AI 向多模态发展,BioChatter 也将不断更新,以适应新的技术需求。
这项研究的意义重大。它打破了生物医学研究中应用 LLMs 的现有困境,为研究人员提供了一个更高效、更透明的研究平台。BioChatter 的开源特性使得全球科研人员都能够参与到其开发和应用中,促进了生物医学研究的国际合作。通过推动 LLMs 在生物医学领域的合理应用,有望加速药物研发、疾病诊断等关键领域的进展,为人类健康事业带来新的突破。BioChatter 就像一把钥匙,开启了大语言模型在生物医学应用中的新时代大门,为未来的研究指明了新的方向。