基于自动图表数据提取的Cu-Cr-X合金力学与电学性能数据集构建与应用
《Scientific Data》:Mechanical and Electrical Properties dataset of Cu-Cr-X alloys generated with automated figure data extraction
【字体:
大
中
小
】
时间:2025年12月12日
来源:Scientific Data 6.9
编辑推荐:
本研究针对材料科学文献中大量性能数据以图表形式呈现、难以高效转化为机器学习可用数据集的问题,开发了自动化图表数据提取工具(Auto-FDE),从146篇Cu-Cr-X合金文献中提取了3,018条高质量数据记录,构建了涵盖成分-工艺-性能的专用数据集,为高强度高导电铜合金的数据驱动设计提供了重要支撑。
在材料科学研究中,数据驱动的机器学习方法正成为高性能金属材料开发的重要方向。然而,随着材料科学文献数量的指数级增长,如何从海量文献中高效提取结构化数据成为制约材料基因组工程发展的瓶颈问题。特别是在铜合金研究领域,材料在不同成分和工艺条件下的性能数据大多以二维图表形式呈现,传统的手工数据提取方式不仅耗时耗力,而且容易引入人为误差。
以高端引线框架用铜合金为例,下一代集成电路要求铜合金同时具备超高强度(抗拉强度>700 MPa)和超高导电性(电导率>70%IACS)的"双70"性能指标。Cu-Cr-X合金作为析出强化型铜合金的代表,其性能优化需要系统研究微量合金元素(X)和热处理工艺的复杂影响。然而,现有的铜合金数据库中Cu-Cr体系的代表性严重不足,缺乏专门针对该体系的成分-工艺-性能数据集。
为了解决这一难题,北京科技大学新材料技术研究院的研究团队在《Scientific Data》上发表了题为"Mechanical and Electrical Properties dataset of Cu-Cr-X alloys generated with automated figure data extraction"的研究论文。该研究开发了一套专门针对Cu-Cr-X合金科学论文中常见图表类型的自动化数据提取工具,成功构建了该领域首个专门的成分-工艺-性能数据集。
研究团队首先通过Elsevier、Springer Nature和Wiley等出版商的应用程序接口(API)进行高级检索,筛选出146篇符合要求的Cu-Cr-X合金研究论文。检索策略特别排除了添加剂制造、电脉冲处理、复合材料、高压扭转、焊接和剧烈塑性变形等非常规加工方法,确保数据集专注于传统加工路径制备的析出强化型Cu-Cr-X合金。
在数据提取阶段,研究采用了多模态方法:使用Python脚本自动提取文章元数据(DOI、标题、作者、期刊等);通过人工标注方式从文本中提取合金成分和工艺参数;利用自主研发的Auto-FDE工具自动从图表中提取性能数据。特别值得一提的是,该工具能够有效处理材料科学文献中常见的散点线图和曲线图两种图表类型。
Auto-FDE工具的技术核心包括四个关键步骤:首先通过预训练的卷积神经网络(CNN)模型识别图表中的坐标轴和图例区域;接着采用基于轴分割的颜色分解策略,结合改进的DBSCAN(密度聚类算法)区分数据线和噪声;然后使用启发式规则提取关键数据点(如散点线图中每个散点的中心坐标、应力-应变曲线中的峰值应力值);最后通过PP-OCRv3模型识别图例文本,并基于CIELab色彩空间的色差计算实现图形数据与图例信息的对齐。
研究团队对自动化提取效果进行了严格验证。基于统计抽样理论,在95%置信水平下,选取了63个曲线图和124个散点线图进行人工比对。结果显示,对于散点线图,数据提取的精确度达到98.3%,召回率为84.5%,F1分数为90.9%;对于曲线图,相应的指标分别为92.1%、100%和95.9%。图例信息提取的精确度和召回率也分别达到99.0%和83.0%。
最终构建的数据集包含3,018条记录,每条记录都采用结构化格式存储,包括文章元数据和曲线相关数据两大部分。文章元数据涵盖DOI、标题、作者、期刊、发表年份等基本信息;曲线相关数据则包含合金成分、工艺参数、曲线颜色、图例文本、坐标轴标签和单位等详细信息。数据集以JSON和XLSX两种格式公开发布在Figshare平台,其中XLSX文件还专门提供了适合机器学习使用的重构格式。
为了确保数据质量,研究团队建立了基于源可靠性评分(SR_score)的数据融合方法,综合考虑期刊影响因子(IF)、JCR分区、发表年份和文章类型等因素,对每条记录进行加权处理。同时,采用基于中位数绝对偏差(MAD)的稳健z分数方法进行异常值检测,并对检测出的异常值进行标注而非直接删除,既保证了数据集的可靠性,又保持了完整的可追溯性。
与传统的数据提取方法相比,Auto-FDE工具具有显著优势。它不仅能够自动识别和提取图表中的关键数据点,还能通过颜色相似性分析建立图形数据与图例文本的跨模态关联,实现真正的自动化数据提取。工具特别针对材料科学图表的特点进行了优化,如能够有效处理重叠的散点、识别不同颜色的曲线,并提取应力-应变曲线中的峰值应力等关键性能指标。
此外,研究还开发了适用于柱状图的自动提取算法,这类图表在文献中常用于表示析出相的体积分数。这一扩展功能进一步增强了工具的适用性,使其能够覆盖更广泛的图表类型。
该数据集的构建为Cu-Cr-X合金的数据驱动设计提供了重要基础。研究人员可以通过分析数据集中的成分-工艺-性能关系,快速了解不同微量合金元素(如Zr、Mg、Sn等)对合金性能的影响规律,优化热处理工艺参数,指导新型高强度高导电铜合金的开发。
更重要的是,Auto-FDE工具为解决材料科学领域普遍存在的数据提取难题提供了有效方案。其技术思路和方法可以推广到其他合金体系甚至更广泛的材料研究领域,加速材料科学数据库的构建进程,推动材料基因组工程的发展。
尽管取得了显著成果,研究团队也坦诚指出了当前方法的局限性。首先,初始语料库的获取仍面临挑战,特别是当研究文献仅以PDF格式提供时,需要专门的卷积神经网络进行图表识别和分类。其次,从文本中自动提取与图表相关的材料成分和工艺信息仍缺乏高效流程,这将是未来研究的重点方向。此外,当前算法在处理复杂的非线性图表(如多y轴或对数坐标图)方面还有待改进。
研究团队表示,未来将探索基于大语言模型(LLM)的领域自适应微调方法,进一步提升文本信息提取的自动化水平。同时,将开发更先进的图像分割技术,以应对更复杂的图表类型和数据呈现方式。
这项研究不仅为Cu-Cr-X合金研究提供了宝贵的专用数据集,更重要的是开创了材料科学文献数据自动化提取的新途径,为加速材料发现和优化提供了强有力的技术支持。随着自动化数据提取技术的不断完善,有望显著降低材料数据库构建的成本和时间,推动数据驱动材料研究进入新的发展阶段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号