基于文本到多边形生成器的弱监督文本检测框架：降低标注成本的新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月07日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文提出了一种创新的文本到多边形生成器（text-to-polygon generator）框架，通过两阶段弱监督学习（weakly supervised learning）解决文本检测（text spotting）中标注成本高的问题。该方法首先生成伪多边形标签（pseudo polygon labels），再训练任意文本检测模型，在保持性能的同时显著降低对全标注数据的依赖（Fully supervised），代码已开源。

Highlight

我们提出了一种通过文本到多边形生成器实现的文本检测弱监督学习框架，其创新性和贡献如下：

•
独立训练架构：将伪标签生成模型（文本到多边形生成器）与文本检测模型解耦，支持不同检测架构的灵活适配，在性能与成本效率间取得平衡。
•
精准坐标回归：开发的生成器可直接预测目标文本的多边形坐标，无需复杂后处理（post-processing）。预训练后即可冻结模型，为任意文本标注数据集生成伪多边形。
•
实验验证：在多个公开数据集（如Total-Text^[33]、ICDAR 2015^[35]）上的实验表明，该方法显著降低标注成本且保持竞争力。代码详见GitHub仓库。

Conclusion and Discussion

本研究通过文本到多边形生成器构建了弱监督文本检测框架，其核心优势在于：

1.
模型解耦设计：生成器独立于文本检测器（text spotter），支持即插即用；
2.
跨数据集适用性：基于合成数据（如SynthText 150k^[36]）预训练后，可泛化至真实场景文本数据集；
3.
医学影像潜力：虽聚焦自然场景文本，但技术路径可延伸至医疗报告识别等生命科学领域，例如病理切片中的标注简化。

（注：翻译保留专业术语如Bezier-Align、text encoder等，并采用"伪标签"等符合中文文献习惯的表达）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号