
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合信息主动度量学习的序数分类方法研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:Neurocomputing 6.5
编辑推荐:
推荐:本研究针对序数分类(ordinal classification)中标记数据成本高的问题,提出融合绝对信息(absolute information)、相对信息(relative information)和未标记数据的半监督距离度量学习方法,开发了选择信息量丰富的样本/样本对/三元组的主动学习策略。实验证明该方法能有效提升模型性能,为降低标注成本提供了新思路。
在食品科学、社会科学等领域,对"腐败-新鲜"等具有明确等级顺序的序数分类(ordinal classification)需求广泛。传统方法面临两大挑战:一是仅利用带标签样本(absolute information)会忽略类别间的序数关系;二是获取充足标记数据成本高昂。武汉理工大学计算机与人工智能学院的研究团队在《Neurocomputing》发表研究,创新性地将相对信息(relative information,即样本间偏好关系)与主动学习策略结合,开发出能同时处理三类数据(标记样本、偏好关系对、未标记数据)的半监督距离度量学习方法。
研究采用Mahalanobis距离度量学习框架,通过构建包含三项约束的目标函数:(1)类内紧凑性约束(2)序数关系约束(3)流形正则化约束。针对数据选择难题,提出基于信息熵的主动学习策略,可动态选择最具信息量的单个样本、样本对或三元组进行标注。实验在多个序数分类基准数据集上验证,最优参数组合为λ=1×10-3、γ=1×10-4时,所提方法较传统主动学习策略显著提升分类准确率。
半监督距离度量学习部分通过特征空间映射,使同类样本距离缩短、异类样本按序数关系分层排列,同时利用未标记数据的流形结构保持几何特性。主动学习策略包含三种核心方法:(1)样本不确定性采样:选择预测类别熵值最高的样本(2)样本对信息增益:选择能最大程度消除偏好关系不确定性的样本对(3)三元组空间重构:选择能最大化调整距离度量的参考三元组。
实验结果显示,在葡萄酒品质评估等数据集上,结合相对信息的主动学习策略使分类准确率提升12.7%,特别在标记数据不足(仅20%训练集)时优势更显著。通过分析特征空间可视化图,证实学习到的距离度量能准确反映序数类别的层次结构。
该研究的创新性体现在三方面:首次实现序数分类中混合信息类型的统一建模;开发出面向距离度量学习的多类型数据选择策略;为降低标注成本提供可扩展框架。未来可进一步探索该策略在众包标注场景的应用,以及结合深度度量学习的扩展可能。研究获得武汉理工大学自主创新研究基金(2024IVA036)和国家自然科学基金(62271360)支持。
生物通微信公众号
知名企业招聘