基于ChatGPT增强与对比学习的中文慕课情感分析可解释人工智能研究

《IEEE Intelligent Systems》:Leveraging ChatGPT-Based Augmentation and Contrastive Learning for Chinese Massive Open Online Course Sentiment Analysis

【字体: 时间:2025年12月08日 来源:IEEE Intelligent Systems 6.1

编辑推荐:

  本文针对中文慕课评论中教学嵌入式语言、句内情感转换和类别不平衡等独特挑战,创新性地将ChatGPT数据增强与对比学习整合到BERT-Chinese框架中。研究通过系统实验证明,该方案显著提升了情感分类性能,尤其在代表性不足的中性情感检测方面表现突出,为低资源条件下的教育情感分析提供了新范式。

  
随着大规模开放在线课程(Massive Open Online Courses, MOOC)的快速发展,学习者留存率低已成为亟待解决的痛点。传统上,通过分析学习者反馈中的情感倾向来优化教学策略是重要手段,但中文慕课评论中存在三个特殊挑战:评论常出现"课程内容很有深度,但老师语速太快"这类包含正负情感转换的复杂句式;大量涉及教学质量的领域特定表达难以被通用情感词典识别;可用数据集普遍存在正样本主导、负/中性样本稀缺的类别失衡问题。
为突破这些瓶颈,广州大学陈燮灵团队联合岭南大学、香港都会大学等机构在《IEEE Intelligent Systems》发表研究,开创性地将ChatGPT数据增强与对比学习相结合,构建了针对中文慕课的情感分析新框架。该研究不仅系统评估了不同增强策略的效果,还公开了大规模标注数据集,为教育领域文本挖掘提供了重要基准。
关键技术方法主要包括:1)采用三种数据增强策略——相似词替换(SWR)、随机词删除(RWD)和基于ChatGPT的增强(GPTaug);2)使用BERT-base-Chinese作为骨干网络进行情感表示学习;3)设计融合监督交叉熵损失和InfoNCE对比损失的双目标优化框架;4)基于14,420条中文慕课评论和20,000条Coursera英文评论构建实验数据集。
研究结果方面,通过敏感性分析发现对比学习超参数α对模型性能具有显著影响。当α=0.3时GPTaug获得最佳分类准确率(96.67%),而SWR策略在α=0.6时达到最高F1分数(79.75%)。这表明不同的数据增强策略需要匹配特定的对比损失权重,其中GPTaug表现出更广泛的超参数适应性。
分类性能比较显示,所有增强策略均显著提升基线模型表现。在中文慕课数据集上,GPTaug增强的RoBERTa-Chinese模型取得最优综合性能(准确率96.85%,F1分数81.31%),同时GPU内存消耗降低约30%。特别值得注意的是,该方法在英文Coursera数据集上也保持良好泛化能力,验证了框架的跨领域适用性。
跨类别分析揭示了一个重要现象:虽然所有方法对正类情感都表现出色(准确率>95%),但对仅占1.73%的负类样本识别准确率不足60%。相比之下,GPTaug在中性情感检测中领先SWR策略7个百分点,证明其生成高质量中性样本的独特优势。这种类别不平衡问题也提示未来需要结合领域自适应预训练等技术进一步优化。
该研究的核心贡献在于首次系统验证了生成式增强与对比学习在教育情感分析中的协同效应。通过控制实验证明,GPTaug生成的语义连贯样本能有效缓解数据稀疏和语义模糊问题,而对比学习机制则增强了模型对情感细微差异的辨别能力。这些发现为低资源场景下的教育文本分析提供了可复现的技术路径,对慕课平台实时感知学习者情绪、及时调整教学策略具有重要实践价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号