基于BiLSTM-注意力机制与关键句子提取的新闻主题分类框架研究

《IEEE Open Journal of the Computer Society》:Reducing Data Volume in News Topic Classification: Deep Learning Framework and Dataset

【字体: 时间:2025年11月13日 来源:IEEE Open Journal of the Computer Society 8.2

编辑推荐:

  本研究针对海量新闻文本分类中的数据冗余和计算效率问题,提出了一种结合双向长短期记忆网络(BiiLSTM)、注意力机制和关键句子提取算法(KSE)的深度学习框架。通过构建包含6万篇全球新闻的GN60K数据集,实验表明该框架在AG News和BBC News数据集上分别达到94.55%和99.7%的分类准确率,同时将推理时间缩短50%,为实时新闻分类提供了高效解决方案。

  
在智能设备普及和技术进步的推动下,人们获取信息变得前所未有的便捷,但海量内容的分类整理却日益困难。每天产生的新闻、博客、社交媒体帖子等文本数据如潮水般涌来,如何快速准确地对这些信息进行主题归类,成为当前自然语言处理(NLP)领域亟待解决的挑战。传统的文本分类方法面临诸多难题:文本长度差异巨大,从简短的推文到长篇的临床文档;数据稀疏性和内存过载问题突出;现有算法计算强度大,难以在普通计算机上运行;可用数据集覆盖主题有限,导致模型泛化能力不足。
针对这些挑战,意大利卡利亚大学的研究团队在《IEEE Open Journal of the Computer Society》上发表了一项创新研究,提出了一个集关键句子提取(KSE)、词嵌入和深度学习方法于一体的新闻主题分类框架。该研究的核心创新在于通过算法自动识别文档中最具信息量的部分,在保持分类准确性的同时显著提升处理效率。
研究团队采用的关键技术方法包括:基于YAKE算法的关键词提取技术,通过设定关键词密度阈值(λTH)筛选重要句子;BERT词嵌入模型将文本转换为768维向量表示;结合双向长短期记忆网络(BiLSTM)和自注意力机制的深度学习架构,有效捕捉文本前后文依赖关系;使用包含60,000篇新闻的GN60K数据集进行模型训练与验证。
模型架构设计
研究提出的三层架构依次为关键句子提取器(KSE)、词嵌入模块和主题分类器。KSE模块通过计算句子中关键词占比(λiy=Qiy/Ziy)来判断句子重要性,保留λiy≥λTH的句子。词嵌入阶段使用BERT模型将处理后的文本转换为固定长度的矩阵表示Ei∈R|Wi*|×ρ,其中ρ=768为嵌入维度。主题分类器采用BiLSTM捕捉序列依赖关系,结合自注意力机制加权重要信息,最后通过全连接层输出分类结果。
数据集构建与分析
研究团队专门构建了Global News 60k(GN60K)数据集,包含来自全球多个地区的60,000篇新闻,涵盖10个主题类别。与AG News、BBC News等现有数据集相比,GN60K具有更高的类间相似度(0.564)和Flesch-Kincaid可读性分数(12.21),表明其分类难度更大,能更好测试模型泛化能力。
关键句子提取效果
关键句子提取算法(KSE)的性能评估显示,当λTH设置在0.1-0.15范围内时,模型在保持高准确率的同时显著提升效率。对于GN60K数据集,训练时间减少34%,测试时间减少66%;BBC News数据集训练时间减少82%,测试时间减少63%。研究表明,KSE对中长文本效果显著,而对短文本(如AG News)则无需进行降维处理。
性能对比评估
与现有主流方法相比,该框架在BBC News数据集上达到99.7%的准确率,优于RoBERTa(99.1%)、BERT(89.1%)等模型;在AG News数据集上达到94.55%的准确率,超过CNN-LSTM混合模型(92.67%)等现有方法。与大型语言模型(LLMs)对比中,该框架在准确率(99.7% vs 92%)和推理时间(0.011ms vs 45s)方面均显著优于TinyLlama和GPT-3.5。
实际应用价值
该研究的实际意义在于为实时新闻分类应用提供了可行解决方案。模型推理时间(0.011ms)远低于成人平均阅读时间(S类文档5.22s,M类15.65s,L类52.17s),使其能够在用户阅读完成前完成分类任务,适用于虚假新闻检测、对话代理、内容推荐等多种场景。
该研究通过创新性地结合关键句子提取与深度学习技术,有效解决了新闻主题分类中的效率与准确率平衡问题。提出的BiLSTM-注意力机制框架在多个数据集上表现出色,特别是构建的GN60K数据集为未来研究提供了更全面的基准测试平台。研究方法不仅提升了分类性能,还通过数据降维显著提高了计算效率,为资源受限环境下的实时文本分析应用奠定了坚实基础。未来工作可进一步探索该框架在多语言文本分类、跨领域迁移学习等方向的扩展应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号