基于大语言模型语义校正的语义重要性感知通信新方法
《IEEE Transactions on Machine Learning in Communications and Networking》:Semantic Importance-Aware Communications With Semantic Correction Using Large Language Models
【字体:
大
中
小
】
时间:2025年11月18日
来源:IEEE Transactions on Machine Learning in Communications and Networking
编辑推荐:
本文针对传统语义通信在特征层面缺乏真正语义理解的问题,提出了一种理解级语义通信(ULSC)系统。研究通过图像描述神经网络(ICNN)将视觉数据转化为自然语言描述,并利用预训练大语言模型(LLM)进行语义重要性量化和语义纠错,实现了语义重要性感知通信(SIAC)。实验表明,ULSC在语义相似度和隐私保护方面均优于特征级语义通信(FLSC),为代理-人及代理-代理交互提供了更可靠、高效的解决方案。
在人工智能与通信技术深度融合的今天,语义通信作为一种超越传统香农理论范式的通信方式,正受到学术界和工业界的广泛关注。传统通信系统主要关注比特或符号的准确传输,而语义通信则致力于直接传递信息的“意义”,这对于机器与人类(agent-human)以及机器与机器(agent-agent)之间的高效交互至关重要。然而,现有的语义通信系统大多停留在特征层面(Feature-Level Semantic Communications, FLSC),例如将图像编码为连续的潜空间表示(Continuous Latent Space Representations)或离散的潜空间表示(Discrete Latent Space Representations)进行传输。这类方法虽然能够压缩数据并提升一定的传输效率,但其本质仍是“黑箱”操作,缺乏对信息内容的真正“理解”,难以与人类可理解的语义直接对接,存在所谓的“语义鸿沟”(Semantic Gap)。此外,在带宽受限或信道条件恶劣的网络环境中,如何优先传输对语义理解至关重要的信息,以及如何在接收端有效恢复因信道错误或丢包而损失的语义内容,仍是亟待解决的关键挑战。同时,直接传输原始数据或低维特征也带来了隐私泄露的风险,例如攻击者可能通过模型反转攻击(Model Inversion Attacks)从拦截的特征中重构出原始视觉数据(如人脸图像),危及用户隐私。
为了解决上述问题,由郭帅帅(Shuaishuai GUO, IEEE高级会员)等人组成的研究团队在《IEEE Transactions on Machine Learning in Communications and Networking》上发表了题为“Semantic Importance-Aware Communications With Semantic Correction Using Large Language Models”的研究论文。该研究创新性地提出了一个理解级语义通信(Understanding-Level Semantic Communications, ULSC)系统框架。该框架的核心思想是将视觉数据(如图像)转换成语义明确、人类可读的自然语言描述(Natural Language Representations),并在此基础上进行传输和纠错,从而将通信过程提升到“语义理解”的层面。
为了构建ULSC系统,研究人员主要采用了以下几项关键技术:首先,利用预训练的图像描述神经网络(Image Caption Neural Network, ICNN)将输入图像精准地转换为自然语言描述;其次,引入预训练的大语言模型(Large Language Model, LLM),如BERT(Bidirectional Encoder Representations from Transformers)和ChatGPT,来量化生成文本中每一帧(对应词语或短语)的语义重要性(Semantic Importance),并据此实现语义重要性感知通信(Semantic Importance-Aware Communications, SIAC),即在有限的网络资源下优先保障关键语义信息的传输;再者,在接收端,同样利用LLM的深层上下文理解能力,对传输过程中可能出现的错误或丢失的语义帧进行智能补全与校正,即语义纠错(Semantic Error Correction);最后,若需重现视觉数据,则使用预训练的生成式人工智能(Generative AI)模型(如Stable Diffusion)根据校正后的文本描述重新生成图像或语音。实验部分采用了从互联网收集的1000张图像及ImageNet数据集,并在帧擦除信道(Frame Erasure Channel)和加性高斯白噪声信道(AWGN Channel)下,与DeepJSCC和SCDA等基线方法进行了对比。
研究首先构建了ULSC的系统模型。发送端通过ICNN将视觉数据S转换为自然语言描述X。X被分割成L个帧进行编码和传输。在传输过程中,这些帧可能因信道条件而出错或丢失。接收端则利用基于LLM的语义纠错功能来恢复受损或丢失的帧,得到校正后的描述X?。最终,X?可直接用于人机交互(如为视障人士生成语音),或通过生成式AI模型fβ(·)重新生成视觉数据?。该系统旨在最小化传输过程中的整体语义损失(Semantic Loss, SL),其目标函数被形式化为在传输延迟约束下,通过优化调制与编码方案(Modulation and Coding Scheme, MCS)的选择来最小化SL。
本部分详细阐述了视觉数据到自然语言的转换过程以及帧重要性的量化方法。研究采用了基于Transformer架构的预训练ICNN模型,该模型包含图像编码器和基于图像的文本解码器,能够根据图像复杂度动态生成长度适宜的文本描述。在帧重要性量化方面,研究提出了一个创新方法:通过模拟接收端的语义纠错能力来评估每个帧的重要性。具体而言,对于原始消息m0,通过LLM(如BERT)生成缺少第l帧的替代消息ml,然后计算m0与ml的语义相似度φ(m0, ml),第l帧的语义重要性Fl则量化为1 - φ(m0, ml)。结果表明,在具备语义纠错能力的系统中,许多词语即使丢失也能被有效预测,因此其重要性得分较低甚至为零,这使得系统可以集中资源传输那些难以被纠错机制恢复的关键信息。
本节重点讨论了如何在网络传输中实现语义重要性感知。研究以自适应调制和编码(Adaptive Modulation and Coding, AMC)为例,展示了如何根据帧的语义重要性来动态选择调制方案(如BPSK, QPSK, 16QAM等)和信道编码方案(如Hadam码)。语义损失SL被定义为各帧重要性Fl与其帧丢失概率Pl, frameLoss的乘积之和。通过优化问题建模,在满足总传输延迟T ≤ Tth的约束下,选择使SL最小的MCS组合。为了降低计算复杂度,研究提出了一种语义感知的贪婪搜索方法。实验结果表明,与无语义感知的传统通信方案以及基于TF-IDF(词频-逆文档频率)的重要性评估方案相比,所提出的语义感知AMC方案能显著降低语义损失,尤其是在接收端有LLM辅助进行语义纠错的情况下,性能提升更为明显。
在接收端,研究利用预训练的LLM(特别是BERT)进行语义错误校正。当检测到帧丢失(例如通过序列号或校验和识别)时,系统将包含[MASK]标记的不完整句子输入BERT模型。BERT通过其自注意力(Self-Attention)机制等Transformer层处理输入,并预测[MASK]位置最可能的词语,从而补全缺失的语义信息。对于需要重新生成视觉数据的场景,研究采用了基于潜在扩散模型(Latent Diffusion Model)的Stable Diffusion模型。该模型利用CLIP(Contrastive Language-Image Pre-training)文本编码器将校正后的文本描述转换为文本嵌入(Text Embeddings),然后通过U-Net结构的噪声预测器在潜空间中进行迭代去噪,最终通过VAE(Variational Autoencoder)解码器生成高分辨率图像。这一过程确保了生成的图像与文本描述在语义上高度一致。
实验部分从多个维度验证了所提出ULSC系统的优越性。在帧擦除信道下,通过图像相似度(Image Similarity)指标评估语义传输性能,ULSC在不同帧擦除率(0.001至0.1)下均显著优于DeepJSCC和SCDA等基线方法,表现出更强的鲁棒性。在隐私保护能力验证方面,通过模拟模型反转攻击计算攻击者重建图像的峰值信噪比(Attacker-PSNR),ULSC的Attacker-PSNR远低于基线方法,表明其传输的自然语言描述能有效抵御攻击,保护原始视觉隐私。在AWGN信道下的测试也得到了类似结论,ULSC在低信噪比和高信噪比环境下均能保持较高的语义相似度和较低的隐私泄露风险。
研究团队也指出了当前工作的局限性及未来改进方向。例如,当前的语义重要性评估主要针对单个词语,未来可结合图像语义分割(Image Semantic Segmentation)技术,更好地评估短语或词组的上下文重要性;当前的语义纠错机制假设错误位置已知,未来可结合序列号(Sequence Number)和校验和(Checksum)等技术,实现无需先验错误位置信息的纠错;此外,对预训练模型(如BERT、Stable Diffusion)进行针对语义通信任务的定制化微调(Fine-tuning)和架构优化,也是提升系统性能的重要途径。
综上所述,本研究成功地将大语言模型引入语义通信领域,构建了一个高效、可靠且隐私保护能力更强的理解级语义通信系统。通过将视觉数据转换到自然语言这一人类可理解的语义空间,并巧妙利用LLM进行语义重要性评估和错误校正,ULSC系统不仅在语义传输的准确性上超越了传统的特征级方法,还通过避免直接传输原始数据或低维特征,显著增强了隐私安全性。这项工作为下一代人机交互、智能代理通信以及资源受限环境下的高效信息传输提供了创新的解决方案,推动了语义通信从“特征传输”向“语义理解”的范式转变。论文中提出的语义感知自适应调制编码策略和低复杂度的贪婪搜索方法,也为在实际通信系统中部署语义重要性感知机制提供了可行的技术路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号