基于CNN-Transformer增强A2C框架的大规模MU-MIMO低复杂度波束成形用户调度方法

《Journal of Communications and Networks》:Deep reinforcement learning-based user scheduling methods with low-complexity beamforming for massive MU-MIMO systems

【字体: 时间:2025年11月27日 来源:Journal of Communications and Networks 3.2

编辑推荐:

  为解决大规模多用户多输入多输出(MU-MIMO)系统中高计算复杂度与用户公平性难以兼顾的挑战,本研究创新性地将卷积神经网络(CNN)与Transformer架构融入优势行动者评论家(A2C)框架,提出一种混合型深度强化学习调度器。通过CNN提取局部信道状态特征,Transformer动态建模用户间依赖关系,结合最大比合并(MRC)和迫零(ZF)波束成形技术,实现了频谱效率(SE)与Jain公平指数(JFI)的均衡优化。仿真表明该方法在动态信道环境下能快速收敛,为6G+网络资源管理提供了新思路。

  
在万物互联的智能时代,无线通信网络如同城市的交通系统,需要同时服务海量用户并确保资源分配的效率与公平。大规模多用户多输入多输出(MU-MIMO)技术作为5G/6G通信的核心,通过基站配置数十至数百根天线,理论上可大幅提升网络容量。然而,随着用户数量激增,传统调度方法如贪婪算法、轮询(RR)和比例公平(PF)暴露出明显局限:它们或偏向信道条件优越的用户导致公平性失衡,或因算法迭代次数随用户数指数增长而面临“维度灾难”,难以在动态信道环境中实现多维度性能指标的平衡。
更严峻的是,现有深度学习方案通常将用户调度简化为单次组合优化问题,依赖高质量标注数据,在用户移动性引发的信道非平稳场景中泛化能力不足。如何让调度系统具备“终身学习”能力,在保证频谱效率(SE)的同时维护长期用户公平性,成为制约大规模MU-MIMO系统性能的瓶颈。这一挑战在高速移动场景下尤为突出,因为多普勒效应会使信道特性快速变化,要求调度策略具备毫秒级响应能力。
针对这一难题,哈尔滨工程大学水声工程学院的研究团队在《Journal of Communications and Networks》上发表了一项创新研究,提出一种基于深度强化学习(DRL)的智能调度框架。该研究的核心思想是将调度问题建模为马尔可夫决策过程(MDP),通过优势行动者评论家(A2C)算法让智能体在与无线环境的持续交互中学习最优策略。研究团队设计了三项关键技术突破:首先,将CNN的空间特征提取能力与Transformer的序列建模能力融合,构建了名为Conformer的策略网络;其次,设计了融合SE与Jain公平指数(JFI)的多指标奖励函数;最后,整合了数字/模拟最大比合并(MRC)和迫零(ZF)等低复杂度波束成形技术,为算法落地提供硬件支持。
关键技术方法包括:1) 构建混合CNN-Transformer策略网络,通过卷积层提取信道矩阵的局部特征,利用自注意力机制动态建模用户间干扰关系;2) 设计基于乘积形式的奖励函数Rt=SEt·fairt+fairpenaltyt+endpenaltyt,引入约束惩罚项控制同时调度用户数不超过天线数M;3) 采用自回归解码器将组合优化问题转化为序列决策问题,通过掩码机制避免用户重复选择;4) 在Rayleigh信道和具多普勒效应的射线信道两种模型下验证算法鲁棒性。
系统模型与问题建模
研究考虑上行单小区MU-MIMO系统,基站配置M根天线,服务N个单天线用户(K≤min(N,M))。信道模型包含路径损耗、阴影衰落和多普勒频移,用户位置基于约束马尔可夫过程更新。通过推导迫零(ZF)波束成形下的信干噪比(SINRkZF=p/[(HHH)-1]kk)和MRC方案,建立频谱效率(SE)与公平性的联合优化目标。
A2C调度框架设计
状态空间包含信道矩阵H∈CM×N×2和用户累计吞吐量Jt;动作空间采用多离散编码表示用户选择;奖励函数创新性地将瞬时SE与历史公平性相乘,并设置硬件约束惩罚。实验表明,完整奖励函数相比无惩罚版本将违规率从47.5%降至12.4%,公平性从0.69提升至0.94。
Conformer策略网络架构
编码器通过卷积层处理信道实部/虚部,采用“马卡龙结构”交替堆叠前馈网络(FFN)、多头自注意力(MHSA)和卷积层,输出用户嵌入向量。解码器通过位置编码(PE)实现自回归生成,使用掩码注意力机制避免重复选择。该设计将组合复杂度从O(2M)降至O(M2×d)。
性能验证与对比
在70用户/32天线场景下,CNN-Transformer网络(A2C-Proposed)相比指针网络(PN)、多层感知机(MLP)等基线方法,奖励收敛速度提升约40%,在Rayleigh信道中SE达8.20 bps/Hz,公平性指数0.94。在射线信道中,ZF波束成形下SE较PF算法提升约12%,且用户速率分布更分散,体现更优的公平性。
计算效率分析
策略网络推理复杂度由卷积O(n×K2×Cin×Cout)、自注意力O(n2×d)和FFN O(n×d2)构成,结合ZF波束成形的O(M3)复杂度,整体仍满足实时调度需求。实际测试中单次决策耗时0.27秒,显著低于贪婪算法(0.73秒)和PF算法(0.61秒)。
研究结论表明,该框架首次实现了CNN与Transformer在MU-MIMO离散调度决策中的有效融合,通过多指标奖励函数平衡了系统吞吐量与用户公平性。其价值在于为6G+超密集网络提供了可扩展的智能调度范式,尤其适用于高频移动场景。未来研究方向包括引入图神经网络(GNN)建模用户空间拓扑关系,以及开发混合强化学习框架提升样本效率。这项技术对实现环境感知网络、支撑5G-Advanced大规模机器通信(mMTC)具有重要实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号