编辑推荐:
湍流的控制是提高工程系统效率的关键。在这里,作者在数值模拟中表明,使用深度强化学习来控制表面执行器可以成功地减轻湍流分离,为湍流控制的新进展铺平道路。
深度强化学习助力湍流分离泡主动流动控制研究解读
近期,代尔夫特理工大学机械工程学院(Faculty of Mechanical Engineering, Delft University of Technology)的研究人员 Bernat Font 等人在Nature Communications 期刊上发表了题为 “Deep reinforcement learning for active flow control in a turbulent separation bubble” 的论文。该研究聚焦于湍流分离泡的主动流动控制,对降低飞行器能耗、减少二氧化碳排放意义重大,同时也为强化学习在复杂流动控制领域的应用提供了关键理论与实践支撑。
一、研究背景
湍流广泛存在于各类工业过程,对运输行业的能源成本影响深远。以航空业为例,其二氧化碳排放量在运输部门占比达 12%,且大量能源用于克服湍流阻力。在飞机飞行过程中,当气流从机翼表面分离时,会产生湍流分离泡(TSB),导致阻力增加和燃料消耗上升,尤其在起飞、降落及巡航时遭遇大规模湍流的情况下更为明显。因此,优化空气动力学表面的气流,对提高飞行器的气动效率、降低全球二氧化碳排放至关重要。
流动控制(FC)旨在寻找合适策略改变气流特性,分为被动流动控制(PFC)和主动流动控制(AFC)。AFC 可与气流进行闭环交互,在控制 TSB 方面具有显著潜力。传统的 AFC 方法众多,如在壁面附近注入高动量流、使用近壁流动扰流器、等离子体致动器、周期性激励、涡发生器以及类似合成射流的吹气和吸气等。其中,零净质量通量(ZNMF)周期性控制是常用手段,通过设定控制射流的壁面法向速度为正弦函数,在一个驱动周期结束后,射流的质量流量为零。众多研究表明,不同的控制频率对 TSB 的影响各异,如一些研究发现低频率控制对 TSB 分离控制更为有效。
近年来,随着计算能力提升,人工智能尤其是强化学习(RL)在解决流动控制问题方面崭露头角。深度强化学习(DRL)作为 RL 的分支,在无需先验数据训练神经网络的情况下,能在控制过程中实时生成训练数据,进而开发出有效的 AFC 策略。其典型设置包含智能体和环境两个主要实体,二者通过状态、动作和奖励三个通信通道相互作用。在训练过程中,智能体以探索模式运行,通过添加噪声来探索新的动力学机制;训练完成后,则以确定性模式选择最优动作。目前,DRL 在流动控制领域的应用日益广泛,涵盖圆柱体减阻、对流热减少、湍流通道皮肤摩擦系数降低以及湍流建模等多个方面,研究人员也在不断拓展其在更复杂和现实场景中的应用。
二、研究材料与方法
(一)CFD 设置
该研究采用大涡模拟(LES)方法求解具有 TSB 的湍流边界层(TBL)问题。通过求解空间滤波后的不可压缩无量纲 Navier - Stokes 方程,对计算域内的流动进行数值模拟。采用高阶谱元法求解器 SOD2D,在包含 4 阶六面体单元的粗网格和细网格上进行计算。计算域尺寸为
,入口和出口设置 50 长度单位的缓冲区。流动初始化采用 Blasius 边界层,在
处通过特定方法触发层流边界层向湍流的转变。在计算域顶部,采用吸气 - 吹气(SB)方式定义不利压力梯度(APG),同时设置零展向涡度和齐次 Neumann 边界条件。壁面采用经典无滑移边界条件,出口采用基于压力的边界条件和海绵区。在 TSB 上游设置 6 个矩形致动器,用于施加控制作用。经典控制策略采用谐波时间强迫的壁面法向速度,通过参数搜索确定致动幅度和频率,分别为
和
。
(二)DRL 设置
DRL 控制的环境由 CFD 求解器模拟的系统构成,智能体为产生动作概率分布的深度神经网络(DNN)。使用 SOD2D CFD 求解器进行环境模拟,TF - agents 库构建 DRL 模型,借助 SmartSim 库实现两者间的高效通信。将致动器分组为对,以保证空间和时间上的质量守恒,利用流动在展向的不变性,定义 MARL 伪环境,减少输出维度和探索控制策略所需的组合数量。智能体的动作取值范围与经典控制的致动幅度一致,为
,并对离散动作应用指数平滑函数,生成连续平滑的控制信号。
环境状态由分布在特定子域内的测量流向速度的见证点定义,每个 MARL 伪环境的局部状态由与致动器对齐的两个见证点平面组成。奖励基于湍流分离泡的再循环面积计算,通过对局部和全局奖励进行加权求和得到最终奖励,权重参数
设为 0.5。选择近端策略优化(PPO)算法作为优化策略,该算法属于无模型、演员 - 评论家(actor - critic)和在线策略算法,具有可调参数少、适用于连续控制问题等优点。DNN 包含 2 层,每层 128 个神经元,训练时设置 8 个 CFD 模拟并行运行,每个模拟包含 3 个 MARL 伪环境,共采样 24 条轨迹进行批量优化。
三、研究结果
(一)周期性控制
对经典周期性强迫的研究结果作为 DRL 控制的参考。在非驱动模拟达到统计稳定后,对粗网格和细网格施加周期性控制,并记录 15000 个对流时间单位(CTU)的统计数据。研究发现,周期性控制能有效减小 TSB 区域。在细网格上,TSB 面积减少 6.8%,其归一化标准偏差与强迫信号的均方根值相似,表明周期性强迫控制主导了 TSB 动力学。通过对流向速度分量的功率谱分析,可清晰观察到在致动频率
处出现峰值,同时存在高次谐波峰值。
对比粗网格和细网格的结果,发现两者流动结构相似,粗网格上的 TSB 略大,施加周期性控制后,其特征再循环长度减少 15.7%。虽然粗网格在远离壁面处分辨率降低,导致再附着剪切层区域的频谱存在差异,但主要流动特征得以保留,证明粗网格适用于训练 DRL 模型。
(二)DRL 控制
在粗网格上训练 DRL 智能体后,分别在粗网格和细网格上进行测试。在粗网格上,DRL 控制使 TSB 面积减少 25.3%,相比周期性控制效果更显著,且在时间稳定性上表现更佳,再循环泡演变平滑,无明显振荡。这得益于 DRL 控制策略能在空间和时间上瞬时守恒质量,而周期性强迫仅在每个驱动周期内守恒质量。
将在粗网格上训练的智能体直接应用于细网格,无需进一步训练。结果显示,细网格上的 TSB 面积减少 9.0%,优于周期性控制的 6.8%。从定性角度看,DRL 控制下的特征再循环长度时间演化更稳定。通过对控制信号的交叉相关分析和功率谱分析发现,致动器产生了长时间持续的结构,探索了较宽的频率范围,且在自然 TSB 呼吸频率附近出现峰值,信号能量的频谱分布遵循 - 5/3 幂律衰减。时间平均流场证实了致动器对产生流向涡旋结构,这些涡旋与 TSB 相互作用,有效减小了 TSB 面积。
四、研究结论与讨论
本研究对比了经典周期性控制和深度强化学习(DRL)控制在减少由吸气和吹气(SB)边界条件产生的湍流分离泡(TSB)方面的效果。经典周期性控制在细网格和粗网格上分别使 TSB 面积减少约 6.8% 和 15.7%,与以往类似配置的研究结果相符。其频谱分析突出了致动器对流动的影响,粗网格结果验证了其用于后续 DRL 模型训练的可行性。
DRL 控制成功学习到有效策略,在粗网格和细网格上分别使 TSB 面积减少 25.3% 和 9.0%。与周期性控制相比,DRL 可根据环境状态设置最优致动器质量流量,构建包含多个频率的复杂控制信号。对控制策略的物理解析表明,每个 DRL 控制的致动器对能产生长时间持续的流向涡旋结构,类似于基于流向涡旋的传统分离控制技术,且 DRL 控制器能自主发现该策略,并通过在控制信号中融入复杂高频特征稳定涡旋。
为实现该研究,研究团队开发了开源框架 SmartSOD2D,将 DRL 库与 CFD 求解器相结合。该框架充分利用 GPU 进行 CFD 模拟,具有出色的可扩展性,适用于下一代百亿亿次计算设备,为高雷诺数流动和复杂几何形状的主动流动控制应用 DRL 技术开辟了道路。同时,框架融入 MARL 方法,对处理具有空间不变性的问题及在分布式输入 - 输出系统中实现有效学习至关重要。
该研究成果在多个领域具有重要意义。在航空航天领域,有望通过优化机翼气流控制,降低飞机阻力和燃料消耗,减少二氧化碳排放;在工业领域,为各类涉及湍流流动的设备提供了更高效的流动控制策略,有助于提高能源利用效率;在学术研究方面,为深度强化学习在复杂流动控制中的应用提供了成功范例,推动了相关理论和技术的发展,为后续研究奠定了坚实基础。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》