首页> 中国专利> 基于深度强化学习的抑制涡致振动的主动流动控制器及控制方法

基于深度强化学习的抑制涡致振动的主动流动控制器及控制方法

摘要

本发明提供一种基于深度强化学习的抑制涡致振动的主动流动控制器及控制方法。本发明的主动流动控制器基于软决策者‑评估者(Soft Actor‑Critic)算法建立深度强化学习决策智能体,通过与流动环境不断交互,以输出鲁棒的实时控制策略。通过建立与圆柱横流向的涡致振动状态以及圆柱表面阻力相关的奖惩函数,动态学习和调整决策智能体中的人工神经网络权重,建立从流动环境速度、压力等流动状态到控制动作的映射关系,从而获得主动流动控制器。利用本发明的主动流动控制器控制圆柱横流向极点上对称安装的吸吹气装置,可以实现圆柱的振动抑制和减阻两个控制目标。

著录项

  • 公开/公告号CN113296408A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202110572871.0

  • 申请日2021-05-25

  • 分类号G05B13/04(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及一种基于深度强化学习的抑制涡致振动的主动流动控制方法,通过决策智能体与流场环境不断交互,动态调整人工神经网络的参数,根据对数值模拟环境的流动状态观测,控制圆柱横流向极点上的吹吸装置,影响圆柱表面涡的脱落和流固耦合过程,从而达到抑制涡致振动和减阻的效果,属于主动流动控制领域。

背景技术

设计主动流动控制策略是一项繁琐的工作。相较于被动流动控制,主动流动控制的作动机构往往更加复杂。因此在设计主动流动控制策略时,设计者还需要设计一种高效鲁棒的负反馈控制策略去抵消作动机构带来的负担。相较于传统的风洞实验,计算流体动力学技术的出现已经为控制策略的探索提供了便利,但是由于流体力学的高维度和强非线性特性导致策略的探索需要大量的计算成本,目前大多数研究中的主动流动控制策略局限于简单的常量或者谐波输入,因此,需要为主动流动控制机构开发一种有效的控制策略探索方法,充分利用主动控制的控制可能性。

发明内容

本发明的目的是为了解决上述技术问题,提供了一种基于深度强化学习的抑制涡致振动的主动流动控制方法。

本发明采用的技术方案如下:

一种基于深度强化学习的抑制涡致振动的主动流动控制器,所述主动流动控制器用于根据圆柱体周围的流场信息输出执行动作控制布置于圆柱体表面的吹吸装置。所述主动流动控制器由人工神经网络组成,通过如下方法训练获得:

步骤S1,构建包含主动流动控制器的决策智能体与涡致振动数值模拟环境。其中,所述涡致振动数值模拟环境用于实时模拟计算圆柱体在最大振动幅度时的流场信息;所述决策智能体中还包含评估者Critic,其中,主动流动控制器作为决策者用于根据圆柱体周围的流场信息输出控制策略,评估者用于根据流场环境信息输出当前状态下采取当前动作的好坏评价,评估者由人工神经网络组成。

步骤S2,涡致振动数值模拟环境模拟计算圆柱体在最大振动振幅条件下的流动情况,当非定常流动以及圆柱横流向运动情况呈现稳定周期性变化时,结束计算并选择其中对应圆柱体质心处于平衡点的时刻作为每一训练幕的初始情况。

步骤S3,开始训练,从每一训练幕的开始,涡致振动数值模拟环境按每个时间步的递进模拟流场变化过程,得到每个时刻的瞬时流场观测状态s

其中Sur是离散控制体的边界面,Vol是离散控制体,U

同时计算当前流动状态-动作的奖惩函数r

r

其中,t表示当前时间步,t=0为训练幕选择的对应圆柱体质心处于平衡点的时间步,force

其中,使用Bellman回溯方程,作为评估者训练的目标函数:

其中,π表示当前决策者的控制策略,ρ

其中,H是在当前状态下的策略π所对应的熵,

根据强化学习的最大化累计收入以及SAC算法最大化熵的思想,决策者Actor的人工神经网络训练的目标函数:

其中,φ表示决策者的人工神经网络的参数。上述目标函数的物理意义是,使期望和转移概率分布越来越接近实际情况。

若达到一幕最大训练时长限制,则结束本次训练幕;否则,若流场为非终止状态,则继续交互、储存经验数据并训练学习。

若训练幕数已经达到指定的最大训练幕数,则结束全部训练过程,输出控制策略至主动流动控制器;否则,回到步骤S2所计算得到的幕初始流动状态,重新选择对应圆柱体质心处于平衡点的时刻开始一次新的训练幕。

进一步地决策智能体的决策者(主动流动控制器)人工神经网络包含三层全连接隐藏层,每层128个神经单元,激活函数为ReLU函数,输入环境状态s,输出动作的平均值μ(s)和标准差σ(s),最终动作可计算为

a=μ(s)+σ(s)⊙z

其中,

进一步地,评估者具有两套人工神经网络,每次使用评估值时选取两套人工神经网络输出的较小的评估值,以降低陷入局部最优解的概率以及最大化探索的范围。

进一步地,采用有限体积法和动网格技术计算圆柱在雷诺数100非定常流动中的流固耦合算例。在基于结构参数的圆柱运动方程中,不同的结构参数将会对应圆柱质心不同的振动幅度以及流动模态:

其中,

进一步地,数值模拟环境基于开源软件OpenFOAM平台搭建而成,使用laminar模型以及pimpleFoam不可压缩瞬态求解器;所使用的动网格求解器为六自由度运动模型求解器,网格最大允许形变范围为7,最小随体运动无形变范围为0.7;运动方程的离散及计算基于线性加速度假设以及使用Newmark-Beta方法,其中,m为10,ξ为0,k为16.78。

决策智能体控制圆柱横流向极点处对称安装的两个吸吹气装置,两个吸吹气装置同一时间的吸吹控制流量之和为零。理由如下:1.避免引入附加质量导致数值计算上的不稳定2.避免在圆柱内腔安置额外的储气空间,减小主动流动控制设备的安装需求。

本发明还提供了一种基于上述主动流动控制器的抑制涡致振动的主动流动控制方法,具体为:

在圆柱体周围布置监测探头,用于实时采集圆柱体的瞬时流场观测状态s

本发明的有益效果为:

1.决策智能体在与数值模拟环境交互过程中,对涡致振动流场的不同流动状态输出特定的控制动作,控制圆柱横流向极点处的吸吹气装置,分别成功地改变了圆柱表面和尾迹中的配置情况。涡强的降低的同时由于脱落涡引起的圆柱振动幅度也随之降低,流固耦合作用减少。

2.决策智能体在抑制涡致振动的同时,改变了圆柱吸吹气装置下游的压强分布,尤其是流动分离点附近的压降梯度降低,圆柱前后表面压力分布更加均匀。由表面压差带来的压差阻力也得到降低。

本发明的主动流动控制器可应用于圆柱体形状的各类物体的主动流动控制中,如海底立式输油管道、圆柱形的建筑和机翼等。

附图说明

图1为本发明的流程图;

图2为圆柱涡致振动问题的计算域和结构振动模型示意图;

图3为不同研究中约化速度与振动幅度对应关系图;

图4为主动控制与无控制的参数变化记录图(动作,质心位移,阻力,升力);

图5为主动控制与无控制的涡量瞬时分布云图;

图6为主动控制与无控制的涡量时均分布云图;

图7为主动控制与无控制的压力均值和标准差分布云图;

具体实施方式

下面结合附图对本发明进行详细的描述。

图1是本申请提供的一种基于深度强化学习的抑制涡致振动的主动流动控制方法流程图。

如图2所示,本实施例考虑一个质量为10千克的弹性安装的圆柱,直径为D=1m,整个流场顺流向长度为29D,横流向宽度为16D,圆柱中心距离上下对称边界的距离均为8D,距离前侧入口边界为8D,距离后侧出口边界为21D。流场参数设置如下:入口边界流速为1m/s,流体密度ρ取为1kg/m^3,运动粘度系数μ取为0.001kg/(m*s),来流雷诺数为100。全流场的数值模拟依托于开源软件OpenFOAM平台,每个时间步长内使用simple稳态算法求解,时间步长使用piso算法,时间步长为0.005秒,使用六自由度模型和动网格技术模拟涡致振动过程。

具体地,强化学习过程包括:

步骤S1,构建决策智能体与涡致振动数值模拟环境。其中,数值模拟环境为圆柱在最大振动幅度时的扰流流场;决策智能体根据环境流动状态控制圆柱横流向极点上的吹吸装置。吹吸装置吹气或者吸气将会改变流场。决策智能体包括决策者Actor和评估者Critic两部分,决策者用于根据环境信息输出执行动作,评估者用于根据环境信息输出当前状态的好坏评价,两者均由人工神经网络组成。其中,φ为决策者人工神经网络的参数,θ为评估者人工神经网络的参数。

步骤S2,计算圆柱在最大振动振幅条件下的流动情况,作为每一训练幕的初始情况。其中,采用开源计算流体动力学软件中的有限体积法和动网格技术计算圆柱在雷诺数100非定常流动中的流固耦合算例。在基于结构参数的圆柱运动方程中,不同的结构参数将会对应圆柱质心不同的振动幅度以及流动模态:

其中,

步骤S3,训练开始,决策智能体输出控制动作。从每一训练幕的开始(即从步骤S2得到的稳定的周期性流动情况),决策智能体接收来自数值模拟环境的t时刻的瞬时流场观测状态s

进行计算一个时间步的流体力学数值模拟。得到下一时刻t+1的瞬时流场观测状态s

r

其中,t表示当前时刻,force表示数值模拟给出的圆柱受力情况(t~t+1时间步内的均值),motion表示圆柱的运动学参数(t~t+1时间步内的均值),bias表示t时间步执行动作的大小,variance表示相邻(t与t-1时间步)执行动作之间的偏差,α、β、γ和δ分别为四部分的权重。

数值模拟环境返回模拟情况。奖惩函数反馈r

使用Bellman回溯方程,给出评估者Critic的人工神经网络的目标函数:

其中,π表示当前决策者的控制策略(载体为神经网络),ρ

其中,r

根据强化学习的最大化累计收入以及SAC算法最大化熵的思想,给出决策者Actor的人工神经网络的目标函数:

其中,π表示当前决策者的控制策略,ρ

若达到一幕最大训练时长限制,则结束本次训练幕;否则,若流场为非终止状态,则从步骤S3中的开始继续交互、储存经验数据并训练学习。

若训练幕数已经达到指定的最大训练幕数,则结束全部训练过程,输出控制策略;否则,回到步骤S2所计算得到的幕初始流动状态,开始一次新的训练幕。

本实施例中,经过大约800幕的训练,将决策智能体参数取出进行单独的控制测试,并与无控制情况进行对比,对比结果如图4所示。主动流动控制策略给出的动作序列同样是一个三角函数形式变化的序列,但是函数的幅值却随流动状况的演变而发生变化,因此可以得出结论,针对涡致振动问题,深度强化学习决策智能体给出了一种时变性非常强的控制函数形式。在这种主动流动控制策略的应用下,圆柱质心的振动幅度最低可以到达0.601,最终以稳定在0.11附近的幅度周期性振荡,相较于无控制振动,下降大约82.7%。在即时奖惩函数中考虑了阻力的影响,主动流动控制下的圆柱的阻力系数急剧下降,到达稳定振动后平均阻力系数为2.035,相较于不受控情况降低17%。

图5是不同流动阶段圆柱周围的涡量瞬时分布云图。在无控制情况和刚开始控制的涡量分布图对比中发现,当涡在上表面或者下表面产生时,这时该表面对应的装置会采用一个吹气的控制策略,该吹出的气体是与生成的涡成相反的方向,因此在产生阶段即抑制涡强;当当涡从上表面或者下表面脱落时,这时该表面对应的装置会采用一个吸气的控制策略,吸入脱落的涡部分气体,同样限制了脱落的涡的强度。在刚开始控制和稳定阶段控制的涡量分布图对比中发现,稳定阶段的控制动作较为温和,而且脱落涡更为紧致,而不是像无控制情况下在横流向上拉得较长,而且紧密地贴合在圆柱下游尾迹的中心线上。

图6是流动的在一个稳定振动周期内平均涡量图。从平均涡量图中可以看出,在主动流动控制下,涡量的分布已经发生了巨大的变化。最大的无控制涡致振动涡街的宽度为4.08,而控制下的涡街宽度的最大涡街宽度仅有2.75,减幅达到32.6%。更明显的是,在下游区脱落涡形成的轨迹中,很明显地看出控制下的脱落涡强度(颜色深浅)及其有限,证明主动流动控制是通过改变脱落涡强度来抑制振动。

如图7所示,涡致振动的圆柱周围压力变化有两个比较剧烈的区域,第一个是圆柱前表面的迎风区域,第二个是圆柱后表面的分离点附近区域。考虑到振动的衰减,因此受控制迎风区域的压强变化平缓也是可以解释的。而圆柱后表面分离区域附近压降梯度减弱,则是主动流动控制的功劳。在两极点平均压力相差不多的情况下,深度强化学习智能体则降低吸吹气装置下游流动分离区域的逆压梯度,这意味着圆柱尾迹压力分布更加平均。当圆柱前后表面压差减小,则直接指向阻力的降低。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号