中北大学郭泰杉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中北大学申请的专利一种基于强化学习的通用控制系统策略优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121635054B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610167076.6,技术领域涉及:G05B19/042;该发明授权一种基于强化学习的通用控制系统策略优化方法是由郭泰杉;王明泉;孙钦;郭朝晖;郭松波设计研发完成,并于2026-02-05向国家知识产权局提交的专利申请。
本一种基于强化学习的通用控制系统策略优化方法在说明书摘要公布了:本发明涉及工业自动化与智能控制技术领域,具体是一种基于强化学习的通用控制系统策略优化方法,该方法首先采集系统运行数据,并构建强化学习的状态向量,使强化学习智能体能够充分理解系统当前的运行情况。随后,将该状态向量输入强化学习策略网络,由网络生成用于调整控制策略的动作,该动作可用于修改PID的比例、积分或微分系数,也可用于调整模型预测控制的预测步长、权重系数或约束强度,从而增强控制器对外界变化的适应能力;然后,根据基准控制器的响应结果构建奖励信号;奖励函数综合考虑误差大小、稳态特性、系统能耗、控制平滑度以及稳定性要求,使强化学习在优化策略时不仅关注误差最小化,同时兼顾能耗低、动作平滑以及抗扰性。
本发明授权一种基于强化学习的通用控制系统策略优化方法在权利要求书中公布了:1.一种基于强化学习的通用控制系统策略优化方法,其特征在于:包括以下步骤: 步骤S1:根据被控对象的类型和控制目标,确定基准控制器结构,并进行初始化与参数设定; 步骤S2:在每个采样周期,采集被控对象的输出、期望值、控制输入以及与工况相关的特征量,计算误差和误差变化量,将其与历史信息、工况特征共同组合成状态向量,并进行归一化或标准化处理;与工况相关的特征量包括负载、电流、温度、压力、转速; 步骤S3:将状态向量输入策略网络,生成动作;当采用参数修正模式时,则由更新控制器参数并计算控制输入;当采用增量补偿模式时,则根据: ; 得到最终控制输入,其中,为基准控制器在时刻的输出;为动作的分量; 为保证控制安全性,对动作向量进行幅值约束与变化率约束,使其满足: ; 其中,:单步补偿单步动作最大幅值;为输入变化率上限;且超出部分进行截断或投影处理; 步骤S4:将最终控制输入通过控制器执行模块作用于被控对象,被控对象在时刻产生新的状态和输出;同时采集能反映能耗、振荡程度或约束违背情况的附加指标,用于后续奖励计算; 步骤S5:根据时刻的误差、控制增量及稳定性指标,计算即时奖励: ; 其中,为即时奖励;为误差惩罚权重,误差越大惩罚越大;为控制增量惩罚权重,控制变化越猛惩罚越大,用于抑制抖动;为稳定性安全惩罚权重;或补偿量,用于衡量控制输入变化;为稳定性惩罚项,当触发安全条件时增大; 若基准控制器状态或控制量超出预设安全范围,则增大的值以增强惩罚;使强化学习智能体在获得较高奖励时对应于误差较小、控制平滑且满足稳定性要求的控制动作; 步骤S6:基于当前状态、动作、奖励以及下一时刻状态,计算时序差分误差,并更新价值函数网络参数与策略网络参数;在采用近端策略优化形式时,对策略更新幅度进行裁剪,避免单次更新过大; 步骤S7:重复步骤S2至步骤S6,在控制系统持续运行过程中,强化学习智能体不断根据新采集的数据更新其策略,使控制器参数或控制输入逐步趋于适应当前工况的最优或次优状态,从而实现控制性能的在线自适应优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中北大学,其通讯地址为:030051 山西省太原市尖草坪区学院路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励