Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连海事大学刘中常获国家专利权

大连海事大学刘中常获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连海事大学申请的专利一种基于最大熵强化学习的多机器人协同围捕方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116341777B

龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310123207.7,技术领域涉及:G06Q10/047;该发明授权一种基于最大熵强化学习的多机器人协同围捕方法是由刘中常;戴兵;刘田禾;岳伟设计研发完成,并于2023-02-16向国家知识产权局提交的专利申请。

一种基于最大熵强化学习的多机器人协同围捕方法在说明书摘要公布了:本发明提供一种基于最大熵强化学习的多机器人协同围捕方法。本发明方法,包括:建立追逃对抗场景;基于建立的追逃对抗场景和SAC的多智能体强化学习算法,设计适用于多机器人的MASAC算法;基于课程学习的多机器人围捕策略,设计奖励函数;将设计的奖励函数与MASAC算法结合,得到基于MASAC的多机器人协同围捕策略算法。本发明采用基于最大熵的多智能体强化学习算法实现二维场景中多个移动机器人对单个目标的协同围捕;将围捕阶段划分为搜索、围困、转移、捕获四个阶段,并采用课程学习的思想为各个阶段设计奖励函数和转换条件;验证了深度强化学习方法在多追捕机器人围捕快速移动的单逃逸机器人中的有效性,并且效率得到了提升。

本发明授权一种基于最大熵强化学习的多机器人协同围捕方法在权利要求书中公布了:1.一种基于最大熵强化学习的多机器人协同围捕方法,其特征在于,包括: 建立追逃对抗场景; 基于建立的追逃对抗场景和SAC的多智能体强化学习算法,设计适用于多机器人的MASAC算法,包括: 利用集中式训练、分散式执行的框架将强化学习SAC算法扩展到适用于多机器人的MASAC算法,具体包括: 将MASAC的经验池设计为: 其中,表示t时刻所有机器人的观测值集合,表示t时刻所有机器人的动作集合,表示t时刻所有机器人执行各自的动作之后获得的奖励,表示t+1时刻所有机器人的观测值集合; 运用基本的Actor-Critic网络框架为每个机器人设计一个Actor网络和两个Critic网络,其中Actor网络用来学习运动的策略,即根据当前自身的位置和速度,确定下一步的运动方向和加速度,Critic网络用来评判学习到的策略的好坏,即根据包括位置和速度的当前状态以及机器人采取的策略来评判当前状态采取该运动策略的好坏; 在SAC中,引入熵正则化使目标函数的期望最大化,其值函数为: 其中,为折扣因子,为温度参数,为策略的熵;在MASAC中,假设机器人之间的策略彼此独立,联合策略的熵为: 在策略评估阶段,基于贝尔曼最优方程来更新Q值函数,其学习的目标函数为: 其中,是Critic网络参数,是目标Critic网络的参数,是Actor网络参数,D是经验数据,即经验回放池中的数据; 根据目标函数,采取随机梯度下降的方法更新Critic的网络参数: 其中, 在策略改进阶段,采取随机梯度上升的方法来更新Actor网络的参数,学习的目标函数为: 根据上述定义的目标函数,目标函数的梯度为: 温度参数更新方式如下: 最后运用滑动平均的方法对目标网络参数进行更新,用于保证算法的稳定,更新方式如下: 基于课程学习的多机器人围捕策略,设计奖励函数,包括: 设计整体奖励函数: 将每个追捕机器人在第个时间步长内的整体奖励函数表示为: 其中,为围捕奖励,为机器人相互避碰奖励,为场景边界避碰奖励,用于引导机器人避免距离运动场景的边界太近; 设计围捕奖励函数,设计过程如下: 利用课程学习的思想,将多机器人的协同围捕过程分为四种状态,即搜索、围困、转移、捕获;每一个状态对应一个更容易完成的子任务,每一个子任务按顺序完成直到完成最终捕获任务;四种子任务对应四种奖励函数,分别是、、、;首先令等于,使得追捕机器人学会如何形成一个编队来包围逃逸机器人;接着令等于,使得追捕机器人包围逃逸机器人以满足围困条件;然后令等于,追捕机器人将学会缩小包围圈;最后令等于,追捕机器人向逃逸机器人移动,直到捕获任务完成; 设计机器人相互避碰奖励函数,函数定义如下: 其中,为安全距离,为一个负常数; 设计场景边界避碰奖励函数函数定义如下: 将设计的奖励函数与MASAC算法结合,得到基于MASAC的多机器人协同围捕策略算法。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连海事大学,其通讯地址为:116026 辽宁省大连市高新园区凌海路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。