大连理工大学夏卫国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利基于深度强化学习的无人机辅助通信系统的能量效率优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121508617B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511672325.9,技术领域涉及:H04B7/185;该发明授权基于深度强化学习的无人机辅助通信系统的能量效率优化方法是由夏卫国;祁禹铭;张少卿;杜海燕;孙希明设计研发完成,并于2025-11-14向国家知识产权局提交的专利申请。
本基于深度强化学习的无人机辅助通信系统的能量效率优化方法在说明书摘要公布了:本发明属于无线通信技术领域,具体涉及一种基于深度强化学习的无人机辅助通信系统的能量效率优化方法。本发明建模一个搭载了RIS的UAV辅助通信系统,UAV‑RIS为BS向UE通过下行链路进行通信传输提供了信道增强功能,并且考虑到了干扰机的干扰因素以及RIS具有的能量收集特性。通过精确的系统建模,将复杂的物理层通信与能量传输过程转化为可优化的数学模型。针对最大化能量效率的优化问题,创新地提出了OAN‑SD3算法,通过将原本的高维、混合、非凸问题,转换成了马尔科夫决策过程,再用深度强化学习算法求解,有效解决了传统优化方法难以处理的高维的混合整数非凸优化问题。
本发明授权基于深度强化学习的无人机辅助通信系统的能量效率优化方法在权利要求书中公布了:1.一种基于深度强化学习的无人机辅助通信系统的能量效率优化方法,其特征在于,包括以下步骤: S1:建立UAV-RIS辅助通信系统模型 构建一个包含下行链路通信信道、干扰信号传输信道、能量收集和能耗的完整系统模型; 地面的固定基站BS拥有Z个天线,为地面的M个单天线的地面用户设备UE提供通信服务,无人机UAV上面搭载的可重构智能超表面RIS一共有L个单元,RIS同时具有相位调控和能量收集的能力;此外,空中存在一个干扰机,BS通过UAV搭载的RIS为地面用户服务,同时地面用户受到干扰机通过RIS反射的干扰信号影响;在一个完整的任务中,将总时间划分为K个时隙,索引为,为了描述UAV在时隙内的分段常值位置行为,引入K+1个时隙边界时刻,并令UAV在边界时刻的三维位置分别为,于是在第k个时隙内,UAV的位置视为保持不变且等于,通信信道状态视为不变; 1下行链路通信信道 下行链路通信信道包含BS-UAV链路、UAV-RIS信号增强以及UAV-UE链路; BS-UAV链路在第k个时隙的信道矩阵建模为: ; 其中,表示维的复数集合,即信道矩阵是一个维的复数矩阵,是大尺度衰落,在建模时考虑自由空间路径损耗和视距非视距概率,计算公式为: ; 其中,为发生LoS传输的概率,为发生NLoS传输的概率,为NLoS额外衰减因子,为空对地路径衰减指数,和分别为BS和UAV的位置;为小尺度瑞利衰落,其元素满足复高斯分布; UAV-RIS信号增强由RIS反射系数矩阵表示,它是一个对角矩阵;每个反射单元的特性由描述,其中,表示虚数单位,是第l个单元的连续可调的相位偏移,是控制第l个单元开启或关闭的开关状态,1表示开启,0表示关闭; 对于UAV-UE链路,从UAV-RIS到第m个用户的信道向量采用莱斯衰落模型: ; 其中,表示维的复数集合,为RicianK因子,为大尺度路径损耗,为在第k个时隙UAV到第m个用户的距离,为路径损耗指数,为路径损耗常数,为维的全1列向量,表示小尺度衰落部分,其服从复值高斯分布,且均值向量为L维的零向量、协方差矩阵为维的单位矩阵; 基于以上构建出从BS到UAV,再由UAV-RIS增强,传输给UE的下行通信链路的等效级联通信信道为;再考虑到BS具有Z根天线,采用等功率全向预编码策略,得到从BS到第m个用户的有效标量信道系数为: ; 2干扰信号传输信道 干扰机到UAV的信道同样采用莱斯模型,表示该信道模型是一个维的复数向量,结合下行链路通信模型,得到干扰机到第m个用户的等效干扰信道系数为: ; 3能量收集模型 每个时长为的时隙被划分为能量收集EH阶段和信息传输IT阶段,EH阶段时长为,IT阶段时长为,为可优化的时间分配因子;RIS在时隙k收集的总能量为: ; 其中,和分别是EH和IT阶段接收到的射频功率,是能量转换效率; 4能耗模型 系统的能耗模型考虑UAV推进能耗和BS的发射能耗; UAV推进能耗采用基于飞行速度的物理模型: ; 其中,和分别为悬停状态下的恒定叶型功率和诱导功率,为旋翼桨叶的叶尖速度,为悬停状态下的平均旋翼诱导速度,和s分别为机身阻力比和旋翼实度,为空气密度,为旋翼轮盘面积,R为旋翼半径; BS的发射能耗计算为: ; 其中,为BS在第k个时隙分配给用户m的发射功率; 结合能量收集模型,构建系统的净能耗为: ; S2:构建以能量效率为核心的优化问题 优化目标为最大化一个任务周期内的平均能量效率: ; 其中,为在第k个时隙内的系统能量效率,为在考虑到时间分配因子的情况下,第m个用户在第k个时隙内的有效通信容量,其计算为: ; 其中,为第m个用户通过下行链路进行通信的信道带宽,为干扰机的发射功率视为恒定,为噪声功率,式中向量矩阵的上标H表示对应的原向量矩阵的共轭转置; 优化变量包括四类:时间分配因子,功率分配向量,RIS相位配置向量,RIS开关状态向量,其中,、分别表示M和L维的实数向量空间; S3:将优化问题转化为马尔科夫决策过程 S2中构建出来的优化问题是一个复杂的非凸混合整数非线性规划问题,将其建模成马尔科夫决策过程;为区分通信系统的时间尺度与马尔科夫决策过程的时间尺度,分别使用不同的符号表示时间变量:建立通信模型的时隙用于描述UAV位置、信道状态以及其它系统状态随时间的变化;用于描述马尔科夫决策过程中的时间步,表示智能体与环境进行交互的顺序,智能体为控制决策的主体,即步骤S4中的OAN-SD3算法中的Actor网络;智能体在每个通信时隙开始时执行一次动作,因此每个时隙视为智能体一次决策的最小时间单位,二者满足以下对应关系: ; 即一个通信时隙对应强化学习中的一个时间步,因此,所有在通信模型中以时隙k为索引的变量,在马尔科夫决策过程中均通过时间步t对应地表示;此外,一个回合表示一次完整的任务周期,其时间步的数量固定为K,在时间步执行动作并获得奖励后,回合终止并环境重置; 状态空间的设计主要考虑在时间步t建立通信信道所需要的状态信息,具体为: ; 其中,表示基站BS与UAV的距离,表示干扰机与UAV的距离,表示UAV与第m个用户的距离,表示BS到第m个用户的端到端等效信道系数,表示干扰机发射的信号经RIS反射后到达第m个用户的等效干扰信道系数,表示状态空间为维实数向量空间; 在时间步t的动作空间设计为,即对应原优化问题中所有的优化变量,其中,为时间分配因子,为功率分配向量,为RIS相位配置向量,为RIS开关状态向量; 考虑到优化目标的复杂性,因此设计一种重构的奖励函数,即通信容量奖励与约束违反惩罚的组合,并使用tanh函数压缩至-1,1区间以确保训练的稳定性: ; 其中,为时间步t第m个用户的通信容量,为容量归一化常数,、和为惩罚权重,为违反QoS的惩罚,为总功率超限惩罚,为净能耗过高惩罚; S4:采用OAN-SD3算法进行训练 优化Actor网络的Softmax深度双确定性策略梯度OAN-SD3算法是基于双延迟深度确定性策略梯度TD3算法的优化算法,用于求解S3中建立的问题;首先在TD3算法的基础上,引入了SoftmaxQ值聚合机制,并维护双Actor网络结构,构成了SD3算法,然后再对Actor网络的结构进行优化,得到了完整的OAN-SD3算法; S5:验证在线资源分配策略 首先设置环境参数与训练参数,通过智能体即S4中的OAN-SD3算法中的Actor网络,与环境进行持续交互收集经验数据,其中为在时间步t的环境状态,为智能体执行的动作,为智能体获得的即时奖励,为环境在时间步t+1的状态,表示该任务是否结束;利用OAN-SD3算法进行训练,训练完成后,部署优化后的策略网络进行验证测试,使其能够根据实时感知的系统状态,在线生成最优的资源分配决策,通过动态调整时间分配、发射功率、RIS相位和开关状态,最终实现系统能量效率的持续最大化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励