Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军国防科技大学何玉麟获国家专利权

中国人民解放军国防科技大学何玉麟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军国防科技大学申请的专利一种基于强化学习的威胁物体检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121415369B

龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511389846.3,技术领域涉及:G06V20/58;该发明授权一种基于强化学习的威胁物体检测方法是由何玉麟;陈微;王浩天;周雯涓;李霖;丁瑞华;寻天赐设计研发完成,并于2025-09-26向国家知识产权局提交的专利申请。

一种基于强化学习的威胁物体检测方法在说明书摘要公布了:本发明公开了一种基于强化学习的威胁物体检测方法,目的是提高自动驾驶领域威胁物体检测准确度。技术方案是构建由策略模型、奖励值计算模块、群体优势计算模块和策略模型更新模块组成的基于强化学习的威胁物体推理检测系统。对该系统中策略模型进行训练,得到具有威胁推理和威胁物体感知能力的训练后的威胁物体推理检测系统。最后采用训练后的威胁物体检测系统进行威胁物体检测,得到威胁物体的边界框和威胁等级。本发明使多模态大语言模型能够基于驾驶场景的上下文信息实现细粒度物体级威胁推理,显著提升自动驾驶系统对威胁语义的理解能力和威胁物体的感知能力,提高自动驾驶领域威胁物体检测准确度。

本发明授权一种基于强化学习的威胁物体检测方法在权利要求书中公布了:1.一种基于强化学习的威胁物体检测方法,其特征在于包括以下步骤: 第一步,构建基于强化学习的威胁物体推理检测系统;威胁物体推理检测系统由策略模型、奖励值计算模块、群体优势计算模块、策略模型更新模块组成;奖励值计算模块、群体优势计算模块、策略模型更新模块仅在策略模型训练时使用,其中,奖励值计算模块由文本解析模块、输出格式奖励值计算模块、不重复输出奖励值计算模块、预测数量奖励值计算模块和一个加法器组成; 策略模型与奖励值计算模块、策略模型更新模块相连,策略模型接收用户输入的图像和提示文本,对输入的图像和提示文本进行多模态信息处理;在策略模型训练时,策略模型对用户输入的提示文本和图像生成一批候选输出文本,得到输出文本集合,将输出文本集合发送给奖励值计算模块;策略模型从策略模型更新模块接收更新策略模型的优化损失值,根据优化损失值更新策略模型权重,得到训练后的策略模型;在训练后的策略模型对用户输入的提示文本和图像进行威胁物体检测时,策略模型对提示文本和图像进行多模态处理,得到输出文本;奖励值计算模块中的文本解析模块接收输出文本进行文本解析,得到图像级别的威胁推理内容、物体级别的边界框预测、物体级别的威胁等级预测、物体级别的威胁推理内容,将物体级别的边界框预测和物体级别的威胁等级预测作为最终输出;威胁等级包括高威胁、中威胁、低威胁; 奖励值计算模块对从策略模型接收的输出文本集合进行奖励值计算,得到输出文本集合中每个文本对应的奖励值,形成最终奖励值列表; 群体优势计算模块计算最终奖励值列表中所有最终奖励值的均值和标准差,并将最终奖励值列表标准化,得到每一个最终奖励值相对于群体的优势表现; 策略模型更新模块接收用户输入的参考模型,对相对群体优势值列表计算优化损失值,用于梯度反向传播更新策略模型的权重参数; 第二步,构建训练集和测试集,方法是: 步骤2.1收集自动驾驶场景的少见类图像作为威胁物体推理检测数据集,得到威胁物体推理检测系统的训练数据集和威胁物体推理检测测试数据集;对进行人工标注和复审,得到复审后的,令为; 步骤2.2对训练数据集的图像和的图像进行预处理,得到预处理后的训练数据集和预处理后的复审后的测试数据集; 第三步,利用梯度反向传播方法采用基于强化学习的威胁物体检测系统对策略模型进行训练,得到训练后的策略模型,也得到训练后的基于强化学习的威胁物体检测系统;方法是: 步骤3.1初始化基于强化学习的威胁物体检测系统中策略模型和参考模型的权重参数;采用VisionReasoner模型的权重参数初始化策略模型和参考模型的权重参数; 步骤3.2设置基于强化学习的威胁物体检测系统训练参数;选用AdamW作为模型训练优化器,网络训练的批次大小为正整数;初始化GRPO的群体采样数量S为正整数; 步骤3.3训练基于强化学习的威胁物体推理检测系统,方法是通过奖励值计算模块计算当前输出文本集合的最终奖励值列表,再由群体优势计算模块计算得到相对群优势值集合,利用策略模型更新模块计算优化损失值并更新策略模型,直到训练结束,得到训练后的策略模型;具体方法如下: 步骤3.3.1初始化批次序号=1;策略模型读取用户输入的第批次中的提示文本;的内容包括角色提示词、任务提示词、输出格式提示词; 步骤3.3.2策略模型从预处理后的训练数据集读取第批次中的输入图像,共个图像,将这个图像记为大小为的矩阵形式;其中的H表示输入图像的宽,W表示输入图像的高,“3”代表图像的RGB三个通道; 步骤3.3.3策略模型对和进行多模态处理,得到输出文本集合,拥有S个群体优势采样的输出文本;将发送给奖励值计算模块;策略模型根据输出格式提示词要求的格式进行输出; 步骤3.3.4奖励值计算模块接收,采用无监督的奖励值计算方法计算S个输出文本对应的奖励值;其中,文本解析模块解析出输出文本的内容,并以JSON格式的键值对输出,得到解析后的输出文本集合,内容包括每一个输出文本的图像级别的威胁推理内容和物体级别的回答内容,物体级别的回答内容由物体级别的边界框预测、物体级别的威胁等级预测、物体级别的威胁推理内容组成;输出格式奖励值计算模块、不重复输出奖励值计算模块、预测数量奖励值计算模块分别同时对中的S个输出文本计算奖励值,再由加法器进行求和作为最终奖励值,得到S个最终奖励值组成的最终奖励值列表,=[,…,,…,],是第i个最终奖励值;将发送给群体优势计算模块; 步骤3.3.5群体优势计算模块从奖励值计算模块接收,根据计算的优势值,得到对应的优势值,将优势值列表发送给策略模型更新模块,; 步骤3.3.6策略模型更新模块接收用户输入的参考模型,从群体优势计算模块接收,采用GRPO强化学习算法,鼓励策略模型在群体中生成具有更高优势的回答,同时缩小当前策略模型输出的文本概率分布偏离参考模型输出的文本概率分布的程度即KL散度值,为参考模型的权重参数,为需要更新的策略模型的权重参数;计算优化损失值: ,11; ,12; 公式11中的表示输入的查询值,由用户输入的图像和提示文本组成,表示第i个输出文本;表示加权后的优势值,对应策略模型在群体中生成的具有更高优势的回答,表示当前策略模型与冻结的参考模型的输出文本差异,表示用clip即截断操作对极端优势值进行裁剪,从而防止训练不稳定;公式12中的是截断参数;公式11中的则是通过KL散度对当前策略模型权重参数偏离参考模型权重参数的程度进行惩罚,以维持训练稳定性;是权衡和贡献的参数; 步骤3.3.7采用,利用AdamW优化器通过梯度反向传播方法优化策略模型的权重参数,得到第个批次训练后的策略模型; 步骤3.3.8若,令,转步骤3.3.2;若,保存训练后的策略模型参数权重,得到训练后的策略模型,也得到训练后的基于GRPO强化学习算法的威胁物体推理检测系统; 第四步,采用训练后的基于GRPO强化学习算法的威胁物体推理检测系统对用户输入的汽车前置摄像头采集的待检测图像进行威胁物体检测,得到威胁物体的物体框坐标和威胁等级,方法是: 步骤4.1训练之后的策略模型接收用户输入的待检测图像和提示文本,对待检测图像和输入文本进行多模态处理,得到的文本输出; 步骤4.2奖励值计算模块的文本解析模块接收,解析出中的图像级别的威胁推理内容、物体级别的威胁推理内容、物体级别的边界框预测和物体级别的威胁等级预测;并将物体级别的边界框预测和物体级别的威胁等级预测作为最终预测结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。