新疆大学胡英获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉新疆大学申请的专利基于全局-局部特征再校准的多声源定位与检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117612557B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311579471.8,技术领域涉及:G10L25/51;该发明授权基于全局-局部特征再校准的多声源定位与检测方法是由胡英;马梦溱;黄浩;何亮设计研发完成,并于2023-11-24向国家知识产权局提交的专利申请。
本基于全局-局部特征再校准的多声源定位与检测方法在说明书摘要公布了:本发明公开了一种基于全局‑局部特征再校准的多声源定位与检测方法,包括计算一阶立体声格式的多通道空间音频信号的短时傅里叶变换,获得log线性频谱和归一化的声强向量作为输入特征后,对训练集的特征做数据增广;将增广后的频谱和声强向量拼接作为神经网络模型的输入,对神经网络模型进行训练,获得最优的网络模型参数并保存;对待测试样本进行预处理后送入训练好的模型中,输出获得预测的声音事件类别和位置信息,根据预测结果绘制声音事件检测图、方向角和方位角轨迹曲线图,并与测试样本真实标签的可视化图像进行对比,分析模型的性能。本发明可以达到较高的声源定位与检测性能,模型在真实和合成数据集上都表现出较好的泛化性。
本发明授权基于全局-局部特征再校准的多声源定位与检测方法在权利要求书中公布了:1.一种基于全局-局部特征再校准的多声源定位与检测方法,其特征在于,包括: 计算一阶立体声格式的多通道空间音频信号的短时傅里叶变换,获得log线性频谱和归一化的声强向量作为输入特征后,对训练集的特征做数据增广; 将增广后的频谱和声强向量拼接作为神经网络模型的输入,对所述神经网络模型进行训练,获得最优的网络模型参数并保存; 对待测试样本进行预处理后送入训练好的模型中,输出获得预测结果,根据所述预测结果绘制声音事件检测图、方向角和方位角轨迹曲线图,并与测试样本真实标签的可视化图像进行对比,分析模型的性能; 将增广后的频谱和声强向量拼接作为神经网络模型的输入,对所述神经网络模型进行训练的过程包括: 将数据增广后的特征作为神经网络模型的输入;其中,所述输入特征由log线性频谱和归一化声强向量拼接得到,具有七个通道;数据集中包含每个样本的标签文件,所述标签文件记录了声音事件类别和声源位置信息,用于监督学习; 所述输入特征通过Encoder模块对特征做初步的处理后,通过全局-局部特征提取器并行获取包含全局和局部信息的高级特征; 基于所述高级特征,通过特征再校准模块沿着多个维度强调特征图中的关键成分,得到再校准后的精细特征; 所述神经网络模型最终沿着声音事件检测和声源定位分支,分别输出预测的声音事件类别和声源的位置信息,采用联合优化策略,加权计算声音事件检测分支和声源定位分支的损失函数,对应获得二元交叉熵损失和均方误差,线性组合所述二元交叉熵损失和均方误差作为最后的损失函数,并根据最后的损失函数来更新网络参数; 所述输入特征通过Encoder模块对特征做初步的处理后,通过全局-局部特征提取器获取高级特征的过程包括: 将增广后的输入特征送入网络,首先,编码器结构对特征做初步的处理用于浅层特征提取,编码器结构由两个卷积层和一个核大小为2x2的平均池化操作组成,每个卷积层包含一个卷积核大小为3x3的卷积神经网络,一个批归一化层和一个高斯误差线性单元激活函数;所述编码器中每个卷积层之后没有残差连接; 随后,将所述特征送入一个带残差的全局-局部特征提取器对特征进行深层次的处理;所述全局-局部特征提取器包括由全向动态卷积和多尺度特征提取模块组成的主干分支和一个局部特征提取单元,通过所述主干分支提取全局特征,局部特征提取单元提取局部特征后,最后通过注意力特征单元有选择地融合所述全局特征和局部特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人新疆大学,其通讯地址为:830049 新疆维吾尔自治区乌鲁木齐市水磨沟区华瑞街777号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励