广东工业大学曾碧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东工业大学申请的专利音频多场景化加噪处理方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118737119B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410931675.1,技术领域涉及:G10L13/02;该发明授权音频多场景化加噪处理方法、装置、设备及介质是由曾碧;陈梓浩;林镇涛设计研发完成,并于2024-07-12向国家知识产权局提交的专利申请。
本音频多场景化加噪处理方法、装置、设备及介质在说明书摘要公布了:本申请涉及音频多场景化加噪处理方法、装置、设备及介质,方法包括:音频服务系统获取目标声学场景中的噪声类型以及需要进行音频多场景化加噪处理的原始音频;音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在潜在扩散模型中采用高斯噪声分布和文本嵌入作为起点,逐步生成噪声音频样本;将每条噪声音频样本按照多个预设音量倍数阈值进行复制,以确定多个预设音量倍数阈值相对应的噪声音频样本;在每种噪声类型中随机选取一个或多个预设音量倍数阈值相对应的噪声音频样本,并与需要进行音频多场景化加噪处理的原始音频进行合成,得到加噪音频。本申请能够使模型更好地适应实际环境,提高其鲁棒性。
本发明授权音频多场景化加噪处理方法、装置、设备及介质在权利要求书中公布了:1.一种音频多场景化加噪处理方法,其特征在于,包括: 响应音频多场景化加噪处理指令,音频服务系统获取目标声学场景中的噪声类型以及需要进行音频多场景化加噪处理的原始音频; 所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本,其包括: 所述潜在扩散模型包括扩散过程以及逆扩散过程;在所述扩散过程中,文本嵌入在每个时间步,转移概率由如下公式给出: , , 其中,是预定义的噪声尺度,且满足,表示的重新参数化系数,,表示每一步的噪声水平,表示注入噪声的标准高斯分布,在最后的时间步,具有标准的各向同性高斯分布; 对于模型优化,采用重新加权的噪声估计训练目标: , 其中,是当前参数情况,是注入噪声,是预测噪声,是时间步,是对比文本音频预训练中的预训练音频编码器生成的噪声音频样本的音频嵌入; 在逆扩散过程中,从高斯噪声分布和文本嵌入开始,以所述文本嵌入为条件的去噪过程,通过以下过程逐渐生成音频先验,包括: , , 均值参数化为: , 方差参数化为: , 其中,是预测噪声,在训练阶段,根据所述噪声音频样本的音频嵌入学习生成音频先验,在预测阶段,提供所述文本嵌入来预测噪声; 在对比文本音频预训练中,表示噪声音频样本,表示文本描述,其使用文本编码器和音频编码器分别提取文本嵌入和音频嵌入; 在变分自编码器中,所述变分自编码器由一个编码器和一个带有堆叠卷积模块的解码器组成;所述编码器将梅尔频谱图压缩到潜在空间,其中,表示压缩比;所述解码器从所述潜在扩散模型中生成的音频先验表示构建梅尔频谱图,采用预设的对抗生成网络作为声码器,从所述梅尔频谱图生成噪声音频样本; 所述音频服务系统将每条噪声音频样本按照多个预设音量倍数阈值进行复制,以确定所述多个预设音量倍数阈值相对应的噪声音频样本; 所述音频服务系统在每种噪声类型中随机选取一个或多个预设音量倍数阈值相对应的噪声音频样本,并与需要进行音频多场景化加噪处理的原始音频进行合成,得到加噪音频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东工业大学,其通讯地址为:510000 广东省广州市越秀区东风东路729号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励