西安理工大学;广西东信易通科技有限公司邱原获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学;广西东信易通科技有限公司申请的专利一种基于多路卷积网络的端到端语音识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116524914B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310423069.4,技术领域涉及:G10L15/16;该发明授权一种基于多路卷积网络的端到端语音识别方法是由邱原;肖浩;魏锦波;刘作;黎聪;寇佳威;赵中麒;贺胡松设计研发完成,并于2023-04-19向国家知识产权局提交的专利申请。
本一种基于多路卷积网络的端到端语音识别方法在说明书摘要公布了:本发明公开了一种基于多路卷积网络的端到端语音识别方法,专门针对中文语音识别过程中对于汉语发音中发音单元粗粒度化的识别改进,采用多路卷积网络MCNN对于语音数据从发音的时间帧和发音的频率谱的方向进行特征提取;在transformer的输入前端增加一个MCNN的多路卷积网络以此提前获取语音的局部特征,输入transformer网络中进行语音识别的训练,并在Encoder层后还增加了一个CTC结构,最后利用联合训练模型以CTC为辅助训练,从而加快整体模型的收敛速度。通过大量实验证明了本发明具有更强的鲁棒性和超过一般语音识别模型的识别率,并且因为模型可以模块化组成,为后期的改进提供了更强的可行性。
本发明授权一种基于多路卷积网络的端到端语音识别方法在权利要求书中公布了:1.一种基于多路卷积网络的端到端语音识别方法,其特征在于,包括如下步骤: 步骤1:通过重采样的方式将所有语音数据的采样率全部转化为aHz; wav=resampelwav,a 步骤2:对重采样后的语音数据wav进行语音预处理; 采用Fbank的输出模式;第一步为预加重处理,将语音信号通过一个高通滤波器对语音信号中低频波段进行滤波;第二步将通过高通滤波器的语音信号进行分帧处理,把不定长的音频切分成固定长度的小段,得到分帧后的语音信号,然后设置一个滑动汉明窗函数对这些分帧语音信号进行傅里叶变换,将语音数据从时域信号转变成频域信号,最后将获取的频域信号通过对数梅尔谱滤波完成Fbank的计算; wav_frame=hammingwav,10ms wav_data=fftwav_frame wavFbank=log_melwav_data 步骤3:经过步骤2对语音数据进行Fbank处理后的得到一个频谱特征为80维的语音数据wavFbank[batch_size,wav_input,80],其中barch_size表示每批处理的数据量大小,wav_input表示输入的语音长度; 将所有的语音数据都进行长度填充,使wav_input的维度达到200: wav_data′[batch_size,200,80] =paddingwav_data[batch_size,wav_input,80] 步骤4:将步骤3得到的语音数据输入到多路卷积网络MCNN中; 语音数据分别输入到三个通道,三个通道的结构相同;先进入第一层二维卷积CNN层中,其中每个卷积层都附带一个批次归一化BatchNorm2d和Relu激活函数,每个CNN都有16个滤波器组,每个滤波器内核大小为3*3,步长为1;第一层二维卷积CNN层输出之后再输入到第二层与第一层完全相同的二维卷积层中,再输入2维最大池化层Maxpool,接下来输入失活率为0.3的Dropout层,语音数据的参数变为[1,100,40,16],四个参数中第一个为bitchsize大小,第二个为音频长度,第三个为音频的特征维度,第四个为卷积层的滤波器大小;然后继续输入第三层Conv2D二维卷积层中,相比第一层只改变卷积层中滤波器组的数量为32,输出语音数据的参数变为[1,50,20,32];再经过两个卷积层后,最后进入第六层Conv2D二维卷积层中,相比第一层只改变卷积层中滤波器组的数量为64个,输出语音数据的参数为[1,25,10,64];最后进入reshape层中重新合并语音数据wav_data[1,25,640]; wav_data′i=MaxpoolBatchNorm2dReluConv2Dwav_data′,epsolon=0.0002,pool_size=[2,2] wav_datai=reshape1,25,640wav_data′ii=1,2,3表示3个通道; 步骤5:将三个通道输出的语音数据进行合并Merge操作,保持输入的语音长度维度不变,将频谱特征的维度进行合并输出,再进入全连接层FC中,第一层全连接层Dense1的input=1920、output=1024,第二层全连接层Dense2的input=1024,output=512,第三层全连接层Dense3的input=512、output=320,其中每两个全连接层之间都附带一个批次归一化BatchNorm2d和Relu激活函数,最终输出wav_data″[1,25,320]; wav_data″=FCMergewav_data1,wav_data2,wav_data3 步骤6:构建基于Transformer模型的语音识别网络,包括编码器和解码器,其中编码器和解码器都由多头注意力机制MHA实现;编码器和解码器均由一个多头注意力机制和一个位置前馈网络FFN模块组成,在每个子层后都使用残差连接和层归一化; 将经过多路卷积网络MCNN层输出的数据传入Transformer模型中,其中编码器会将输入的语音数据wav″data=X1,X2,…,XT通过多头注意力机制映射到隐空间状态h1,h2,…,hN;然后解码器通过提供的文本标签labelY1,Y2,…,YL联合编码器层输出隐空间状态h1,h2,…,hN解码,最终预测得到目标序列pre_labelTY1,Y2,…,YL; wav_data″′h1,h2,…,hN=EncoderX1,X2,…,XT pre_labelTY1,Y2,…,YL=DecoderY1,Y2,…,YL-1,h1,h2,…,hN 步骤7:将编码器所获取的隐状态转移矩阵h1,h2,…,hN输入到CTC结构中,利用CTC的前后向算法强制语音和标签序列之间的单调对齐,其中CTC采用贪心搜索greedy_search的方法: pre_labelCY1,Y2,…,YL =CTC_greedy_searchY1,Y2,…,YL-1,h1,h2,…,hN LMTL=λLCTC+1-λLattention 其中λ为超参数,LCTC表示CTC损失函数,Lattention表示注意力损失函数,LMTL表示两者相加的多任务损失函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学;广西东信易通科技有限公司,其通讯地址为:710048 陕西省西安市金花南路5号西安理工大学金花校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励