吉林大学王世刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利基于跨层多尺度通道相互注意学习的人脸表情识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116740793B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310942697.3,技术领域涉及:G06V40/16;该发明授权基于跨层多尺度通道相互注意学习的人脸表情识别方法是由王世刚;陈思妤;韦健;赵岩设计研发完成,并于2023-07-31向国家知识产权局提交的专利申请。
本基于跨层多尺度通道相互注意学习的人脸表情识别方法在说明书摘要公布了:基于跨层多尺度通道相互注意学习的人脸表情识别方法属图像处理和模式识别技术领域,本发明使用CMSCMAL‑Net模型,完成对自然场景下人脸表情的识别,在表情模糊或存在遮挡情况下有较好的鲁棒性。本发明引入多尺度通道注意力机制改进主干网络,在局部特征和全局特征相结合的基础上保留和突出低层特征中的细微细节,同时将主干网络从浅到深划分成不同的阶段,浅层阶段学习低层的细节信息,深层阶段学习高级抽象语义信息,并采用渐进多步骤策略进行训练使不同阶段能够互补信息,提升模型的识别效果。本发明为人脸表情识别提供一种细粒度方向的模型,能够更好地捕捉到人脸表情的微妙变化,提高自然场景下人脸表情的识别率。
本发明授权基于跨层多尺度通道相互注意学习的人脸表情识别方法在权利要求书中公布了:1.基于跨层多尺度通道相互注意学习的人脸表情识别方法,其特征在于包括下列步骤: 1获取人脸表情图像数据库,划分训练集和测试集; 2将步骤1的人脸表情图像进行预处理:使用MTCNN方法对人脸表情图像进行检测、对齐、裁剪,去除多余背景信息,得到放大的人脸表情图像; 3数据增强:对步骤2预处理得到的人脸表情图像进行数据增强,增强方式包括随机翻转和随机裁剪; 4构建CMSCMAL-Net模型:CMSCMAL-Net模型的各项设置,包括下列步骤: 4.1构建Backbone骨干特征提取网络:Backbone骨干特征提取网络用于对输入图像进行特征提取,该部分的总体结构为ResNet50,ResNet50的构建包括下列步骤: 4.1.1ResNet50是一种深层的卷积神经网络,其特点是引入残差结构形成残差网络,在模型正向和反向传播的过程中,具有跳跃连接的信息传播通路,能有效避免深层神经网络常见的梯度消失和梯度爆炸的现象,加深模型的深度而进行高效的特征提取; 4.1.2残差网络的最基本结构是残差块,残差块分为主路径和残差路径;主路径中顺序结构由卷积核大小为1×1的卷积层、批标准化层、ReLU激活函数层、卷积核大小为3×3的卷积层、批标准化层、ReLU激活函数层、卷积核大小为1×1的卷积层、批标准化层和ReLU激活函数层组成,并按自上而下的顺序排列;残差路径是从主路径的输入到输出之间跳跃连接的加和结构; 4.1.3残差网络通过堆叠残差块结构,对输入的RGB图像进行处理,最终得到通道数为2048,下采样率为32的深层特征;由于特征图的空间大小从浅阶段向深阶段减小,将不包括完全连接分类器的ResNet50的层分为5个阶段,并设为:stage1、stage2、stage3、stage4、stage5; 4.2构建跨层多尺度通道注意结构:利用ResNet50的不同阶段特征和多尺度通道信息,设计跨层多尺度通道相互注意结构,包括下列步骤: 4.2.1多尺度通道注意力模块设计:通过改变空间池大小,能在多个尺度上实现通道注意力,利用每个空间位置的逐点通道交互进行逐点卷积,将逐点卷积作为局部通道信息聚合器,添加到注意力模块内的全局信息中;为了保存参数,通过瓶颈结构计算局部特征的通道注意力其中:X∈{x1,x2,…,xn,…xN}为中间特征图,其表达式为: 其中:PWConv1和PWConv2的内核大小分别为:和 由输入的X先进行一次全局平均池化操作,再进行与局部特征的通道注意力相同的逐点卷积操作能够得到全局特征的通道注意力结合局部信道上下文用sigmoid函数归一化,得到多尺度通道注意力模块M的细化特征: 其中:表示M生成的注意力权重;表示广播加法;表示逐元素乘法; 4.2.2多粒度特征区域生成:将细化特征χ输入到卷积层中,卷积层的核大小为其中:1×1是空间大小;Cn是输入通道的数量,是输出通道的数量,经过批标准化运算和Elu运算,得到中间特征图xn‘;然后,将特征xn‘输入到卷积层中,卷积层的核大小为其中:3×3是空间大小;是输入通道的数量;Cn是输出通道;再进行批标准化运算和Elu运算,得到中间特征图xn‘’,最后进行最大池化操作; 4.2.3注意区域生成:首先是基于xn‘’为类别kn生成类激活图--CAM,特定类别的CAM用于识别该类别的判别图像区域,定义为: 其中:坐标α,β表示xn‘’和Φn的空间位置;pn表示与类别kn相对应的基于全连接层的分类器的分类预测;Φnα,β表示在空间位置α,β类激活的重要性,从而导致将图像分类为kn的类别; 通过将CAM上采样到输入图像的大小,能了解到某一阶段图像中与类别kn最相关的区域;因此,在获得Φ之后,通过使用双线性采样核对Φn,进行上采样生成注意力映射其中:Hin、Win分别是输入图像的高度和宽度;然后利用最小-最大归一化计算归一化注意力映射的每个空间元素: 利用归一化注意力映射作为指导,找到并裁剪具有歧视性的区域,具体地说,首先通过将中的元素对于大于阈值tt∈[0,1]的值设置为1,并对于其他值设置为0来生成即的每个空间元素的计算公式为: 根据能定位一个覆盖的所有正区域的边界框,并从输入图像中裁剪该区域,将裁剪区域上采样到输入图像的大小,将上采样的注意力区域An视为某一阶段预测的注意力区域,通过总结不同阶段学习到的注意力信息来生成整体注意区域,其计算公式为: 此后,类似于An的生成过程,使用最小-最大归一化来处理并且将结果表示为然后,基于相同的阈值t将的元素设置为1或0;最后,定位覆盖所有的正值区域,将输入图像的相同区域裁剪,得到未采样且具有与输入图像相同大小的整体注意区域Aglobal; 4.3多步骤相互学习:采用渐进多步骤策略来训练每一阶段,在早期步骤中逐一培训这些阶段,这能集中学习对应阶段的注意信息;最后两步,所有阶段一起工作,分别从关注区域和原始图像中学习有效信息,包括下列步骤: 4.3.1训练最深层特征阶段:由于针对最深层特征阶段的训练涉及比该特征层级更浅的阶段,因此在这一步中,还能生成所有阶段提出的注意区域和整体注意区域{A1,A2,…,An,…,Aglobal};通过标记每个阶段做出分类判断的基础,这些区域承载了每个阶段的注意信息; 4.3.2互数据增强,训练逐渐转向浅层特征阶段:当训练该阶段时,根据互数据增强的原理会从图像库中随机选择一个输入,该图像库由原始输入和除该浅层阶段之外的注意区域组成; 4.3.3训练所有层级阶段及其与整体注意区域的连接:整体注意区域由所有层级阶段共同构成,包含每一阶段重要的注意力信息、放大和研究共同获得的注意力信息,以提取更细粒度的特征; 4.4模型训练:使用随机梯度下降--SGD训练模型,epoch为200,momentum为0.9,weight_decay为0.0005,batchsize为64,使用CosineAnnealing将学习率设置为0.002;图像输入大小设置为224×224;阈值t设置为0.5; 5损失函数:采用交叉熵损失的渐进多步骤策略进行训练,包含每个阶段的输出预测和级联特征的输出预测; 5.1对于每个阶段的输出,采用真实标签y和预测概率分布之间的交叉熵进行损失计算,其计算公式为: 5.2对于级联特征的输出,采用真实标签y和预测概率分布之间的交叉熵进行损失计算,其计算公式为:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市长春高新技术产业开发区前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励