合肥统旭智慧科技有限公司于宝剑获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥统旭智慧科技有限公司申请的专利一种广角投放的多模态AI量子点户外数字显示装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121415781B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512015363.3,技术领域涉及:G10L15/22;该发明授权一种广角投放的多模态AI量子点户外数字显示装置是由于宝剑设计研发完成,并于2025-12-30向国家知识产权局提交的专利申请。
本一种广角投放的多模态AI量子点户外数字显示装置在说明书摘要公布了:本发明公开了一种广角投放的多模态AI量子点户外数字显示装置。该装置包括摄像头、多阵列麦克风、处理器和UHD大屏。处理器包括对音频信号进行语音识别,得到初始文本以及语音置信度;将语音置信度与预设的阈值区间进行比较,若语音置信度高于阈值区间,则将初始文本作为识别结果;若语音置信度位于阈值区间内,将低于第一阈值的初始文本的字符替换为相对应的唇形识别文本的字符,并作为识别结果;若语音置信度低于阈值区间,则将高于第三阈值的唇形识别文本作为识别结果,否则将识别失败作为识别结果;将识别结果生成对应的交互策略。本申请引入多模态识别机制,使得用户无须佩戴任何设备仍能够实现稳定人机交互功能。
本发明授权一种广角投放的多模态AI量子点户外数字显示装置在权利要求书中公布了:1.一种广角投放的多模态AI量子点户外数字显示装置,其特征在于,包括: 摄像头,用于采集用户的人脸图像; 多阵列麦克风,用于采集用户的音频信号; 处理器,其包括: 对音频信号进行语音活动检测,若检测到有效语音活动,则对音频信号进行语音识别,得到初始文本以及语音置信度; 将语音置信度与预设的阈值区间进行比较,并做出如下决策: 1若语音置信度高于阈值区间,则将初始文本作为识别结果; 2若语音置信度位于阈值区间内,则对初始文本以及语音置信度进行字符划分,将低于第一阈值的初始文本的字符替换为相对应的唇形识别文本的字符,替换后的文本作为识别结果;所述唇形识别文本是由唇部区域经唇形识别后置信度高于第二阈值的文本,所述唇部区域是由人脸图像经ROI分割得到; 3若语音置信度低于阈值区间,则判断唇形识别文本的置信度是否高于第三阈值,是则将唇形识别文本作为识别结果,否则将识别失败作为识别结果; 将识别结果生成对应的交互策略; 处理器在将低于第一阈值的初始文本的字符替换为相对应的唇形识别文本的字符之前,先对唇形识别文本进行一致性判定,具体步骤如下: 将音频信号进行语音识别的初始预设时间窗口内的语音置信度高于阈值区间初始文本作为基准文本,同步对初始预设时间窗口内的人脸图像进行唇部区域识别筛选得到唇形识别文本;初始预设时间窗口的语音置信度为处理器在语音识别阶段将音频信号划分为多个时间窗口,并标记每个窗口的平均语音置信度得到; 计算唇形识别文本与对应基准文本的相似度,若相似度超阈,则判定唇部区域识别可靠,执行唇形识别文本辅助修正初始文本操作; UHD大屏,其用于执行交互策略并显示相应内容。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥统旭智慧科技有限公司,其通讯地址为:236400 安徽省合肥市瑶海区幸福路与桃花潭路交口中国网谷物联网产业园5#楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励