Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院计算技术研究所薛源海获国家专利权

中国科学院计算技术研究所薛源海获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院计算技术研究所申请的专利一种基于实体增强的文本语义表示方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116662480B

龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310505568.8,技术领域涉及:G06F16/334;该发明授权一种基于实体增强的文本语义表示方法及系统是由薛源海;夏浩耘;陈翠婷;贺广福;俞晓明;沈华伟;程学旗设计研发完成,并于2023-05-06向国家知识产权局提交的专利申请。

一种基于实体增强的文本语义表示方法及系统在说明书摘要公布了:本发明提出一种基于实体增强的文本语义表示方法和系统,包括:获取文本编码模型和实体增强编码模型,实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过文本编码模型提取目标文本的第一表示向量;以外部实体向量表示模块识别目标文本中表示实体的词项序列,并确定词项序列和知识库中的哪些实体相关联,获得词项序列对应实体的在知识库中的实体向量表示;实体信息编码模块包括多个串联的实体适配器层,实体信息编码模块的输入为实体向量表示和文本编码模型中间层的隐状态;最后一个实体适配器层输出的特征作为目标文本的第二表示向量;融合第一表示向量和第二表示向量,得到目标文本的语义表示结果。

本发明授权一种基于实体增强的文本语义表示方法及系统在权利要求书中公布了:1.一种基于实体增强的文本语义表示方法,其特征在于,包括: 步骤1、获取待语义表示的目标文本,并获取文本编码模型和实体增强编码模型,该实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过该文本编码模型提取该目标文本的第一表示向量; 步骤2、以该外部实体向量表示模块识别该目标文本中表示实体的词项序列,并确定该词项序列和知识库中的哪些实体相关联,获得该词项序列对应实体的在该知识库中的实体向量表示; 步骤3、该实体信息编码模块包括多个串联的实体适配器层,该实体信息编码模块的输入为目标文本中实体的向量表示和文本编码模型中间层的隐状态,每个该实体适配器层的输入为与之对应的该文本编码模型中间层输出的隐状态和前一层实体适配层的输出;最后一个实体适配器层输出的特征作为目标文本的第二表示向量; 步骤4、通过实体信息门控单元,融合该第一表示向量和该第二表示向量,得到该目标文本的语义表示结果; 其中,该步骤2包括: 通过命名实体识别,识别出目标文本中表示实体的词项序列,通过实体链接确定该词 项序列对应知识库中实体,对于每个词或实体,通过词向量化工具Wikipedia2vec获得实 体在知识库中的向量表示; 给定词表和实体表,映射函数,以将词 和实体映射到同一个向量空间中; 根据公式1,得到一个线性变换矩阵,为文本编码模型中的向 量维度,为Wikipedia2vec编码出的实体向量的维度;对于定词表和实体表中的每个词或实体,它通过将词向量化工具Wikipedia2vec的得到的向量表示,经过线性变换后得到,通过文本编码模型的嵌入层得到的 向量表示;变换矩阵二范数平方之和最小; 通过公式1的线性变换,将词和实体通过Wikipedia2vec得到的向量表示映射到文本编码模 型嵌入层所在的空间; 根据公式2得到映射函数,得到词和实体均映射到该文本编码模型的输入向量空间后 的向量表示,对于不在实体表中的词,直接使用文本编码模型的嵌入层得到的 向量表示; 该步骤3包括: 为文本编码模型的第j个中间层输出的隐状态,形状为,BatchSize为当前训练批次的样本数量,为 文本编码器的最大文本token数量,为文本编码器隐层维度; 表示第i个实体适配器的输出,是形状为的张量, 其中“1”对应存放该文本编码模型输出的位置;EntityLen为实体的数量;对于第1个实体适 配器,其输入为,的第0个位置对应全0的向量,第个位置对应的是第 对于第i层实体适配器层,根据下式公式3将文本编码模型的第j个中间层[CLS]token 输出的隐状态加到第i-1层的实体适配器层输出的第0个位置;根 据述公式4,将得到的作为输入,先经过投影层进行降维,使维度从变成; 根据公式5,送入到N个transformer层编码,再根据公式6用投影层来升高维度,使得维度从恢复到,并与相加,形成残差连接; 如公式7所示,实体增强编码模型最终的输出为,其为最后一个实体适配层的输出中第0个位置所对应的编码结果,其中为实体适配层的数量;。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:北京市中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。