中电万维信息技术有限责任公司曹肖攀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中电万维信息技术有限责任公司申请的专利一种基于NGU语言模型的文本特征提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115730587B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211606356.0,技术领域涉及:G06F40/242;该发明授权一种基于NGU语言模型的文本特征提取方法是由曹肖攀;马国祖设计研发完成,并于2022-12-15向国家知识产权局提交的专利申请。
本一种基于NGU语言模型的文本特征提取方法在说明书摘要公布了:本发明涉及自然语言处理技术领域,一种基于NGU语言模型的文本特征提取方法。本专利针对基于循环神经网络的GRU模型进行优化改进,提出了一种新的文本特征提取模型NGU语言模型,将GRU的门控单元引入归一化机制,将存在饱和区的双曲正切函数替换为层归一化操作,同时将Transformer的前馈层神经网络融入到迭代单元中提升模型语义表示能力,也即模型拟合数据能力。
本发明授权一种基于NGU语言模型的文本特征提取方法在权利要求书中公布了:1.一种基于NGU语言模型的文本特征提取方法,其特征在于包括有如下步骤: S1.构造训练数据集:收集整理和任务相关的训练数据集放入到train.txt中,输入NGU语言模型的文本最大长度为1000,当文本长度不足1000,采用[PAD]填充到最大长度1000; S2.构造字符到ID的映射:针对S1中的训练集合中train.txt统计其中的字符记为token_list,然后根据token_list中字符建立词典Dict_token,Dict_token的前项key为字符索引编号,Dict_token的后项value为具体的单个字符,[PAD]为文本不够最大长度时的补全字符; S3.训练数据和模型适配:步骤S1中得到的训练数据集中文本样本,文本不够最大长度1000,则将列表通过[PAD]填充到该文本最大长度1000,然后通过字典Dict_token映射成索引编号列表,并变成模型输入的张量X,输入NGU语言模型的批次大小batch_size为128,则X的大小为[128,1000]; S4.NGU语言模型文本特征提取:原始的GRU网络模型迭代公式如下: f为GRU门控循环单元等效公式,f的详细公式如下: 提出的NGU迭代公式具体如下: sigmoid函数当x远离0时候,存在饱和区,经过全连接层后,经过sigmoid函数丢失了信息,引入层归一化操作,在嵌入表示维度进行归一化,然后采用sigmoid函数有效的保留了文本表示信息; 当中数值远离0值到达饱和区时输出会趋于一个稳定值,丢失很多语义信息; 采用层归一化操作替换GRU中双曲正切函数tanh,layernorm层归一化的操作如下,即在语义表示维度d_model进行归一化,假如当前字表示矩阵为T,矩阵大小为[1,d_model],在第二维度的取值依次如下: 其均值如下: 其方差为: 层归一化的每个输入为: 层归一化操作仅仅将数据进行平移收缩,并未丢失语义信息,同时该操作使得嵌入表示维度归一化到0附近,使得模型训练更加稳定,将Transformer中的前馈层神经网络层迁移到NGU模型中,前馈神经网络中包含两次线性变换和一次非线性变换GeLU激活函数,然后经过残差网络和层归一化操作; 字嵌入维度为256,前馈神经网络的隐层维度为2048,针对在步骤S3中模型输入的大小为[128,1000],先经过token_embedding将文本数据中每个字进行嵌入表示,1000个字中每个字的嵌入表示的矩阵形状为[128,256],128为训练中batchsize大小,256为文本中字嵌入维度,然后将文本数据X中每个字嵌入依次输入上述NGU循环迭代单元,然后将每个时间步的拼接到一起为,维度为[128,1000,256],通过NGU语言模型完成文本特征的提取,针对一个批次中数据的每句话的每个字通过NGU语言模型表示为256维度; S5.NGU语言模型应用:提出的NGU语言模型非预训练语言模型,根据具体的自然语言处理任务进行参数训练,S4得出的文本表示张量大小为[128,1000,256],将该张量接入后续文本分类、关系抽取、文本生成、实体识别的神经网络中进行训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电万维信息技术有限责任公司,其通讯地址为:730000 甘肃省兰州市城关区张苏滩553号(电信第二枢纽B区4-7层);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励