北京潞晨科技有限公司韩佳桐获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京潞晨科技有限公司申请的专利一种混合词频嵌入的双重张量并行方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115455150B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211181058.1,技术领域涉及:G06F16/3331;该发明授权一种混合词频嵌入的双重张量并行方法是由韩佳桐;方佳瑞;李升桂;卞正达;李永彬;柳泓鑫;麦思琪;刘育良;黄海晨;娄宇轩;吴俊铭;路广阳;陈巍文设计研发完成,并于2022-09-27向国家知识产权局提交的专利申请。
本一种混合词频嵌入的双重张量并行方法在说明书摘要公布了:本发明公开了一种混合词频嵌入的双重张量并行方法,具体包括以下步骤:S1、通过任务分配器先扫描一遍训练用到的数据集,统计每个查询的词id出现次数,然后利用贪心算法minimax:使切割后嵌入表之间词频的最大差距尽量小将嵌入表的行按词频总数均匀切割到并行的设备上,使每个设备上的词频数基本一致,本发明涉及深度学习技术领域。该混合词频嵌入的双重张量并行方法,通过嵌入表的词频分布信息,在张量并行时做到了按访问量均匀横向切割,保证训练量的均摊;同时支持嵌入袋的操作,相比于单纯的嵌入有效缩减了设备间通信的开销;在并行的每个设备上,按照词频将嵌入表进行二次切割,并进行算法压缩,有效地进一步减小了每个设备上的内存消耗。
本发明授权一种混合词频嵌入的双重张量并行方法在权利要求书中公布了:1.一种混合词频嵌入的双重张量并行方法,其特征在于:具体包括以下步骤: S1、通过任务分配器先扫描一遍训练用到的数据集,统计每个查询的词id出现次数,然后利用贪心算法将嵌入表的行按词频总数均匀切割到并行的设备上,使每个设备上的词频数基本一致,同时预处理输入数据,只保留每个设备上可以查询到的词id,将查询不到的词用特殊值替换; S2、每个设备上的词频分布遵循长尾的特点,在排序之后按照几个不同的分位数将嵌入袋按行分割成一个个嵌入块;根据每个分割过的嵌入块内的词频数量,压缩现有的嵌入维度到合适的值,并用对应的线性投射器将各个嵌入块最终的嵌入维度拓展为统一维度;所述分位数可为25%,50%,75%;所述嵌入袋为一种嵌入数据结构,支持加和、均值和最大值操作; S3、使用reduce和all-reduce操作来收集切割后的嵌入袋;其中,对只发生在单个设备上的分割情形,在设备内部进行reduce操作,即直接取和,得到嵌入形状;对存在多个设备上的分割情形,在设备间进行all-reduce操作,即每个设备的嵌入表都会传输到其他设备上,并连接起来,然后进行取和操作,得到对应的形状。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京潞晨科技有限公司,其通讯地址为:100080 北京市海淀区海淀大街34号8层801-802室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励