清华大学刘洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学申请的专利一种多模态预训练模型的训练方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115526259B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211204122.3,技术领域涉及:G06V10/774;该发明授权一种多模态预训练模型的训练方法和装置是由刘洋;陈驰;李鹏;孙茂松设计研发完成,并于2022-09-29向国家知识产权局提交的专利申请。
本一种多模态预训练模型的训练方法和装置在说明书摘要公布了:本发明提供一种多模态预训练模型的训练方法和装置,构建包含多模态图文信息处理网络的多模态预训练模型;构建弱对齐图像‑文本数据集;其中,弱对齐图像‑文本数据集包含文本数据集、图像‑标签数据集和图像‑指代描述数据集;利用弱对齐图像‑文本数据集训练多模态预训练模型。本发明多模态图文信息处理网络可以直接处理多模态图文信息,无需外部模型辅助提取图像特征,推理能力强。同时,采用弱对齐图像‑文本数据集来训练多模态预训练模型,减轻对人工标注的图像‑文本对齐数据的依赖,避免使用对齐的大规模图像‑文本数据集来训练多模态预训练模型出现的数据开销大的问题。
本发明授权一种多模态预训练模型的训练方法和装置在权利要求书中公布了:1.一种多模态预训练模型的训练方法,其特征在于,所述方法包括: 构建包含多模态图文信息处理网络的多模态预训练模型; 构建弱对齐图像-文本数据集;其中,所述弱对齐图像-文本数据集包含文本数据集、图像-标签数据集和图像-指代描述数据集; 利用所述弱对齐图像-文本数据集训练所述多模态预训练模型; 其中,所述图像-标签数据集中的样本,由图像及其对应的标签词文本序列构成;图像对应的标签词文本序列由图像中所有实体的标签词拼接而成; 所述图像-指代描述数据集中的样本,由图像及其对应的指代描述构成; 所述利用所述弱对齐图像-文本数据集训练所述多模态预训练模型,包括: 对所述图像-标签数据集中的每一条样本进行第一预处理,以得到第一数据集; 对所述图像-指代描述数据集中的每一条样本进行第二预处理,以得到第二数据集; 对所述文本数据集中的每一条样本进行第三预处理,以得到第三数据集; 利用多模态图文信息处理网络,生成所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量; 利用所述第一数据集中每一条样本对应的多模态表征向量、所述第二数据集中每一条样本对应的多模态表征向量以及所述第三数据集中每一条样本对应的多模态表征向量,对所述多模态预训练模型进行被遮盖标签词预测任务,指代描述匹配任务和被遮盖分词预测任务的联合训练; 其中,所述第一预处理至少包括: 将样本中的图像切割为N块得到对应的图像块序列; 随机遮盖样本中标签词文本序列的部分标签词得到带有遮盖标注的标签词文本序列; 所述第二预处理至少包括: 将样本中的图像切割为N块得到对应的图像块序列; 确定样本中的指代描述对应的分词序列; 所述第三预处理至少包括: 确定样本中文本对应的文本分词序列; 随机遮盖所述文本分词序列中的部分分词得到带有遮盖标注的文本分词序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区双清路30号清华大学清华园北京100084-82信箱;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励